智快网
快讯 行业 产业 汽车 科技 AI+ 热点

小米MiMo-V2-TTS语音合成大模型登场:多风格演绎还能方言唱歌

2026-03-19来源:互联网编辑:瑞雪

小米公司今日宣布推出全新自研语音合成大模型Xiaomi MiMo-V2-TTS,这款集语音生成、情感表达与音乐演绎能力于一体的技术成果,标志着小米在智能语音领域实现重大突破。该模型突破传统语音合成的单一功能限制,不仅能够完成自然流畅的对话输出,更具备专业级的歌唱表现力,可精准还原音高变化与节奏韵律。

技术架构层面,研发团队创新性地采用自研Audio Tokenizer与多码本联合建模方案,通过超亿小时的语音数据预训练构建起庞大的声学知识库。配合多维度强化学习机制,模型在保持输出稳定性的同时,实现了对语音风格、情感强度的精细化控制。实验数据显示,该系统可精准捕捉文本中的标点符号、语气词等隐含表达意图,自动转化为符合人类交流习惯的语音特征。

在情感表达维度,MiMo-V2-TTS展现出惊人的控制力。系统支持从整体语气定调到局部情感波动的多层级调节,能够在单句输出中完成从平静陈述到激动质问的自然过渡。针对歌唱场景开发的专用模块,通过解析乐谱中的音符时值与强弱记号,可生成媲美专业歌手的演唱效果,在清唱测试中获得92.3%的音准准确率。

方言支持能力成为该模型的另一大亮点。通过构建覆盖东北官话、西南官话、中原官话、粤语及闽南语等五大方言区的语音数据库,系统实现了对23种地方语音特征的精准建模。在角色扮演测试中,模型可根据文本内容自动切换方言语调,配合情感控制模块生成极具地域特色的语音输出。

据技术白皮书披露,该模型已实现与小米多模态理解系统MiMo-V2-Omni的初步融合。这种跨模态协同架构使AI代理在视觉感知的基础上,能够通过富有表现力的语音输出实现更自然的人机交互。研发团队透露,后续版本将扩展至日韩法德等15种外语,并优化多语言混合场景下的语音生成质量。

这项技术成果已应用于小米智能音箱、车载系统及机器人产品线,用户可通过OTA升级体验最新功能。在内部测试中,搭载该模型的设备在对话自然度评分中达到4.7分(满分5分),较前代产品提升38%,特别是在情感表达丰富度和方言识别准确率等关键指标上表现突出。

藏语大模型DeepZang全球首发 填补技术空白 赋能西藏多领域发展
微信公众号“觉罗数字”消息,3月15日,世界首个藏语大语言模型DeepZang正式全球发布。 DeepZang由西藏觉罗数字产业管理有限公司自主攻关研发。历时四年攻关,觉罗数字始终扎根雪域高原,立足藏语言文…

2026-03-19

Nothing CEO裴宇展望:AI智能体引领手机交互变革 传统应用或成幕后“资源库”
裴宇进一步介绍了所谓的“AI 优先设备”,相应产品号称可以高度理解用户行为与偏好,用户无需反复验证 AI输出的真实性,能够真正建立信任这些设备,从而无限提高产品交互效率。在 AI 优先的系统中,这一系列操…

2026-03-19

小米发布MiMo-V2-Pro旗舰模型:总参数量超1T 1M上下文助力Agent场景
据介绍,该模型专为现实世界中高强度的Agent工作场景而打造,总参数量突破1T(激活参数42B),较前代MiMo-V2-Flash扩大约3倍。 MiMo-V2-Pro模型现已正式开放API服务,支持1M上下…

2026-03-19

裴宇畅谈后iPhone时代:AI智能体将驱动设备,应用或成历史
“在软件领域的AI应用方面,我认为人们应该明白,应用将会消失,”裴宇表示,他的公司致力于制造独具特色的智能手机及其他配件,“因此,如果你是一位创业者或创业公司负责人,且你的核心价值寄托在应用上,那么无论你是否…

2026-03-19

开放式耳挂耳机怎么选?虹觅、漫步者、华为三款实测,帮你挑出最适合的!
399 元的价格能买到佩戴轻盈、音质在线、防漏音效果还出色的耳机,续航和防水能力也能满足日常使用,不管是上班族日常通勤用,还是学生党在宿舍使用,都很合适,性价比拉满,预算不高的话可以直接入手。它的续航能力在三…

2026-03-19

苹果“Apple 开发者”账号入驻B站,超50段视频助力2026年WWDC预热
来源:环球网 【环球网科技综合报道】3月18日消息,苹果公司为迎接 2026年全球开发者大会(WWDC),向全球开发者同步最新资讯、技术视频与活动安排,其开发者账号目前已入驻 B 站。 苹果官方账号“Ap…

2026-03-19