蚂蚁集团近日宣布,其自主研发的全模态大模型Ming-flash-omni 2.0正式开源,为全球开发者提供了一套支持多模态交互的通用能力框架。该模型在视觉语言理解、语音生成控制及图像编辑等领域的多项基准测试中表现优异,部分指标甚至超越了专用模型,标志着全模态技术向实用化迈出关键一步。
作为业界首个实现音频全场景统一生成的模型,Ming-flash-omni 2.0突破了传统语音合成与音效处理的界限。通过自然语言指令,用户可同时操控语音、环境音效及背景音乐的生成,并精准调节音色、语速、语调等12项参数。模型在推理效率上达到3.1Hz的帧率,支持分钟级长音频的实时高保真输出,其零样本音色克隆技术更实现了无需训练即可复现特定声音的能力。
技术团队透露,该模型基于Ling-2.0架构(MoE,100B-A6B)构建,通过系统性优化实现了三大核心突破:视觉模块整合亿级细粒度数据,显著提升对复杂物体的识别精度;音频模块突破多轨生成限制,实现三要素同步合成;图像模块增强编辑稳定性,支持光影动态调整、场景智能替换等高级功能。在文物鉴定、工业检测等场景中,模型对细微特征的识别准确率较前代提升37%。
全模态技术的核心挑战在于平衡通用性与专业性。蚂蚁集团通过分阶段演进策略破解这一难题:早期版本构建多模态基础能力,中期版本验证规模效应,2.0版本则通过10倍级数据扩容与混合专家训练法,在保持开源模型开放性的同时,使文本生成、图像理解等任务达到行业顶尖水平。实测数据显示,其语音合成质量在MOS评分中达到4.8分(满分5分),接近人类发音水平。
开源社区已同步上线模型权重与推理代码,开发者可通过Hugging Face平台直接调用。蚂蚁百灵官方平台Ling Studio更提供在线体验入口,用户上传图片或音频后,可实时测试模型的人物姿态优化、一键修图、情绪语音生成等功能。某影视后期团队测试后表示,该模型将传统多软件协作的流程压缩至单一框架内,工作效率提升60%以上。
项目负责人指出,全模态架构的价值在于消除不同模态间的调用壁垒。通过统一的能力底座,开发者可避免重复训练视觉、语音等基础模块,大幅降低AI应用的开发成本。目前团队正攻关视频时序理解与长音频实时生成技术,未来计划完善工具链生态,推动全模态技术在智慧医疗、数字内容生产等领域的规模化落地。




