智快网
快讯 行业 产业 汽车 科技 AI+ 热点

蚂蚁集团开源Ming-flash-omni 2.0:全模态能力升级,为多模态应用开发提供新引擎

2026-02-11来源:互联网编辑:瑞雪

蚂蚁集团近日宣布,其自主研发的全模态大模型Ming-flash-omni 2.0正式开源,为全球开发者提供了一套支持多模态交互的通用能力框架。该模型在视觉语言理解、语音生成控制及图像编辑等领域的多项基准测试中表现优异,部分指标甚至超越了专用模型,标志着全模态技术向实用化迈出关键一步。

作为业界首个实现音频全场景统一生成的模型,Ming-flash-omni 2.0突破了传统语音合成与音效处理的界限。通过自然语言指令,用户可同时操控语音、环境音效及背景音乐的生成,并精准调节音色、语速、语调等12项参数。模型在推理效率上达到3.1Hz的帧率,支持分钟级长音频的实时高保真输出,其零样本音色克隆技术更实现了无需训练即可复现特定声音的能力。

技术团队透露,该模型基于Ling-2.0架构(MoE,100B-A6B)构建,通过系统性优化实现了三大核心突破:视觉模块整合亿级细粒度数据,显著提升对复杂物体的识别精度;音频模块突破多轨生成限制,实现三要素同步合成;图像模块增强编辑稳定性,支持光影动态调整、场景智能替换等高级功能。在文物鉴定、工业检测等场景中,模型对细微特征的识别准确率较前代提升37%。

全模态技术的核心挑战在于平衡通用性与专业性。蚂蚁集团通过分阶段演进策略破解这一难题:早期版本构建多模态基础能力,中期版本验证规模效应,2.0版本则通过10倍级数据扩容与混合专家训练法,在保持开源模型开放性的同时,使文本生成、图像理解等任务达到行业顶尖水平。实测数据显示,其语音合成质量在MOS评分中达到4.8分(满分5分),接近人类发音水平。

开源社区已同步上线模型权重与推理代码,开发者可通过Hugging Face平台直接调用。蚂蚁百灵官方平台Ling Studio更提供在线体验入口,用户上传图片或音频后,可实时测试模型的人物姿态优化、一键修图、情绪语音生成等功能。某影视后期团队测试后表示,该模型将传统多软件协作的流程压缩至单一框架内,工作效率提升60%以上。

项目负责人指出,全模态架构的价值在于消除不同模态间的调用壁垒。通过统一的能力底座,开发者可避免重复训练视觉、语音等基础模块,大幅降低AI应用的开发成本。目前团队正攻关视频时序理解与长音频实时生成技术,未来计划完善工具链生态,推动全模态技术在智慧医疗、数字内容生产等领域的规模化落地。

字节Seedance 2.0内测引关注:限制真人人脸参考,平衡创新与安全责任
北京航空航天大学人工智能研究院教授沙磊评价说,现在Seedance 2.0还在小范围内测阶段,字节也限制了一部分模型功能,比如只有在进行活体认证的情况下可以生成真人视频,不支持输入真人图片或视频做主体参考等…

2026-02-11

小米17 Pro系列背屏新春玩法来袭 隔空手势放烟花相机功能再升级
1. 适配了小米 17 Ultra 的智能场景卡片功能,支持后置拍照录像,重点优化烟花、舞台等场景拍摄效果 2. 录像模式可手动开启LOFIC,LOFIC 卡片最高支持分辨率 4K 60FPS (仅小米…

2026-02-11

国产万卡超集群发力,万亿参数大模型助力中国AI产业“弯道超车”
“因为不同计算精度和shape场景下的算子最优实现并不一致,一些国产算力的泛化能力还不够强,所以导致模型移植后的开箱性能往往无法达到理论算力上限,需要进一步开展深入的性能优化工作等。” 一方面是基于开放的架…

2026-02-11

德赛西威:依托技术优势拓展新领域,稳步前行未来前景光明
在汽车行业的快速变化中,德赛西威(SZ002920)正稳步前行,抓住市场机遇,展现出强大的创新能力。德赛西威的核心业务一直集中在汽车电子产品的销售上,但随着行业发展和消费者需求的变化,公司正在积极布局新产品和…

2026-02-11

百度萝卜快跑携手Uber,2026年一季度将在迪拜开启全无人驾驶出行新篇
2月10日,百度集团宣布,旗下萝卜快跑与移动出行服务平台Uber共同宣布,双方将进一步深化战略合作,计划于2026年第一季度在阿联酋迪拜正式推出全无人驾驶出行服务,这也是迪拜首次迎来全无人驾驶出行服务。…

2026-02-11