蚂蚁集团开源Ming-flash-omni 2.0：全模态能力升级，为多模态应用开发提供新引擎-AI+-智快网

蚂蚁集团近日宣布，其自主研发的全模态大模型Ming-flash-omni 2.0正式开源，为全球开发者提供了一套支持多模态交互的通用能力框架。该模型在视觉语言理解、语音生成控制及图像编辑等领域的多项基准测试中表现优异，部分指标甚至超越了专用模型，标志着全模态技术向实用化迈出关键一步。

作为业界首个实现音频全场景统一生成的模型，Ming-flash-omni 2.0突破了传统语音合成与音效处理的界限。通过自然语言指令，用户可同时操控语音、环境音效及背景音乐的生成，并精准调节音色、语速、语调等12项参数。模型在推理效率上达到3.1Hz的帧率，支持分钟级长音频的实时高保真输出，其零样本音色克隆技术更实现了无需训练即可复现特定声音的能力。

技术团队透露，该模型基于Ling-2.0架构（MoE，100B-A6B）构建，通过系统性优化实现了三大核心突破：视觉模块整合亿级细粒度数据，显著提升对复杂物体的识别精度；音频模块突破多轨生成限制，实现三要素同步合成；图像模块增强编辑稳定性，支持光影动态调整、场景智能替换等高级功能。在文物鉴定、工业检测等场景中，模型对细微特征的识别准确率较前代提升37%。

全模态技术的核心挑战在于平衡通用性与专业性。蚂蚁集团通过分阶段演进策略破解这一难题：早期版本构建多模态基础能力，中期版本验证规模效应，2.0版本则通过10倍级数据扩容与混合专家训练法，在保持开源模型开放性的同时，使文本生成、图像理解等任务达到行业顶尖水平。实测数据显示，其语音合成质量在MOS评分中达到4.8分（满分5分），接近人类发音水平。

开源社区已同步上线模型权重与推理代码，开发者可通过Hugging Face平台直接调用。蚂蚁百灵官方平台Ling Studio更提供在线体验入口，用户上传图片或音频后，可实时测试模型的人物姿态优化、一键修图、情绪语音生成等功能。某影视后期团队测试后表示，该模型将传统多软件协作的流程压缩至单一框架内，工作效率提升60%以上。

项目负责人指出，全模态架构的价值在于消除不同模态间的调用壁垒。通过统一的能力底座，开发者可避免重复训练视觉、语音等基础模块，大幅降低AI应用的开发成本。目前团队正攻关视频时序理解与长音频实时生成技术，未来计划完善工具链生态，推动全模态技术在智慧医疗、数字内容生产等领域的规模化落地。

字节Seedance 2.0内测引关注：限制真人人脸参考，平衡创新与安全责任

北京航空航天大学人工智能研究院教授沙磊评价说，现在Seedance 2.0还在小范围内测阶段，字节也限制了一部分模型功能，比如只有在进行活体认证的情况下可以生成真人视频，不支持输入真人图片或视频做主体参考等…

2026-02-11

小米17 Pro系列背屏新春玩法来袭隔空手势放烟花相机功能再升级

1. 适配了小米 17 Ultra 的智能场景卡片功能，支持后置拍照录像，重点优化烟花、舞台等场景拍摄效果 2. 录像模式可手动开启LOFIC，LOFIC 卡片最高支持分辨率 4K 60FPS (仅小米…

2026-02-11

国产万卡超集群发力，万亿参数大模型助力中国AI产业“弯道超车”

“因为不同计算精度和shape场景下的算子最优实现并不一致，一些国产算力的泛化能力还不够强，所以导致模型移植后的开箱性能往往无法达到理论算力上限，需要进一步开展深入的性能优化工作等。” 一方面是基于开放的架…

2026-02-11

德赛西威：依托技术优势拓展新领域，稳步前行未来前景光明

在汽车行业的快速变化中，德赛西威（SZ002920）正稳步前行，抓住市场机遇，展现出强大的创新能力。德赛西威的核心业务一直集中在汽车电子产品的销售上，但随着行业发展和消费者需求的变化，公司正在积极布局新产品和…

2026-02-11

百度萝卜快跑携手Uber，2026年一季度将在迪拜开启全无人驾驶出行新篇

2月10日，百度集团宣布，旗下萝卜快跑与移动出行服务平台Uber共同宣布，双方将进一步深化战略合作，计划于2026年第一季度在阿联酋迪拜正式推出全无人驾驶出行服务，这也是迪拜首次迎来全无人驾驶出行服务。…

2026-02-11