小米在人工智能领域再获突破,其多项AI创新成果成功入选国际顶级学术会议ICASSP 2026。这一会议作为全球音频领域最具权威性与影响力的学术盛会之一,自1976年在美国费城首次举办以来,已有近50年历史。ICASSP 2026将于今年5月在西班牙巴塞罗那举行,小米的入选标志着其在AI技术研发上的国际领先地位。
在音频理解领域,小米团队推出了名为ACAVCaps的创新数据集。该数据集通过自动化管线,从多维度、多视角对音频内容进行精细化描述,解决了现有数据集在规模与描述粒度上难以兼得的瓶颈。ACAVCaps构建了多级自动化标注框架,利用多个专家模型并行提取音频中的关键元数据,并通过大语言模型和思维链推理策略进行逻辑整合。这一方法使标注文本从单一标签进化为具备逻辑层次和上下文信息的自然语言。ACAVCaps包含约470万条音频-文本对,将推动音频AI从简单的特征识别向深度的语义理解发展,并计划近期全面开源。
在联邦学习领域,小米提出了FedDCG框架,首次在联邦学习设置下联合解决类别和域泛化问题。传统方法往往因决策边界混淆、计算资源限制等问题,在复杂场景下性能受限。FedDCG通过域分组策略和类特定协作训练机制,避免了类别和领域决策边界之间的混淆,显著提升了模型在未知环境中的准确性与鲁棒性。实验表明,FedDCG在多个数据集上的表现优于当前最先进的基线方法,尤其在数据稀缺场景下仍保持领先,为跨域图像分类和隐私保护下的模型部署提供了可行路径。
在音乐生成感知评估方面,小米团队提出了FUSEMOS架构。现有自动音乐感知评估方法主要依赖单一音频编码器,难以捕捉音乐中的复杂结构与细粒度特征。FUSEMOS融合了CLAP与MERT两大预训练模型,通过双编码器架构实现更精准、更贴近人类听觉感知的评估。实验结果表明,FUSEMOS在关键指标上显著优于现有方法,验证了其在音乐感知评估中的有效性。
小米还提出了GLAP模型,实现了跨音频领域与跨语言的音频-文本对齐。GLAP首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,解决了传统CLAP模型领域割裂的问题。该模型在多个语音和声音检索基准上保持竞争力,并具备多语言泛化能力,无需目标语种微调即可在50种语言的关键词识别中展现Zero-shot能力。GLAP将直接赋能小米“人车家全生态”中的跨模态理解场景,如复杂声学场景下的鲁棒语音交互、车载多模指令理解等。
在视频到音频合成领域,小米团队提出了MeanFlow模型,实现了推理效率与生成质量的双重突破。MeanFlow通过平均速度场建模替代传统流匹配模型的瞬时速度建模,解决了多步迭代采样导致的推理速度瓶颈,实现推理阶段的一步生成。实验表明,MeanFlow在推理速度大幅提升的同时,精准保障了音效生成质量,并确保音视频语义对齐与时间同步性。该模型将显著降低下游音视频创作与智能交互产品的研发门槛,推动实时音效生成技术的规模化落地。
在多模态检索领域,小米提出了一种统一的多任务学习框架,将“找图、找文、意图理解”整合到两个模型中。该框架通过文本编码器同时对齐图像和文本的语义空间,并通过跨注意力机制与NLU模型进行语义交互,实现了意图感知和语义增强。实验表明,该框架在找图与找文任务上均达到或超过现有最优方法,并支持多语言输入,为小米手机场景下的多模态检索提供了轻量化、高性能的解决方案。
