阿里未来生活实验室新突破：专家分化学习让MoE模型“专家”真专精-科技-智快网

在大模型技术飞速发展的当下，混合专家模型（MoE）已成为众多顶尖模型的核心架构。从GPT-5到DeepSeek-V3，这些性能卓越的模型背后，都离不开MoE架构的支撑。然而，MoE模型在实际应用中却面临着一个棘手的问题——专家同质化现象。在预训练过程中，本应各展所长的多个专家模块，却常常出现功能趋同的情况，导致大量参数无法有效发挥作用，模型的扩展能力也因此受到限制。

针对这一难题，一支来自阿里巴巴的研究团队提出了创新性的解决方案——专家分化学习策略。该团队深入研究发现，MoE预训练过程中信息缺失是导致专家同质化的根本原因。基于此，他们巧妙利用预训练数据中天然存在的领域标签，设计了一种全新的辅助损失函数。这一函数通过鼓励不同领域的数据在路由统计信息上呈现差异，促使各个专家模块发展出独特的专业能力，从而有效解决了专家同质化问题。

传统MoE训练中使用的负载均衡损失函数，虽然能够提高整体路由多样性，但却存在明显缺陷。它只关注专家是否被充分利用，而忽视了不同领域数据对专家的差异化需求。这就如同企业管理中，只追求员工忙碌程度，而不考虑工作内容的合理性，最终导致资源浪费和效率低下。阿里巴巴团队提出的专家分化学习策略，则从根本上改变了这一局面。

该策略的核心在于专家分化损失函数（LED）的设计。研究团队通过数学推导发现，总路由多样性可以分解为域间多样性和域内多样性两部分。传统方法盲目提升总多样性，导致模型倾向于通过增加域内多样性来应付训练，而新提出的LED函数则精准锁定域间多样性，通过最大化不同领域之间的"排斥力"，迫使专家模块实现功能分化。这一创新设计，为MoE模型训练提供了全新的思路。

LED函数的实现过程包含三个关键步骤：首先，在训练过程中识别不同领域的数据特征；其次，使用JS散度这一数学工具计算不同领域间的分布差异；最后，通过优化算法最大化这些差异。这个过程可以形象地理解为：将不同领域的专家"推"向模型空间的边缘位置，使它们各自专注于特定领域，形成专业化的分工体系。这种明确的监督信号，使得模型能够学习到与语义高度契合的路由策略。

研究团队通过实验验证了不同粒度领域标签对模型性能的影响。他们构建了粗粒度（3类）和细粒度（49类）两种标签体系进行对比训练。实验结果显示，使用49类细粒度标签训练的模型在各项指标上均显著优于3类标签模型。这一发现表明，专家分工越细致，模型展现出的专业能力就越强。这为MoE模型的优化提供了重要参考。

在性能验证方面，研究团队在30亿、80亿和150亿参数规模的模型上进行了大规模预训练。实验结果表明，采用专家分化学习策略的模型在语言建模损失上持续优于传统MoE模型。在MMLU、C-eval等7个主流基准测试中，新模型全面超越基线，特别是在150亿参数规模下，平均得分提升超过1个百分点。这一成绩在预训练领域具有重要意义，通常意味着需要数百亿 tokens的额外训练才能达到同等效果。

可视化分析进一步证实了专家分化学习的有效性。通过三角单纯形图展示，传统MoE模型的专家激活点集中在图形中央，表明不同领域数据激活的专家高度相似；而采用新策略的模型，专家激活点明显向三个顶点发散，证明不同领域的数据已经能够激活完全不同的专家模块，实现了真正的专业化分工。这种直观的对比，充分展现了新方法在解决专家同质化问题上的显著效果。

值得一提的是，专家分化学习策略在计算效率方面也表现出色。LED函数的计算仅涉及路由器输出的低维向量运算，对训练吞吐量几乎没有影响。实验数据显示，新方法的训练速度与传统MoE模型保持一致，且不需要额外的推理成本。这一特性使得该策略在实际应用中具有很高的可行性，为大规模模型训练提供了高效的解决方案。

OpenAI将引入英伟达新芯片推理算力或迎Groq技术新助力

IT之家 2 月 28 日消息，《华尔街日报》当地时间 27 日报道称，OpenAI 将为其 AI 算力资源库中增添一款利器：英伟达基于Groq 技术的推理工作负载优化芯片。这家刚完成新一轮融资的人工智能实…

2026-03-01

Alphacool Core 70 Tube管式水箱登场：玻璃外壳配集成水泵储液近500ml

IT之家 2 月 28 日消息，PC 散热厂商 Alphacool 上周宣布推出适用于分体式水冷系统的 Core 70 Tube管式水箱。这一产品拥有近 500ml 的储液容量，采用玻璃材质外壳，集成 Ap…

2026-02-28

阿里开源CoPaw桌面Agent工具：模块化设计赋能开发者，打造个性化智能办公新体验

用户不仅可以接入本地模型，还可自定义编写Skills、扩展消息通道，构建更贴合个人或企业场景的专属Agent系统。在功能机制上，CoPaw引入主动“心跳机制”和定时任务调度系统，使其不仅能够响应用户指令，还…

2026-02-28

OpenAI将引入英伟达新芯片英伟达借Groq技术优化AI推理算力布局

2026-02-28

Pulsar派世发布X2N CrazyLight轻量化无线鼠标，高配置打造抓握玩家新选择

IT之家 2 月 28 日消息，Pulsar 派世本月 26 日正式宣布推出 X2N CrazyLight轻量化无线鼠标，其采用面向抓握玩家的对称式收腰高背模具，小尺寸型号重 38g、中尺寸型号重 43g，…

2026-02-28

豆包手机助手回应恶意炒作：严正谴责黑公关，已升级防护并保留追责权利

@豆包手机助手官方账号发布“关于恶意炒作‘豆包手机助手漏洞’黑公关行为的严正声明”：最近，网上出现一批声称“豆包手机助手存在安全漏洞”的内容。截至目前，我方并未收到豆包手机助手漏洞的详细报告，也未接到网络…

2026-02-28

面壁智能获数亿元融资中国电信领投，携手共拓AI复杂场景应用新篇

2026-02-28

苹果低成本MacBook或推四色款与第十一代iPad配色“撞衫”引期待

2026-02-28

OpenAI新进展：ChatGPT周活用户9亿，融资超千亿还有众多企业用户加持

2026-02-28