智快网
快讯 行业 产业 汽车 科技 AI+ 热点

新年新突破!DeepSeek发布mHC架构,为大模型训练难题提供新解法

2026-01-07来源:天脉网编辑:瑞雪

新年伊始,AI技术领域迎来一项重要突破——DeepSeek团队悄然发布了一篇关于大模型训练架构的学术论文。这篇未经过大规模宣传的论文,凭借其创新性设计迅速引发行业关注,核心内容围绕一种名为mHC的新型架构展开。

传统大模型训练常被比作信息处理工厂,其中残差连接如同工厂中的传送带。早期采用单通道设计的传送带虽能保证信息完整传递,但随着模型规模扩大,单通道逐渐暴露出信息拥堵问题。字节跳动团队此前提出的超连接方案试图通过多通道设计突破瓶颈,但新架构在缺乏统一调度机制的情况下,导致信息传输过程中出现失衡现象,甚至引发梯度爆炸等训练崩溃问题。

DeepSeek团队提出的mHC架构针对这一痛点展开创新。该架构并非简单否定多通道设计,而是引入基于Sinkhorn-Knopp算法的智能调度系统。通过将连接矩阵约束在双拟随机矩阵的流形上,确保信息传输过程中能量守恒,避免出现信号异常放大或衰减。研究团队还对输入输出映射施加非负约束,防止正负系数相互抵消导致有效信号丢失。

在基础设施优化方面,研究团队通过算子融合技术将多个计算步骤整合,显著减少内存读写次数。同时采用重计算策略,在反向传播阶段重新生成中间数据,有效降低内存占用。实验数据显示,在4倍扩展倍率下,训练时间仅小幅增加,但稳定性得到质的提升。

实证研究环节,团队使用不同规模模型进行测试,重点验证270亿参数模型的表现。实验结果表明,mHC架构成功解决了超连接方案的训练不稳定问题,最终损失值较传统基线模型降低12%。在下游任务测试中,新架构在推理类任务上展现出显著优势,性能提升幅度达5个百分点。规模扩展实验进一步证明,从30亿到270亿参数的模型训练中,mHC的性能优势始终保持稳定。

这项研究的意义不仅限于技术突破。传统大模型训练因成本高昂、稳定性差,将众多中小企业挡在门外。mHC架构通过平衡性能、稳定性与成本三要素,为行业提供了新的发展路径。其改良式创新思路,或将推动更多企业参与大规模模型研发,促进AI技术生态的多元化发展。

CES2026消费电子展:摩托罗拉Razr Fold大折叠屏手机正式登场
在2026年1月7日举行的CES 2026消费电子展上,联想集团正式发布了摩托罗拉品牌首款横向大折叠屏智能手机Razr Fold。前置摄像头配置为外屏3200万像素与内屏2000万像素双方案,分别适配不同使用…

2026-01-07