智快网
快讯 行业 产业 汽车 科技 AI+ 热点

摩尔线程王华解析:大智算集群时代,FP8精度与集群可靠性助力万亿模型训练

2025-08-02来源:ITBEAR编辑:瑞雪

随着人工智能领域对算力的需求呈现指数级增长,大智算集群已成为模型训练不可或缺的基础设施。这一趋势的背后,是模型参数与数据量的不断膨胀,驱动着算力需求的急剧上升。从GPT、Llama到Grok等主流模型的发展历程中,算力需求的增长尤为显著,Grok-4等最新模型的算力需求已较早期模型提升了近千倍。

在大规模集群训练的场景下,算力需求的增长带来了前所未有的挑战。以DeepSeek、Kimi K2及GPT-4等模型为例,其训练所需的算力及时间成本均极为高昂。即便是采用高性能的英伟达H100集群,训练这些模型也需耗费数十天乃至数百天的时间。因此,单纯依靠扩大集群规模已难以满足当前的算力需求,亟需探索新的解决方案。

在这一背景下,低精度训练成为了提升训练效率的关键途径。从FP32到FP16,再到如今的FP8,精度的降低带来了算力的显著提升。然而,精度的下降也伴随着模型效果的损失。如何在精度与算力之间找到平衡点,成为了业界关注的焦点。摩尔线程副总裁王华在WAIC2025期间的摩尔线程技术分享日上,以《基于FP8的国产万卡训练》为主题,分享了摩尔线程在这一领域的创新与思考。

王华指出,通过引入精度参数,可以构建新的Scaling Law模型,从而在参数量、数据量与精度之间找到最优配置。实验结果表明,FP8成为了精度与算力之间的最佳平衡点。然而,低精度训练也面临着诸多挑战,如数值范围小、易上溢下溢等问题。为解决这些问题,摩尔线程采用了混合精度训练等技术手段,对非敏感部分采用FP8进行计算,而对敏感部分则继续使用高精度。

在软硬件支持方面,摩尔线程提供了全栈的完整解决方案。硬件上,其GPU支持从FP64到FP8的全精度算力;软件上,摩尔线程推出了Torch-MUSA、MT-MegatronLM及MT-TransformerEngine等开源框架,这些框架均支持FP8混合精度训练,并实现了对FP8数据类型的完整支持。在此基础上,摩尔线程成功复现了DeepSeek-V3的整个训练过程,成为业内率先能复现DeepSeek满血版训练的厂商。

王华还分享了摩尔线程在FP8训练上的探索与实验。在scaling factor的选择及outlier的影响等方面,摩尔线程进行了深入的研究,并提出了有效的解决方案。例如,在scaling factor的选择上,摩尔线程采用了Per-Tensor及JIT动态的scaling factor选择策略;在降低outlier影响方面,则采用了Smooth SwiGLU等技术手段。

在大规模集群训练方面,摩尔线程同样取得了显著的进展。为提高集群训练的可靠性,摩尔线程引入了起飞检查、飞行检查及落地检查等训练生命周期管理措施。同时,针对慢节点及容错训练等问题,摩尔线程也提出了相应的解决方案。例如,在慢节点检测方面,摩尔线程通过起飞检查阶段的小工作负载测试及训练过程中的通信执行时间监测等手段,有效识别并解决了慢节点问题;在容错训练方面,则采用了动态摘除故障节点等策略,确保了集群训练的持续稳定运行。

王华的分享不仅展示了摩尔线程在FP8低精度训练及大规模集群训练方面的创新成果,也为业界提供了宝贵的参考与借鉴。随着人工智能技术的不断发展,摩尔线程将继续深耕这一领域,为人工智能的未来发展贡献更多力量。

华为鸿蒙6系统登场:流畅度大幅提升,跨生态互传成亮点,用户体验全面升级
就在刚刚,华为HarmonyOS 6 正式亮相,这次流畅度直接暴增40%,用余承东的话来说,体验就像换了新手机。接下来就是AI了,作为当下大厂都在卷的能力,这次鸿蒙直接自带 “智能体”。 10 月 22 …

2025-10-23

2025旗舰手机怎么选?荣耀Magic8系列凭全能实力成热门之选
从性能表现到AI体验,再到影像与设计,Magic8系列用实际体验证明了它为何能被列为“最好旗舰”的代表。更重要的是,Magic8在手感上做了细腻优化,机身弧线与掌心贴合,带来更舒适的握持体验。对那些追求稳定性…

2025-10-23

华为鸿蒙6系统新突破:支持与苹果设备“碰一碰”互传文件,个性化功能升级
值得注意的是,鸿蒙操作系统6还可以通过简单的“碰一碰”轻松分享照片、音乐、链接等丰富内容。与大部分国产智能厂商类似,为了增加和苹果生态的协同性,鸿蒙操作系统6可以通过碰一碰和iOS、iPadOS、macOS设…

2025-10-22

鸿蒙操作系统5问世一年终端破2300万,6代系统今日下午将正式登场
2025年10月22日,华为召开鸿蒙操作系统6发布会,发布会一开始,华为常务董事、终端BG董事长余承东对外表示,鸿蒙操作系统5终端数量突破2300万。 据了解,鸿蒙操作系统5是华为于2024年10月22日推出…

2025-10-22

性能旗舰之争:荣耀Magic8凭软硬件协同优势成今年热门之选
荣耀Magic8的影像系统结合AI算力,在长焦、夜景、人像等场景中都有显著提升。 对于正在考虑入手一款顶级旗舰的用户而言,荣耀Magic8无疑是今年最值得关注的答案——在众多高性能机型中,它以稳、快、智的综合…

2025-10-22

售价13000元!三星Galaxy XR头显发布 直面苹果Vision Pro高端之争
【CNMO科技消息】10月21日,三星正式发布了其首款混合现实头戴设备——GalaxyXR,官方售价定为1799.99美元(约合人民币13000元),直接瞄准了苹果Vision Pro的高端市场。借助头显的…

2025-10-22

真我GT8 Pro深度体验:影像创新联动理光GR,性能越级再升级
使用真我GT8 Pro拍摄后就会发现,它可以说是把理光GR的整套理念和色彩科学都塞进了手机里。 长焦还上了2亿像素1/1.56英寸大底潜望,在3倍、6倍和12倍变焦下,画质都有很高可用性,也是长焦街拍的很好补…

2025-10-22

AMD驱动优化显成效!RX 9070与RTX 5070实测对比,性能差距扩大至13%
Hardware Unboxed(HU)的最新测试结果,再次印证了这一说法:Radeon RX9070在最新的驱动和游戏补丁加持下,性能差距与竞争对手RTX 5070明显扩大。 即使加入各自的超分技术,R…

2025-10-22

性能狂飙无上限!一加15携六大行业首创技术震撼登场
行业首发冰河超临界气凝胶,航天级隔热材料,有效隔绝指尖温度; 行业首发冰河VC散热,超薄手撕钢材料,散热速度快两倍; 除此以外,一加15还拥有独家自研冰河芯片空调架构,可降低芯片核心区温度,同时安卓首批全新…

2025-10-22

iQOO 15今晚登场:以跨代理念重塑性能旗舰,带来极致体验盛宴
iQOO 15以“跨代领先”为核心理念,在电竞体验、视觉观感、影像能力和续航表现等方面实现全方位突破,为追求极致的用户带来前所未有的使用体验。从电竞性能到视觉观感,从影像能力到续航表现,iQOO 15以全方…

2025-10-22