中国移动携手产业伙伴，发布“芯合”异构训练系统，引领智算新时代-AI+-智快网

在近日举行的2024中国信息通信大会“算力网络算网一体创新发展论坛”上，中国移动携手天数智芯、壁仞科技、中兴、海光及瀚博等业内领先企业，共同推出了“芯合”异构混合并行训练系统1.0版本，标志着算力融合技术的又一重大突破。

“芯合”系统以两大核心技术为亮点：一是基于非均匀计算任务切分（ITD）算法的3D并行策略，它能够在通用混合训练框架下，灵活实现异构数据并行与流水线并行，自适应调整诸如数据微批次大小、数量及流水线并行度等参数，以适应不同算力平台。二是采用GPU Direct RDMA（GDR）技术的异构芯片高速通信技术，该技术无需改变芯片原有通信接口，通过定义数据传输架构、流程及接口标准，有效屏蔽底层硬件差异，实现顶层训练任务在异构算力集群上的无缝分布式通信。

据中国移动介绍，“芯合”系统已成功应用于百亿参数大模型的交叉混合训练，支持包括英伟达、天数智芯、壁仞科技及海光在内的四家智算芯片，集群规模可达万卡级别，训练加速比超过95%，达到了业界领先水平。这一成果对于提升智能算力资源利用率及推动国产算力发展具有重要意义。

中国移动还在论坛上携手华为、瀚博、澎峰、海光及天数智芯等企业，发布了“芯合”算力原生基础软件栈2.0版本。该软件栈于2023年首次发布，实现了智算应用的一键式跨芯迁移，并在山东、广西等多地的路桥检测、智能安防等领域进行了试点应用，显著降低了智算应用向国产化芯片迁移的复杂度。

“芯合”基础软件栈2.0相较于1.0版本实现了三大显著升级。首先，在能力上，它全面重构了算力抽象模型，通过插件化设计灵活接入英伟达、华为、海光等六家AI芯片，拓展了ONNX、SYCL等多种编程范式，支持泛AI应用的跨芯迁移。其次，在性能上，新增了对标CUDA的DNN、BLAS等高性能计算库，提供了图算融合编译优化能力，实现了性能的大幅提升，跨架构迁移损耗已降低至10%以内。最后，在效率上，构建了面向智算应用的“跨架构软件工厂”，提供从开发、调试、优化、部署到迁移的全生命周期服务能力，显著缩短了应用开发、上线时间，提升了整体研发效率。

目前，“芯合”算力原生基础软件栈2.0已实现泛AI应用在英伟达、英特尔、华为、瀚博、天数智芯及海光六家智算芯片间的一键式跨芯流转迁移，转换效率超过95%，迁移性能损耗小于10%，迁移时间不超过20秒，已具备规模商用的条件。这一成果将在提升智能算力网络自主可控水平方面发挥重要作用。