在拉斯维加斯举办的年度技术盛会上,亚马逊云计算部门(AWS)正式推出了新一代自研AI芯片Trainium3,并同步展示了为下一代AI工作负载设计的Trainium3 UltraServers。与此同时,AWS还公布了Trainium4的研发路线图,引发行业高度关注。
为满足自身需求并降低运营成本,亚马逊、谷歌等云服务巨头早在数年前便开始布局自研云端AI芯片。据AWS披露,其定制芯片业务规模已达数十亿美元,Trainium系列芯片全球部署量突破100万张,成为支撑超大规模AI计算的核心基础设施之一,仅次谷歌TPU的市场表现。这一数据印证了自研芯片在云服务领域的战略价值。
Trainium3基于台积电3nm制程工艺打造,单芯片可提供2.52 PFLOPs(FP8)算力,支持FP32、BF16、MXFP8及新增MXFP4等多种精度格式。内存配置方面,该芯片将HBM3e容量提升至144GB,带宽达4.9TB/s,并通过强化结构化稀疏性及微缩放硬件支持,显著优化了大语言模型的训练与推理效率。AWS宣称,Trainium3可将AI模型全生命周期成本降低50%,为客户提供更具性价比的算力服务。
基于全新Neuron Fabric互联技术,AWS同步推出的Trainium3 UltraServers实现了算力跃升。该系统最多可整合144颗Trainium3芯片,总算力达362 FP8 PFLOPs。实测数据显示,与上一代Trainium2 UltraServers相比,新系统的原始性能提升4.4倍,性能功耗比提升4倍,能源效率提高40%。在部署GPT-OSS等主流开源模型时,单芯片吞吐量提升3倍,响应延迟缩短4倍,大幅缩短模型训练周期——原本需数月的任务可压缩至数周,同时支持更多推理请求,降低项目上线时间与运营成本。
通过EC2 UltraClusters 3.0架构,Trainium3 UltraServers可扩展至最高100万张芯片的超级集群,规模较上一代提升10倍。目前,该架构已为Anthropic的“Project Rainier”项目提供核心算力支撑,当前部署50万张Trainium 2芯片,并计划年底前扩容至100万张。这一扩展能力进一步巩固了AWS在超大规模AI计算领域的领先地位。
实际应用中,Trainium3及Trainium3 UltraServers已展现显著成效。Anthropic、Karakuri、metagenomi、NetoAI、Ricoh、Splash Music等企业反馈,采用该方案后训练成本较其他方案最多降低50%。这一成果验证了AWS自研芯片在商业化场景中的竞争力。
关于下一代产品,AWS透露Trainium4正在研发中,虽未公布具体发布时间,但承诺其性能将实现突破性提升:FP4处理性能至少提升6倍,FP8性能提升3倍,内存频宽提高4倍。更值得关注的是,Trainium4将支持NVIDIA NVLink Fusion高速互连技术,可与Graviton处理器及EFA(Elastic Fabric Adapter)在通用MGX机架中无缝协作,实现与NVIDIA GPU的互操作与性能扩展。这一技术整合或为AI计算生态带来新的变量。

