在近日于上海举办的2025AI容器应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士宣布了一项重要技术成果——AI容器技术Flex:ai正式发布。与此同时,华为携手上海交通大学、西安交通大学及厦门大学共同宣布,将这一产学研深度融合的成果向全球开源,旨在为破解算力资源利用率低下这一行业难题提供创新解决方案。
随着人工智能产业的迅猛发展,全球对算力的需求呈现爆发式增长。然而,一个不容忽视的问题是,算力资源的利用率却长期处于较低水平。具体表现为:小规模AI模型训练任务往往独占整张算力卡,导致大量资源闲置;大规模模型任务则因单机算力不足而难以推进;更有一大批缺乏GPU或NPU的通用服务器,因无法直接支持AI计算而处于“休眠”状态。这种供需之间的严重错配,已成为制约AI产业进一步发展的关键因素。
针对上述挑战,华为推出的Flex:ai XPU池化与调度软件,基于Kubernetes容器编排平台构建,通过精细化管理和智能调度GPU、NPU等智能算力资源,实现了AI工作负载与算力资源的高效匹配,显著提升了算力利用率。该技术的成功研发,得益于华为与三所顶尖高校的紧密合作,共同攻克了三大核心技术难题。
首先,针对小模型训推场景中的资源浪费问题,华为与上海交通大学联合研发了XPU池化框架。这一框架能够将单张GPU或NPU算力卡精细切分为多个虚拟算力单元,切分精度高达10%。通过这种技术,单张算力卡可以同时承载多个AI工作负载,且支持按需切分算力单元,实现了“用多少切多少”的灵活资源管理。据测试,该技术可使此类场景下的整体算力平均利用率提升30%,大幅提高了单卡的服务能力。
其次,为了解决大量通用服务器因缺乏智能计算单元而无法服务于AI工作负载的问题,华为与厦门大学共同研发了跨节点拉远虚拟化技术。该技术能够将集群内各节点的空闲XPU算力聚合起来,形成一个“共享算力池”。这一创新不仅为高算力需求的AI工作负载提供了充足的资源支撑,还使得不具备智能计算能力的通用服务器能够通过高速网络,将AI工作负载转发到远端“资源池”中的GPU/NPU算力卡中执行。这一技术有效促进了通用算力与智能算力资源的深度融合。
最后,面对算力集群中多品牌、多规格异构算力资源难以统一调度的难题,华为与西安交通大学共同打造了Hi Scheduler智能调度器。该调度器能够自动感知集群负载与资源状态,结合AI工作负载的优先级、算力需求等多维参数,对本地及远端的虚拟化GPU、NPU资源进行全局最优调度。即使在负载频繁波动的场景下,也能确保AI工作负载的平稳运行,实现算力资源的分时复用,让每一份算力都得到充分利用。
Flex:ai的全面开源,意味着其所有核心技术能力将向全球开发者开放。华为希望通过汇聚全球创新力量,共同推动异构算力虚拟化与AI应用平台对接标准的构建,形成算力高效利用的标准化解决方案。这一举措无疑将为全球AI产业的高质量发展注入新的强劲动能。

