在AI技术飞速发展的当下,算力已成为推动行业前进的核心动力。提到算力,英伟达的显卡总是绕不开的话题。然而,要让这些显卡真正发挥效能,并非简单的硬件安装就能实现,背后需要一套完善的软件和算法支持。CUDA,作为英伟达精心打造的软件生态,正是其稳固市场地位的关键所在。近日,CUDA迎来了13.1版本的重大更新,这一版本被英伟达誉为自2006年发布以来最具里程碑意义的功能拓展。
此次更新中,英伟达推出了全新的CUDA Tile编程模型,并配套了一系列工具、文档和调度特性。这一创新引起了半导体及AI领域的广泛关注,不少专家认为它将深刻改变整个行业格局。那么,一个编程模型的更新,为何能引发如此大的反响?
CUDA Tile的引入,标志着“模块化”编程时代的到来。过去,使用CUDA进行编程需要开发者自行管理核心变量、手动分配内存参数,并按照SIMT模型进行编程。而CUDA Tile则简化了这一过程,它将数据在算法层面切割成独立的矩阵块,开发者只需针对这些矩阵块的用途进行编程,无需再操心后续的运转和专用计算单元的调用,这些工作将由编译器和运行时系统自动完成。
为了支撑CUDA Tile,英伟达在13.1版本中引入了新的虚拟指令集CUDA Tile IR,并提供了cuTile Python这一DSL。这使得开发者能够用熟悉的Python语言编写矩阵块内核,再由Tile IR负责将其映射到底层硬件。这种做法在计算行业并不罕见,华为、阿里等企业也在采用类似的图块化编程技术来优化计算效率。
除了CUDA Tile,13.1版本还对基础功能模块进行了优化。例如,新的Green Contexts技术让GPU的SM能够根据实际运行指令进行资源分割,优先满足低时延任务的需求,从而提升了云服务器对在线服务的支持能力。同时,Multi-Process Service也得到了增强,引入了MLOPart分区和静态SM分区模式,使得多进程共享GPU资源时能够得到更准确的资源划分,这对于AI大模型这类混合负载为主的计算需求尤为重要。
英伟达还对数学库和工具链进行了全面升级。cuBLAS现在能够提供基于Tensor Core的FP32/FP64仿真GEMM,支持在Blackwell等GPU上加速双精度矩阵运算,进一步提升了主流AI模型的性能。这一系列更新使得CUDA 13.1几乎从头到尾都进行了革新,开发者们纷纷用“新时代的到来”来形容这一版本。
对于AI行业而言,CUDA 13.1的更新意味着开发门槛的显著降低。过去,编写CUDA库和工具需要开发者具备极高的知识储备和调试能力,而现在,开发者只需决定子系统的参数和功能,即可快速构建完整的程序。这不仅降低了对开发者技能的要求,也加速了AI应用的开发进程。
然而,CUDA Tile的引入也引发了一些担忧。有开发者担心,一旦CUDA Tile的性能表现不如预期,深度调试将变得困难,因为开发者将面对的是抽象的Tile运算,而非底层指令。但尽管如此,CUDA开发的简易化趋势已不可阻挡。英伟达在13.1版本中保留了传统SIMT开发工具,为开发者提供了更多的选择空间。
随着CUDA 13.1的更新,AI生态大战的序幕也悄然拉开。过去,AMD ROCm、Intel oneAPI以及中国厂商的自研GPU等,都在尝试通过转编译来适配CUDA生态。然而,CUDA Tile的到来可能使得这一适配过程变得更加复杂。开发者一旦习惯使用Tile IR+cuTile进行编程,将面临从语法翻译到编译器重建的双重挑战。
不过,也有专家对此持不同观点。传奇芯片架构师Jim Keller认为,CUDA Tile可能会加速CUDA护城河的消失。他指出,CUDA的优势在于其完善的库和框架,但过高的上手门槛限制了其普及。而CUDA Tile将使得Tiling成为CUDA生态的主流,而业界大多数主流AI生态早已转向Tiling。因此,只需解决CUDA Tile代码与其他Tiling体系之间的互译问题,开发者就能轻松将CUDA软件移植到其他AI芯片生态中。
在这场AI生态大战中,英伟达希望进一步加深与AI行业的捆绑,而其他厂商则需要在追赶CUDA生态的同时构筑自己的护城河。无论结果如何,接下来的几年里,围绕AI生态展开的博弈都将变得更加激烈。在这场没有硝烟的战争中,谁能够脱颖而出,成为最终的赢家,仍需时间来揭晓。

