芬兰阿尔托大学的研究团队近日取得一项突破性进展,成功演示了一种名为“并行光学矩阵-矩阵乘法器”(POMMM)的新型光学计算架构。这项技术旨在破解人工智能(AI)模型训练与运行过程中面临的核心算力瓶颈,为大规模AI应用提供更高效的计算解决方案。
现代AI模型,尤其是大语言模型(LLM),其性能提升受制于张量数据的处理速度。张量作为AI模型中组织数据的核心结构,其运算效率直接决定了模型规模的上限。传统电子计算在处理大规模张量运算时,往往面临能耗高、延迟长的困境,而光学计算虽在小规模场景中展现出速度与能效优势,却因难以实现并行运算而难以推广。
研究团队指出,现有光学系统大多依赖线性运算模式,无法像GPU那样通过大规模并行处理提升算力。例如,OpenAI、Google等企业开发的顶级AI模型,均依赖数千块GPU的并行运行实现高效训练。这种依赖电子硬件的模式,不仅成本高昂,且在算力扩展上逐渐触及物理极限。
POMMM技术的核心创新在于,通过单次相干光传播完成整个矩阵乘法运算。其原理是将数字张量编码为光的相位与振幅,利用透镜组实现傅里叶变换后,运算结果以干涉图像形式被高速探测器捕获。整个过程在光传播的瞬间完成,无需电子回路或内存读取,实现了物理层面的“自然同步计算”。这种设计使运算延迟降至纳秒级,远超电子计算的微秒级水平。
研究团队基于商用光学元件搭建了原型机,并在标准光学平台上耗时六个月完成组装。测试数据显示,对于50x50规模的矩阵运算,该原型的平均绝对误差(MAE)低于0.15,归一化均方根误差(RMSE)控制在0.1以下,精度已能满足边缘推理等场景的需求。尽管当前原型机的能效(2.62 GOP/J)仍低于顶尖GPU,但其扩展潜力被广泛看好。
为推动技术落地,研究团队在GitHub平台公开了所有代码与数据,吸引了全球光子学实验室及AI加速器开发者的关注。团队坦言,目前技术仍面临探测器动态范围不足、校准漂移等挑战,但已制定清晰的优化路线:通过将空间光调制器与探测器阵列集成至低损耗氮化硅光子芯片,预计能效可提升百倍。
根据预测,集成专用光子芯片的升级版原型机有望在三年内问世,其能效预计达300 GOP/J,远超当前电子GPU约30 GOP/J的能效瓶颈。不过,受封装工艺、温控技术及激光器集成等工程难题限制,大规模量产可能需五年以上时间。