智谱与华为携手宣布,正式开源新一代图像生成模型GLM-Image,这一成果标志着国产AI技术在多模态生成领域取得重要突破。该模型依托昇腾Atlas 800T A2硬件与昇思MindSpore框架,实现了从数据处理到模型训练的全流程国产化,成为首个在国产芯片上完成端到端训练的SOTA级多模态模型。
技术架构方面,GLM-Image创新性地融合自回归与扩散解码器技术,在保持全局指令理解能力的同时,显著提升局部细节刻画精度。这种设计使其能够高效处理知识密集型场景,尤其在海报设计、PPT制作及科普图生成等领域表现突出。实测数据显示,该模型在CVTG-2K复杂视觉文本生成榜单与LongText-Bench长文本渲染榜单中均位列开源模型首位,汉字生成准确率达到行业领先水平。
在商业应用层面,GLM-Image展现出强大的场景适应能力。生成电商产品图时,模型可自动保持多格画面风格统一,确保商品主体与文字说明的精准对应;绘制漫画分镜时,能维持角色造型与叙事逻辑的连贯性。针对社交媒体需求,模型生成的图文封面兼具视觉冲击力与信息传达效率,商业海报设计则突破传统模板限制,实现创意与实用性的平衡。
开发团队透露,GLM-Image已开放API调用服务,当前版本生成单张图片成本控制在0.1元,后续将推出速度优化版本。该模型的开源不仅为国产AI生态注入新动能,更验证了全栈国产化技术路线训练高性能多模态模型的可行性,为金融、教育、传媒等行业提供低成本、高效率的智能化解决方案。
