原本以为今年下半年AI图像生成领域的格局已定,没想到阿里通义千问团队突然抛出一枚“重磅炸弹”——Z-image开源模型,上线即登顶开源社区热门榜首位,瞬间打破了原有的平静。
在AI图像生成领域,参数量一直被视为衡量模型性能的重要指标。通常参数量越大,模型处理细节的能力越强,但相应的硬件要求也更高。例如,谷歌的Nano-Banana Pro凭借极高的参数量,在文生图方面表现出色,但普通用户需要配备高性能显卡才能运行。而Flux 2的32B参数量,更是让24GB显存的3090/4090显卡成为标配,普通用户难以企及。
Z-image的出现打破了这一局面。这款由阿里巴巴通义实验室研发的开源模型,参数量仅为6B,却定位为“轻量且高性能”的AI图像解决方案,直接对标参数量20B以上的闭源旗舰模型。这一设计理念让许多用户感到惊喜,毕竟在当前的生图领域,6B的参数量并不突出,甚至可以说是“小个子”。
然而,Z-image的硬件门槛却低得令人意外。官方文档显示,即使是几年前的RTX 3060显卡,或是显存6GB的消费级主流显卡,配合成熟的量化技术,也能流畅运行Z-image。这意味着用户无需为了玩AI画图而专门配置高性能主机,手边的游戏本甚至高性能轻薄本都能成为创意工具。
对于想要体验Z-image的用户来说,操作也十分简单。讲究的用户可以从Hugging Face下载模型,搭配tonyhub等简洁前端和工具流即可使用;不太讲究的用户只需下载ComfyUI最新版或升级本地版,内置的工作流和模板让操作变得轻松。即使没有显卡的核显用户,也能在Hugging Face或阿里的魔搭社区找到现成的在线Demo,虽然需要排队等待,但胜在免费。
为了验证Z-image的实际表现,我们进行了一系列测试,将其与字节的豆包和谷歌的Nano-Banana Pro进行对比。在“人类考古学家在金字塔挖掘现场发现旋转金属球”的测试中,Nano-Banana Pro成功还原了纪录片拍摄的界面和质感,而Z-image和豆包的表现相差无几,但Z-image的图片一致性偏高,多次尝试后结果极为相似。
在人像测试中,三款模型的表现都令人满意,生成的图片真实感强、光影自然。不过,Z-image和豆包更符合国人审美,而Nano-Banana Pro生成的华人形象带有明显的ABC特征。在海报设计测试中,三款模型在细节和光影方面表现接近,Nano-Banana Pro在中文嵌入方面的表现有所提升。
在多格图片教程测试中,Nano-Banana Pro展现了强大的推理能力,能够准确生成多格图片并理解数字顺序的含义。而Z-image虽然整体意思接近,但数字标注完全错误。在二次元/漫画图片生成测试中,Nano-Banana Pro成功识别了初音未来和洛天依两位角色,构图也十分有趣;豆包虽然不认识洛天依,但构图仍有优势;Z-image则完全无法理解测试要求。
尽管Z-image在复杂推理和精准编辑方面仍不及闭源模型,且目前缺乏图片编辑相关功能,但在90%的日常使用场景中,它已经能够做到“够用”甚至“好用”。对于中小企业和个人用户来说,Z-image的低硬件门槛和开源特性意味着更大的创作自由度和更低的成本。未来,随着社区的不断发展,可能会有更多基于Z-image的微调模型出现,进一步拓展其应用场景。



