智快网
快讯 行业 产业 汽车 科技 AI+ 热点

英伟达PiD图像生成技术亮相:消费级显卡秒级解码高分辨率图像

2026-05-27来源:快讯编辑:瑞雪

英伟达团队近日宣布推出一项名为PiD(Pixel Diffusion Decoder,像素扩散解码器)的图像生成技术,该技术能够在消费级显卡上实现超高分辨率图像的快速生成与放大。实验数据显示,在单张RTX 5090显卡上,PiD可将512×512分辨率的图像潜变量直接解码并放大至2048×2048像素,峰值显存占用仅为13GB,处理时间不足1秒;若使用GB200 GPU,最快仅需210毫秒。

传统高分辨率图像生成流程通常分为两步:首先在潜在空间生成低分辨率图像,再通过解码器恢复为清晰图像。潜在空间是模型对原始图像进行压缩后的数值表示,虽保留了主体结构与语义信息,但舍弃了大量像素级细节,从而降低了计算成本。然而,传统解码器主要承担“复原”任务,面对百万像素级图像时,其速度与质量均存在显著瓶颈。

PiD的创新之处在于将潜在解码重新定义为条件式像素扩散过程,并将解码与上采样整合至同一生成模块中。这一设计使模型能够在输出阶段主动补足纹理、结构及局部细节。条件式像素扩散通过参考额外输入(如低分辨率图像或语义信息)来约束生成结果,而非完全随机生成,从而提升了可控性与生成质量。

技术实现层面,PiD基于PixelDiT架构构建,并引入轻量级ControlNet风格适配器。该适配器将含噪的潜在表示注入模型,并通过与西格玛相关的门控机制,根据噪声强度动态调整对潜在信息的依赖程度。为进一步优化推理速度,研究团队采用DMD2蒸馏技术,将推理步数压缩至4步,同时配合早停机制,在保证输出质量的前提下显著降低延迟。

PiD的另一大优势是其通用性。该技术不仅支持传统VAE(变分自编码器)生成的潜变量,还可兼容RAE(重建自编码器)路线常用的语义潜变量,如SigLIP和DINOv2。这一特性使其能够适配多种图像生成框架,拓展了应用场景。

与级联式扩散超分方案相比,PiD在端到端延迟上表现优异,最高可提升5.9倍(约6倍),同时视觉保真度更优。实验结果表明,PiD在保持细节丰富度的同时,有效减少了生成过程中的伪影与模糊现象,为高分辨率图像生成领域提供了新的解决方案。

荣耀600系列深度评测:影像续航双优,中端价位里的全能实力派之选
从2亿像素AI超清主摄到5000万OIS潜望长焦的完整影像系统设计;从8600mAh青海湖电池到80W+50W双快充的续航组合;从3840Hz护眼屏到IP68/69K顶级防护的细节考量——荣耀600系列以3…

2026-05-27

马斯克官宣Grok V9训练完成,1.5万亿参数加持,编程赛道布局全面加速
更狠的是,训练数据直接灌入大量Cursor编程交互记录。 回看这段时间的操作不难发现,马斯克在编程赛道上的布局是一套三连击。 公开代码能训出基本功,但Cursor的私域编程交互数据,才是打造编程「尖子生」的核…

2026-05-27