英伟达PiD图像生成技术亮相：消费级显卡秒级解码高分辨率图像-快讯-智快网

英伟达团队近日宣布推出一项名为PiD（Pixel Diffusion Decoder，像素扩散解码器）的图像生成技术，该技术能够在消费级显卡上实现超高分辨率图像的快速生成与放大。实验数据显示，在单张RTX 5090显卡上，PiD可将512×512分辨率的图像潜变量直接解码并放大至2048×2048像素，峰值显存占用仅为13GB，处理时间不足1秒；若使用GB200 GPU，最快仅需210毫秒。

传统高分辨率图像生成流程通常分为两步：首先在潜在空间生成低分辨率图像，再通过解码器恢复为清晰图像。潜在空间是模型对原始图像进行压缩后的数值表示，虽保留了主体结构与语义信息，但舍弃了大量像素级细节，从而降低了计算成本。然而，传统解码器主要承担“复原”任务，面对百万像素级图像时，其速度与质量均存在显著瓶颈。

PiD的创新之处在于将潜在解码重新定义为条件式像素扩散过程，并将解码与上采样整合至同一生成模块中。这一设计使模型能够在输出阶段主动补足纹理、结构及局部细节。条件式像素扩散通过参考额外输入（如低分辨率图像或语义信息）来约束生成结果，而非完全随机生成，从而提升了可控性与生成质量。

技术实现层面，PiD基于PixelDiT架构构建，并引入轻量级ControlNet风格适配器。该适配器将含噪的潜在表示注入模型，并通过与西格玛相关的门控机制，根据噪声强度动态调整对潜在信息的依赖程度。为进一步优化推理速度，研究团队采用DMD2蒸馏技术，将推理步数压缩至4步，同时配合早停机制，在保证输出质量的前提下显著降低延迟。

PiD的另一大优势是其通用性。该技术不仅支持传统VAE（变分自编码器）生成的潜变量，还可兼容RAE（重建自编码器）路线常用的语义潜变量，如SigLIP和DINOv2。这一特性使其能够适配多种图像生成框架，拓展了应用场景。

与级联式扩散超分方案相比，PiD在端到端延迟上表现优异，最高可提升5.9倍（约6倍），同时视觉保真度更优。实验结果表明，PiD在保持细节丰富度的同时，有效减少了生成过程中的伪影与模糊现象，为高分辨率图像生成领域提供了新的解决方案。