智快网
快讯 行业 产业 汽车 科技 AI+ 热点

只用一张图 + 相机走位,AI 就能脑补周围环境:通通都是高保真效果

2022-03-21来源:量子位编辑:

站在门口看一眼,AI 就能脑补出房间里面长什么样:

是不是有线上 VR 看房那味儿了?不只是室内效果,来个远景长镜头航拍也是 so easy:

而且渲染出的图像通通都是高保真效果,仿佛是用真相机拍出来的一样。最近一段时间,用 2D 图片合成 3D 场景的研究火了一波又一波。但是过去的许多研究,合成场景往往都局限在一个范围比较小的空间里。比如此前大火的 NeRF,效果就是围绕画面主体展开。

这一次的新进展,则是将视角进一步延伸,更侧重让 AI 预测出远距离的画面。

比如给出一个房间门口,它就能合成穿过门、走过走廊后的场景了。

目前,该研究的相关论文已被 CVPR2022 接收。

输入单张画面和相机轨迹

让 AI 根据一个画面,就推测出后面的内容,这个感觉是不是和让 AI 写文章有点类似?实际上,研究人员这次用到的正是 NLP 领域常用的 Transformer。他们利用自回归 Transformer 的方法,通过输入单个场景图像和摄像机运动轨迹,让生成的每帧画面与运动轨迹位置一一对应,从而合成出一个远距离的长镜头效果。

整个过程可以分为两个阶段。

第一阶段先预训练了一个 VQ-GAN,可以把输入图像映射到 token 上。VQ-GAN 是一个基于 Transformer 的图像生成模型,其最大特点就是生成的图像非常高清。在这部分,编码器会将图像编码为离散表示,解码器将表示映射为高保真输出。

第二阶段,在将图像处理成 token 后,研究人员用了类似 GPT 的架构来做自回归。具体训练过程中,要将输入图像和起始相机轨迹位置编码为特定模态的 token,同时添加一个解耦的位置输入 P.E.。然后,token 被喂给自回归 Transformer 来预测图像。模型从输入的单个图像开始推理,并通过预测前后帧来不断增加输入。

研究人员发现,并非每个轨迹时刻生成的帧都同样重要。因此,他们还利用了一个局部性约束来引导模型更专注于关键帧的输出。这个局部性约束是通过摄像机轨迹来引入的。基于两帧画面所对应的摄像机轨迹位置,研究人员可以定位重叠帧,并能确定下一帧在哪。

为了结合以上内容,他们利用 MLP 计算了一个“相机感知偏差”。这种方法会使得在优化时更加容易,而且对保证生成画面的一致性上,起到了至关重要的作用。

实验结果

本项研究在 RealEstate10K、Matterport3D 数据集上进行实验。结果显示,相较于不规定相机轨迹的模型,该方法生成图像的质量更好。

与离散相机轨迹的方法相比,该方法的效果也明显更好。

作者还对模型的注意力情况进行了可视化分析。结果显示,运动轨迹位置附近贡献的注意力更多。

在消融实验上,结果显示该方法在 Matterport3D 数据集上,相机感知偏差和解耦位置的嵌入,都对提高图像质量和帧与帧之间的一致性有所帮助。

两位作者均是华人

Xuanchi Ren 为香港科技大学本科生。

他曾在微软亚研院实习过,2021 年暑期与 Xiaolong Wang 教授有过合作。

Xiaolong Wang 是加州大学圣地亚哥分校助理教授。

他博士毕业于卡内基梅隆大学机器人专业。研究兴趣有计算机视觉、机器学习和机器人等。特别自我监督学习、视频理解、常识推理、强化学习和机器人技术等领域。

论文地址:

https://xrenaa.github.io/look-outside-room/

华为鸿蒙HarmonyOS 6发布:跨生态互联、安全升级、小艺智能体协同新体验
华为碰一碰支持应用超60个,用户可以通过简单的“碰一碰”轻松分享照片、音乐、链接等丰富内容。此外,还支持一碰多分享、游戏组队等互动体验,以及手机与电脑屏幕的轻碰分享,实现全场景设备间实现高效协同。 鸿蒙6…

2025-10-23

苹果2027年或跳过iPhone19直推20系列,设计革新纪念初代问世二十周年
报道还指出,苹果在2026年可能暂不推出标准版iPhone 18,而仅发布iPhone 18 Air、iPhone 18 Pro和iPhoneFold三款机型。 至于2027年,则以iPhone 20和平…

2025-10-23

苹果2027年新机命名或有变,或跳过“19”直接推出“iPhone 20”系列
【太平洋科技】10 月 23 日消息,据外媒报道,苹果预计在 2027年推出的iPhone新机将跳过“19”命名,直接将新机命名为“iPhone 20”系列。苹果或借此契机重新调整产品命名、机型定位和发…

2025-10-23

4999元起!努比亚Z80 Ultra:影像性能双巅峰的诚意之作
努比亚还把红魔的CUBE擎天游戏引擎直接下放到了这台影像旗舰上,可以根据不同游戏场景智能调度性能,既能保持满帧运行,又能控制功耗。 4999元起的价格放在现在的旗舰市场,不算便宜,但考虑到影像系统和红魔级游…

2025-10-23

舒福德S500睡眠智能体亮相,以数字生态革新开启全民睡眠健康新篇
作为麒盛科技旗下智能床品牌,自2005年自主研发智能电动床,开启探索智能睡眠体验:2017年推出全球首张智能床,初步实现睡眠数据的采集与分析;2022年作为北京冬奥会唯一智能床供应商,通过服务全球运动员,验证…

2025-10-22

一加15官宣两大充电黑科技 首发局间补电与旁路供电技术 性能再升级
IT之家 10 月 21 日消息,一加手机官方今日发文预热一加 15 新机,并透露为其带来了两个“黑科技”: 行业首发「局间补电」技术:局间休息10 分钟充会电,能多玩 1.23 小时 行业领先「旁路供电…

2025-10-22

华为发布全球顶尖AI人才招募令,余承东诚邀热爱AI的年轻人共攀高峰
昨日,华为招聘发布“全球顶尖AI人才招募令”。 据悉,此次招聘,面向对象为2026/1/1 -2026/12/31毕业的国内高校本科生与硕士研究生,2025/1/1 - 2026/12/31毕业的国内高校博…

2025-10-22

荣耀Magic8系列:以AI终端生态为钥,开启增长与估值新征程
早在2016年Magic一代首发时,便搭载了MagicLive智慧引擎,并首次提出“服务找人”的逻辑,虽无法与今日智能相比,却为智能生态协同埋下种子;2018年,荣耀推出YOYO智慧助手,突破了语音交互,开…

2025-10-21

电竞新旗舰iQOO 15登场:屏幕长焦SoC齐升级,定价略有上浮
这块6.85英寸三星2K直屏拥有144Hz高刷新率和8TLTPO技术,手动亮度峰值1000尼特,全局峰值亮度可达2600尼特,像素密度为508 PPI,还专门打造了硬件级游戏护眼。Q3的独赋能下,iQOO…

2025-10-21