NVIDIA 研究院的最新模型基于 GAN,将 2D 图像转化为3D,面向游戏开发者、艺术家、设计师和建筑师
NVIDIA 研究院 正在研发一种全新深度学习引擎,该引擎可以根据标准的 2D 图像来创建 3D模型,并可以在 NVIDIA Omniverse 中,为诸如由Knight Rider 的 AI 驱动的 KITT 等标志性汽车带来活力。
由多伦多的 NVIDIA AI 研究实验室开发的 GANverse3D 应用将平面图像放大成逼真的 3D 模型,可以在虚拟环境中可视化和控制。这种性能可以帮助建筑师、创作者、游戏开发人员和设计师轻松地将新对象添加到他们的实体模型中,而不需要 3D 建模方面的专业知识,也不需要在渲染上花费大量预算。
例如,单张汽车照片可以转换为3D模型,该模型可以在虚拟场景中行驶,并配有逼真的前灯、尾灯和转向灯。
为了生成训练数据集,研究人员利用生成性对抗网络 ——GAN合成图像,从多个角度描绘同一物体 — 就像摄影师绕着一辆停着的汽车走动,从不同的角度拍摄。这些多视图图像被插入到逆图形的渲染框架中,逆图形是从 2D 图像推断 3D 网格模型的过程。
一旦完成了多视图图像训练,GANverse3D 只需要一个 2D 图像即可预测 3D 网格模型。该模型可以与 3D 神经渲染器一起使用,使开发人员能够自定义对象和交换背景。
当作为 NVIDIA Omniverse 平台的扩展导入并在 NVIDIA RTX GPU 上运行时,GANverse3D 可将任何 2D 图像重建为 3D,就像流行的 20 世纪 80 年代 Knight Rider 电视节目中备受喜爱的打击犯罪的汽车 KITT 一样。
以前的逆图形模型依赖于 3D 图形作为训练数据。
相反,在没有 3D 要素的帮助下,“我们把 GAN 模型变成了一个非常高效的数据生成器,这样我们就可以基于网络上的任何 2D 图像创建出 3D 对象。”NVIDIA 的研究科学家、该项目的主要作者 Wenzheng Chen 说。
“因为我们是根据真实图像而不是合成数据进行训练的,所以 AI 模型能更好地推广到现实世界的应用中。”该项目的作者、NVIDIA 研究员 Jun Gao 表示。
GANverse3D 背后的研究将在两个即将召开的会议上发表:5 月份的ICLR和 6 月份的CVPR。
从爆胎到赛车 KITT
游戏、架构和设计领域的创作者依赖于虚拟环境,例如 NVIDIA Omniverse 模拟和协作平台,在创建最终产品之前测试新的想法并可视化原型。借助 Omniverse Connectors,开发人员可以在 Omniverse 中使用他们首选的 3D 应用程序,通过实时光线跟踪来模拟复杂的虚拟世界。
但并不是每个创作者都有时间和资源为他们所绘制的每一个对象创建 3D 模型。若要渲染展厅的汽车,或一条街的建筑,需捕获所需数量的多视图图像,成本可能高得令人望而却步。
在这方面,训练好的 GANverse3D 应用可以用来将汽车、建筑甚至一匹马的标准图像转换成可以在 Omniverse 中自定义和制作动画的 3D 图形。
为了重建 KITT,研究人员只需给训练好的模型输入汽车的图像,让 GANverse3D 预测相应的 3D 纹理网格,以及车辆的不同部分,例如车轮和前照灯。然后,他们使用 NVIDIA Omniverse 套件和 NVIDIA PhysX 工具将预测的纹理转换成高质量的材料,使 KITT 具有更真实的外观和感觉,并将其与其他汽车一起放置在动态驾驶序列中。
“Omniverse 让研究人员能够将激动人心的前沿研究直接带给创作者和最终用户。”NVIDIA 深度学习工程师 Jean-Francois Lafleche 说道。“作为 Omniverse 的扩展,GANverse3D 将帮助艺术家为游戏开发、城市规划甚至训练新的机器学习模型创建更丰富的虚拟世界。”
GAN 推动维度转变
因为从不同角度捕捉同一物体的真实数据集很少,所以大多数将图像从 2D 转换为 3D 的 AI 工具都是使用像 ShapeNet 这样的合成 3D 数据集进行训练的。
为了从现实世界的数据中获得多视图图像,例如网上公开的汽车图像,NVIDIA 研究人员转而使用GAN 模型,修改其神经网络层,将其转化为数据生成器。
该团队发现,仅训练神经网络的前4层,冻结剩余的 12 层参数,可以让 GAN 从不同的角度渲染同一对象的图像。
保持前4层参数冻结,其他 12 层可变,可以让神经网络基于同一角度生成不同的图像。通过手动分配标准角度,在特定高度和距离拍摄车辆照片,研究人员可以从单个 2D 图像快速生成多视图数据集。
最终的模型,在 55000 张由 GAN 生成的汽车图像上训练而得,优于在流行的 Pascal3D 数据集上训练的逆图形网络。