“WonderJourney: Going from Anywhere to Everywhere”
近日,斯坦福大学联合谷歌联合发表了WonderJourney,只需单张图像即可生成无限连续3D场景视频,
与之前专注于单一类型场景的视图生成工作不同,WonderJourney可以从用户提供的任何位置(通过文本描述或图像)开始,并通过一系列不同但连贯的 3D 场景生成一个旅程。
项目地址:https://kovenyu.com/WonderJourney/
论文地址:https://arxiv.org/pdf/2312.03884.pdf
摘要
WonderJourney是一个模块化的框架,用于生成连续的3D场景。与以往的视图生成工作不同,WonderJourney可以从用户提供的任何位置开始,并生成一系列多样且连贯的3D场景。它利用LLM生成这些场景的文本描述,使用基于文本驱动的点云生成流程创建引人注目且连贯的3D场景序列,并利用大型VLM验证生成的场景。该项目展示了各种场景类型和风格的引人注目且多样化的视觉效果,形成了想象中的“奇妙之旅”。
简介
本文介绍了一个名为“永续的3D场景生成”的问题,旨在通过现代计算机视觉和AI模型生成类似于《爱丽丝梦游仙境》中的奇妙世界,用户可以像爱丽丝一样穿越其中。与之前的工作不同,该问题要求生成一系列不同类型的3D场景,这些场景应该沿着一个长距离的相机轨迹连接在一起,模拟旅行的视觉体验。
永续3D场景生成的挑战,包括生成多样化但可信的场景元素、支持路径形成的连贯连接的三维场景、以及如何在新的连接场景中生成这些元素。作者提出了WonderJourney框架,该框架包括一个LLM模块用于生成场景描述、一个文本驱动的视觉模块用于生成连贯的三维场景、以及一个VLM模块用于验证生成的场景。作者还设计了一个视觉场景生成模块,该模块利用现成的文本到图像和深度估计模型生成连贯的三维点云。作者在用户研究中将WonderJourney与SceneScape和InfiniteNatureZero进行了比较,结果表明WonderJourney生成的旅程更有趣和多样化。
相关工作
永续视图生成。Infinite Images是关于永续视图生成的开创性工作,通过拼接和渲染图像来模拟在3D世界中导航的效果。后续的研究如Infinite Nature和InfiniteNature-Zero学习根据当前视图自动回归生成下一个视图。其他的研究改进了全局3D一致性和视觉质量。SceneScape通过逐渐构建一个由长网格表示的单一洞穴状场景来探索基于文本驱动的永久视图生成。
3D场景生成。在3D场景生成方面,已经取得了相当大的进展,包括文本到3D或图像到3D生成。一些作品专注于生成带有背景的单个3D场景,而其他作品专注于从有限观察中生成或重建场景。
文本引导的视频生成也是一个研究方向,但与我们的永久3D场景生成不同,它们旨在生成一系列连贯连接的场景。
方法
WonderJourney是一个生成3D场景的框架,它通过文本描述生成下一个场景,并使用文本引导的视觉生成模块来制作3D场景。该框架分为场景描述生成、视觉场景生成和视觉验证三个模块,每个模块都可以使用最新的预训练模型实现。该框架高度模块化,可以轻松利用大型语言和视觉模型的快速进展。
场景描述生成
我们介绍了一种自回归场景描述生成过程,即场景描述生成器根据过去和当前的场景描述预测下一个场景描述。场景描述由风格、场景中的对象和背景描述组成。通过使用词类过滤器,只保留实体的名词和属性的形容词,可以生成更连贯的场景。
视觉场景生成
由于我们希望生成的下一个场景在几何和语义上与过去的场景保持一致,因此将视觉场景生成表述为一个条件生成问题,将下一个场景描述和当前场景的3D表示都作为条件:
以及使用参数化(预训练)视觉模型的组件,包括深度估计器、基于分割的深度细化器和painter中的文本条件图像。我们在图3中展示了一个例子。
提升图像到点云。给定由图像表示的当前场景,通过估计深度将其提升到3D,并用针孔相机模型对其进行解投影。在实验中使用了MIDAS v3.1,这是最先进的深度估计器之一。然而,发现现有的单目深度估计器有两个共同的问题。首先,深度不连续没有被很好地建模,导致跨对象边界的深度边缘过度平滑。其次,天空的深度总是被低估。为解决这两个问题,本文提出一种利用像素分组段和天空分割的深度细化过程。
深度优化。为了增强物体边界上的深度不连续,在视差范围有限的情况下,采用正面平面对场景元素进行建模。我们使用SAM生成像素分组线段,并按照线段大小降序排序。我们迭代优化估计的深度:
对于视差范围较大的片段,保持其估计深度,因为它们不适合一个正面平面,如道路。针对具有不同风格的一般场景,使用视差范围的标准来保持估计的深度,而不是选择的语义类别。
为了处理经常被低估的天空深度,分割天空区域,并为其分配一个较高的深度值。然而,这导致沿天空边界的深度估计不准确,如果我们简单地使用输出分割,这些错误会导致在后续场景中积累严重的伪影。要解决这个问题,我们只需移除天空边界上的点。此外,我们发现远处像素的深度通常不可靠。因此,我们还设置了一个深度为F的背景平面,以切断超过它的所有像素的深度。
描述引导的场景生成。为了生成与当前场景连接的新场景,将摄像机放置在与当前摄像机适当距离的位置。如图3所示,我们渲染部分图像,并使用文本引导的inpainter进行修复,以生成新的场景图像:
在实验中,我们使用稳定扩散修复模型进行修复。在生成新的场景图像后,通过估计和细化深度将其提升到3D,得到新的点云。
基于深度一致性的新场景配准。然而,由于深度估计器不知道几何约束,点的深度通常不一致。因此,我们通过深度对齐损失来调整深度估计器:
通过重新渲染一致性来处理遮挡。另一个几何不一致性是,失遮挡区域可能具有比其遮挡区域更低的深度值,因为深度估计器不知道这种3D几何约束。我们在图3的细化深度中突出了错误估计的错位深度。为了解决这个问题,我们在相机上重新渲染新场景,并检测所有不一致的像素。在每个不一致的像素,我们移回所有光栅化的额外点,这些点的深度值低于pi中的一个点。这消除了错位的不一致性,并确保错位发生在遮挡器之后。
场景完成。我们通过添加更多的点来获得最终的点云我们通过重复以下“随用随到”过程来添加点:我们沿着连接新场景和当前场景的摄像机轨迹放置一个额外的摄像机,在该摄像机处渲染部分图像,修复图像,并将额外的点添加到点云。请注意,在方程3中的视觉场景生成公式中,可以将图像输入替换为当前场景的点云,形成持久的场景表示。这允许在3D持久性和经验需求之间进行权衡。
视觉验证
本文提出了一种基于文本检测的方法,用于识别并拒绝生成的场景图像中的不良效果,如画框或照片边框以及模糊的非焦点对象。具体而言,通过将生成的场景图像输入到一个VLM中,并使用文本查询来检测不良效果,如果检测到任何不良效果,则重新生成图像。该方法可以提高生成图像的质量和一致性。
实验
数据集和基线。由于永久3D场景生成是一个没有现有数据集的新任务,本文使用自己拍摄的照片、来自在线的无版权照片和生成的示例的混合,在实验中进行评估。我们使用DALL-E 3 进行文本到图像的配对。将两种最先进的永续视图生成方法作为基线:基于图像的InfiniteNature-Zero和基于文本的SceneScape。
定性示例。在图1和图5中展示了不同场景和不同风格生成的旅程的定性示例。这些结果表明,WonderJourney能够从各种类型的输入图像中生成多样化但连贯连接的场景,即它可以来自任何地方。更多示例见附录。图4进一步展示了来自相同输入的不同生成样本的例子。这些不同的生成旅程表明,WonderJourney支持在每次运行中前往不同的目的地。
人类偏好评价。由于WonderJourney的主要应用是为了创意和娱乐目的,本文专注于人类偏好评估作为量化指标,使用以下四个指标:在单个旅程中生成场景的多样性、视觉质量、场景复杂性和整体趣味性。按照每种方法自己的摄像机轨迹设置生成视频。我们每次问一个二选一问题,例如“比较下面的两个视频。哪个视频的多样性更高?我们招募了400名参与者,其中200名用于与InfiniteNature-Zero进行比较,200名用于与SceneScape进行比较。每个参与者回答12个问题。
如表1所示,WonderJourney在四个轴上都比两个基线更受欢迎。
局限性。如上所述,渲染的视频可能由于估计误差(深度、分割等)而出现伪影。用分割来细化深度,这也可能包含导致伪影的错误。随着这些网络的改进,由于我们的模块化设计,我们的技术也应该改进。
总结
WonderJourney是一个生成3D场景序列的工具,用户可以提供起始位置并生成连贯的场景序列,具有多样性和视觉效果。
评论0