DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟

DreamGaussian4D: Generative 4D Gaussian Splatting

项目主页:https://jiawei-ren.github.io/projects/dreamgaussian4d/

论文地址:https://arxiv.org/abs/2312.17142

Github地址:https://github.com/jiawei-ren/dreamgaussian4d

 

摘要

《DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟》- 投稿作者:灵度智能 - 发布于:GetAI社区

近年来,4D内容生成技术取得了显著进展。然而,现有方法存在优化时间长、运动可控性不足、细节水平低等问题。本文提出DreamGaussian4D,一种高效的4D生成框架,建立在4D高斯Splatting表示之上。与隐式表示相比,高斯Splatting对空间变换的显式建模使其更适合于4D生成设置。DreamGaussian4D将优化时间从几个小时减少到仅仅几分钟,允许灵活控制生成的3D运动,并产生可以在3D引擎中有效渲染的动画网格。

简介

近年来,生成模型在生成数字内容方面取得了显著进展,包括2D图像、视频和3D场景。然而,4D动态场景的生成仍然存在一些挑战,包括一致性和高质量。目前已有一些研究致力于4D生成,但仍需要更多的工作来解决这些问题。现有的4D生成模型需要花费数小时才能生成一个4D NeRF,并且生成的动作难以控制。

本文介绍了DreamGaussian4D框架,可以在几分钟内高效生成具有4D高斯喷洒的动态场景。该框架采用了可变形高斯喷洒表示法,显式建模空间变换,从而大大简化了4D生成中的动态优化。作者提出了更好的训练方法DreamGaussianHD,学习运动的驱动视频来替代常用的视频扩散模型。最后,作者提出了视频到视频纹理细化策略,进一步提高了导出动画网格的质量。

相关工作

4D表示

有两种方法来表示动态3D场景(4D场景):一种是直接将4D场景表示为x、y、z的函数,加上时间维度t或潜在编码;另一种是将4D场景表示为变形场与静态的标准3D场景的组合。4D场景表示的一个关键瓶颈是速度问题,目前有许多方法来解决这个问题,包括使用显式或混合表示、平面分解、哈希表示和其他结构。最近,高斯喷洒法引起了人们的关注,因为它既具有令人满意的速度,又具有令人印象深刻的重建质量。动态3D高斯喷洒法通过动态正则化和共享的大小、颜色和不透明度来优化每帧的高斯喷洒法。4D高斯喷洒法使用变形网络来预测时间相关的位置、尺度和旋转变形。

图像到3D生成

图像到3D生成的技术,旨在从单个参考图像生成3D模型。该任务可以使用扩散模型等技术进行条件生成。一些方法利用2D扩散模型并将其提升到3D,通过得分蒸馏采样生成高质量的3D模型。此外,还介绍了一些采用自编码器结构学习3D先验知识的方法,以及一些采用多视角图像生成多视角重建模型的方法。其中一些方法可以直接生成3D点云或神经辐射场,但质量受到空间分辨率和高质量3D数据集的限制。

4D生成

4D生成技术的研究进展,旨在生成动态的3D场景,适用于动画、游戏和虚拟现实等图形应用。目前的研究主要集中在利用文本到视频扩散模型来提炼4D内容,并通过渲染视频来优化4D表示。近期的研究致力于进一步提高逼真度,但优化时间和计算成本仍然很高。同时,4D内容与运动相互耦合,因此缺乏生成运动的多样性和控制性。最近的一些工作提出了从输入图像中获取4D模型的方法,但仍然遵循视频提炼框架,优化时间长且缺乏有效的运动控制。本文提出了一种基于图像条件生成视频的方法,可以在同一静态模型上生成多样的运动。与现有的一些方法相比,本文的方法需要更少的优化迭代次数。

方法

《DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟》- 投稿作者:灵度智能 - 发布于:GetAI社区

DreamGaussian4D包括三个阶段:静态生成、动态生成和网格细化。静态生成阶段使用DreamGaussian来创建3D高斯函数。动态生成阶段生成一个驱动视频来优化静态高斯函数上的时间依赖形变场。网格细化阶段将4D高斯函数转换为动画网格序列,并应用视频到视频的流水线来一致地细化纹理映射。

DreamGaussianHD用于静态生成

DreamGaussian是一个用于图像到3D生成的模型,但是原始版本存在一个问题,就是在生成静态模型的未见区域时会引入显著的模糊,这会对后续的动态优化过程产生不利影响。为了解决这个问题,研究者们设计了一种改进的实现方法,称为DreamGaussianHD,它可以可靠地提高图像到3D生成的质量,虽然会增加一定的优化时间。

多视角优化

 

DreamGaussian在SDS优化过程中通常只对参考视图进行采样,这导致优化和收敛不平衡。通过增加每次优化步骤中采样的视图数量(批处理大小),可以显著缓解这个问题。例如,采样16个视图可以在3D高斯分布的未见区域生成高质量的几何形状。然而,这种方法会增加SDS计算的内存使用量并延长优化时间。

修复底色

3D图像扩散模型通常使用白色背景渲染训练对象,而黑色背景会引入噪声,导致模糊。为了获得更精细的结果,DreamGaussian在背景颜色上采样白色。

高斯变形用于动态生成

生成驱动视频

本文提出了一种新的图像到4D生成方法,与其他方法不同的是,它使用任何描绘输入图像的视频进行显式监督。该方法不依赖于视频扩散模型,因此可以选择质量更高、具有更好时间一致性和运动的视频,从而实现更好的可控性和多样性。作者使用了现成的稳定扩散视频生成器来生成视频。

静态到动态初始化

为了将静态的3D高斯分布转化为动态的4D高斯分布,使用变形网络来预测每个高斯分布在时间戳下的位置、旋转和缩放的变化。为了避免随机初始化变形网络导致动态和静态模型发散,初始化变形模型以预测零变形。为了实现梯度反向传播,引入跳跃连接到预测头中。

变形场优化

通过优化变形场来实现从参考视角到整个3D模型的运动传播,并利用Zero-1-to-3-XL来预测未见部分的变形。在训练过程中,采样多个视角以保持时序一致性。由于静态模型初始化,可以在较低的噪声水平下开始SDS。

视频到视频纹理优化

本文介绍了一种视频重建方法,通过提取每一帧的网格来实现,但这些网格缺乏时间关联,因此采用了视频到视频的流程来增强UV空间纹理映射并保持时间一致性。该流程包括合成相机轨迹、渲染视频、引入噪声和使用图像到视频扩散模型来转换噪声视频为干净的视频。最后,通过计算MSE损失并反向传播来改善所有时间步骤的纹理映射。

实验

实现细节

实验使用单个80GB A100 GPU,采用DreamGaussian4D框架和Stable Video Diffusion生成14帧驱动视频。静态优化运行500次迭代,批量大小为16,线性衰减T max从0.98到0.02。动态表示运行200次迭代,批量大小为4,线性衰减T max从0.5到0.02。可选的网格细化运行50次迭代,T为0.7,持续3.5分钟。

定量结果

我们使用Animate124数据集进行了评估,使用CLIP-I作为评估指标,该指标衡量了生成图像与原始图像之间的余弦相似度。结果表明,DreamGaussian的表现最佳,并且DreamGaussian4D可以将优化时间从几小时缩短到几分钟。

《DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟》- 投稿作者:灵度智能 - 发布于:GetAI社区

《DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟》- 投稿作者:灵度智能 - 发布于:GetAI社区

定性结果

图4展示了我们的定性图像到4D结果,结果在不同的时间步长和相机视角下进行渲染。图5中,我们将我们的方法与Animate124进行了比较。我们的方法在保持输入图像的真实性、更强的运动以及更丰富的几何和纹理细节方面取得了更好的效果。我们进一步将4D GS导出为具有纹理细化的网格,并在Blender引擎中进行组合。我们在图6中从不同的视角渲染了组合场景。所有的定性结果最好在项目页面的视频中查看。

《DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟》- 投稿作者:灵度智能 - 发布于:GetAI社区

《DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟》- 投稿作者:灵度智能 - 发布于:GetAI社区

《DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟》- 投稿作者:灵度智能 - 发布于:GetAI社区

消融分析

DreamGaussianHD

DreamGaussianHD的图像到3D质量有很大改进,但从侧面和背面观察时存在严重模糊问题。通过引入多视角优化和背景修复,新视角质量得到了显著提高。

《DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟》- 投稿作者:灵度智能 - 发布于:GetAI社区

零初始化

动态模型在优化过程中需要进行零初始化,否则初始状态可能与静态模型不同,导致优化结果不理想。零初始化可以解决这个问题。例如,在优化过程中,熊猫的背部可能会变成全黑色,而零初始化可以避免这种情况。

《DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟》- 投稿作者:灵度智能 - 发布于:GetAI社区

运动驱动

与现有的4D生成方法不同,我们的方法可以更好地控制和生成多样化的运动。不同的驱动视频可以生成不同的4D运动。在图9中,我们为输入图像生成了三个不同的驱动视频,从而产生了三种不同的3D运动。

《DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟》- 投稿作者:灵度智能 - 发布于:GetAI社区

视频到视频的纹理细化

视频中的每个帧都有单独的纹理贴图,因此在表示中没有时间上的一致性限制。直接优化纹理贴图会导致相邻帧之间的闪烁。相反,视频扩散模型提供了时间上的一致性,并且产生更平滑的时间变化。

0

评论0

请先
显示验证码