“Lumiere: A Space-Time Diffusion Model for Video Generation”
项目主页:https://lumiere-video.github.io/
论文地址:https://arxiv.org/pdf/2401.12945.pdf
摘要
Lumiere是一个文本到视频的扩散模型,设计用于解决多样和连贯的运动-视频合成中的关键挑战。为此,我们引入了一种时空U-Net架构,它通过模型中的单个通道立即生成视频的整个时间持续时间。这与现有的视频模型形成对比,现有的视频模型合成远距离关键帧,然后是时间超分辨率——这种方法本质上使全局时间一致性难以实现。通过部署空间和(重要的)时间上下采样,并利用预训练的文本到图像扩散模型,我们的模型通过在多个时空尺度上处理视频,学会直接生成全帧率、低分辨率的视频。
简介
现有的T2V模型采用级联设计,基础模型生成远距离关键帧,后续的时间超分辨率模型在非重叠段中生成缺失数据。然而,级联训练方案存在域差异问题,TSR模型在实际推理时用于插值生成帧,会积累误差。此外,级联设计限制了生成全局一致运动的能力,因为基础模型生成的关键帧过于稀疏,快速运动会出现时间混叠和模糊,而TSR模块受限于固定的小时间上下文窗口,无法在整个视频的持续时间内一致地解决混叠模糊问题。
本文介绍了一种新的T2V扩散框架,使用Space-Time U-Net(STUNet)架构,学习在空间和时间上对信号进行下采样,并在紧凑的空间时间表示中执行大部分计算,从而一次性生成完整的视频时间序列。这种方法可以使用单个基础模型生成80帧16fps(或5秒)的视频,比以前的工作具有更全局一致的运动。与以往的T2V模型不同,该方法在架构中包括空间和时间下采样操作,并在网络中保持固定的时间分辨率。
Lumiere通过在像素空间中进行空间超分辨率(SSR)级联来生成视频。由于SSR网络在高空间分辨率下操作,将其应用于整个视频持续时间在内存需求方面是不可行的。为了解决这个问题,作者提出了一种扩展多扩散方法,将其应用于时间窗口,然后将结果聚合成整个视频剪辑的全局一致解决方案。作者展示了Lumiere在视频生成任务中的最新结果,并展示了如何轻松地将其应用于各种视频内容创建任务,包括视频修复、图像到视频生成以及生成符合给定样式图像的风格化视频。最后,作者展示了通过一次生成整个视频可以轻松调用现成的编辑方法来进行一致的编辑。
相关工作
文本到图像生成的常见方法是基于扩散模型,其中DALL-E2和Imagen使用级联扩散模型实现了逼真的文本到图像生成,而Stable Diffusion在压缩低维潜在空间中执行生成。一些有前途的工作设计了T2I扩散模型,可以端到端地生成高分辨率图像,而无需空间超分辨率级联系统或固定的预训练潜在空间。本文设计了一个T2V模型,可以一次生成完整的帧持续时间,避免了常见于T2V模型中的时间级联。
文本到图像生成领域最近的研究进展,包括使用自回归Transformer或扩散模型训练大规模T2V模型,以及通过“膨胀”预训练的T2I模型来生成视频。作者提出了一种新的膨胀方案,可以在空间和时间上对视频进行降采样,并在网络的压缩空间时间特征空间中执行大部分计算。这种方法可以处理完整的视频片段,而现有的膨胀方案则限制了网络的时间分辨率。作者的方法可以用于T2I和潜在扩散,与改进扩散噪声调度器或视频数据筛选等其他方法是相互独立的。
Lumiere
Lumiere通过逐步去噪的方式逼近目标分布,可以学习到条件分布。该框架包括基础模型和空间超分辨率模型,前者生成低分辨率视频,后者通过时间感知的超分辨率技术将其升采样为高分辨率视频。该框架可用于多种下游应用。
Space-Time U-Net(STUnet)
为了解决计算问题的可计算性,我们提出使用空时U-Net对输入信号进行空间和时间上的下采样,并在这个紧凑的空时表示上执行大部分计算。我们的架构如图4所示。我们在T2I架构中交错插入时间块,并在每个预训练的空间调整模块之后插入时间下采样和上采样模块(图4a)。时间块包括时间卷积(图4b)和时间注意力(图4c)。具体来说,在除最粗糙的层级之外的所有层级中,我们插入分解的空时卷积(图4b),这允许增加网络中的非线性,相比于全3D卷积而言,减少计算成本,并且相比于1D卷积而言增加表达能力。
由于时间注意力的计算要求随着帧数的增加呈二次增长,我们仅在最粗糙的分辨率下使用时间注意力,该分辨率包含视频的空时压缩表示。在低维特征图上操作允许我们堆叠多个时间注意力块,而计算开销有限。我们训练新添加的参数,并保持预训练的T2I模型的权重不变。值得注意的是,常见的扩展方法确保在初始化时,T2V模型等同于预训练的T2I模型,即将视频生成为独立图像样本的集合。然而,在我们的情况下,由于时间下采样和上采样模块,无法满足这个属性。我们经验性地发现,初始化这些模块以执行最近邻下采样和上采样操作会得到一个良好的起点(从损失函数的角度来看)。
空间超分辨率的多重扩散
本文介绍了一种基于多扩散技术的视频去噪方法。由于内存限制,该方法只能处理视频的短时间段。为了避免时间边界效应,使用多扩散技术实现了时间段之间的平滑过渡。通过线性组合重叠窗口的预测结果来解决去噪问题。
应用
Lumiere模型的缺乏TSR级联使得将其扩展到下游应用更加容易。我们的模型为需要现成的T2V模型的下游应用提供了直观的接口。我们通过使用SDEdit进行视频编辑来演示这一特性。我们还讨论了一些应用,包括风格条件生成、图像到视频、修复和扩展以及活动照片。请参考我们网页上的补充材料获取完整的视频结果。
风格化生成
通过线性插值fine-tuned的T2I权重和原始T2I权重,可以在风格和动作之间取得平衡。通过这种方法生成的视频可以保持所需的风格,并展现出合理的动作。不同的风格会导致不同的动作效果,比如“线描”风格会生成类似铅笔画的动画,而“卡通”风格则会逐渐构建场景。
条件生成
我们将模型扩展到以附加输入信号(例如,图像或掩码)为条件的视频生成。具体地说,我们添加屏蔽条件视频和它对应的二进制掩码,使得模型的整体输入是连接张量。为了适应修改后的输入形状,我们将第一个卷积层的通道维数从3扩展到7,并对我们的基本T2V模型进行微调,以基于C, m对J进行降噪。在这个微调过程中,我们将J作为训练视频的带噪版本,将C作为干净视频的掩码版本。这鼓励模型学习将C语言中未被屏蔽的信息复制到输出视频中,同时根据需要只对被屏蔽的内容进行动画化。
图片到视频生成。在这种情况下,视频的第一帧作为输入。调节信号C包含第一帧,然后是视频其余部分的空白帧。对应的掩码M包含第一帧的1(即未屏蔽的内容)和视频其余部分的0(即被屏蔽的内容)。
修补。条件信号是用户提供的视频C和描述视频中要完成的区域的掩码M。绘制应用程序可以用于对象替换/插入(图1),也可以用于局部编辑(图7)。效果是对蒙版区域进行无缝和自然的完成,内容由文本提示引导。
动图。我们还考虑了仅在特定用户提供的区域内动画图像内容的应用。调节信号C是在整个视频中复制的输入图像,而掩码M包含整个第一帧的图像(即,第一帧被去除掩码),而对于其他帧,掩码仅包含用户提供区域之外的图像(即,其他帧在我们希望动画的区域内被屏蔽)。
评估和对比
该模型在包含30M个视频及其文本标题的数据集上进行训练。视频长度为80帧,每秒16帧(5秒)。基础模型的训练尺寸为128×128,SSR输出为1024×1024帧。模型在包含113个描述不同对象和场景的文本提示的集合上进行评估。此外,还使用零样本评估协议在UCF101数据集上进行评估。该方法生成了高质量的视频,展示了复杂的物体运动和连贯的相机运动。完整的视频结果请参考附录。
基线。与流行的T2V扩散模型进行了比较,包括ImagenVideo、AnimateDiff、StableVideoDiffusion、ZeroScope、Pika、Gen2。此外,本文还对一些闭源的T2V模型进行了定性比较。
定性评估
本文对比了多种视频生成模型,发现Gen-2和Pika的视频质量高,但动态效果较差;ImagenVideo的动态效果较好,但视觉质量较低;AnimateDiff和ZeroScope存在视觉伪影和生成时长较短的问题。相比之下,本文提出的方法生成的5秒视频动态效果更好,同时保持了时间上的连贯性和整体质量。
定量评估
基于UCF101的零样本评估。结果表明我们的方法在Fréchet Video Distance (FVD)和Inception Score (IS)上取得了有竞争力的分数。然而,这些评估指标并不能完全反映人类感知,并且可能受到低级细节和数据分布偏移的影响。此外,评估协议只使用了生成视频的16帧,无法捕捉到长期运动。
用户学习。本研究采用了两种选择强制性选择(2AFC)协议进行用户研究,参与者需要选择他们认为在视觉质量和动作方面更好的视频。通过亚马逊机械土耳其(AMT)平台收集了每个基线和问题约400个用户判断。结果显示,我们的方法在用户中更受欢迎,并且与文本提示更好地对齐。此外,我们还进行了用户研究,将我们的图像到视频模型与其他基线进行比较,结果显示我们的方法在视频质量方面更受用户喜欢。详细的评估协议请参考附录B。
总结
本文介绍了一种新的文本到视频生成框架,利用预训练的文本到图像扩散模型。作者发现现有方法在学习全局连贯运动方面存在局限性,因此提出了一种空时U-Net架构设计,直接生成全帧率视频剪辑。该方法在图像到视频、视频修复和风格化生成等应用中表现出色。但该方法无法生成包含多个镜头或场景转换的视频,这是未来研究的挑战。作者的设计原则适用于潜在视频扩散模型,并可触发文本到视频模型的进一步研究。
评论0