“MoonShot: Towards Controllable Video Generation and Editing with Multimodal Conditions”
论文地址:https://arxiv.org/abs/2401.01827
摘要
本文介绍了一种新的视频生成模型MoonShot,它可以同时对图像和文本进行多模态输入,通过核心模块MVB来表示视频特征,并使用交叉注意力层来控制外观。此外,该模型可以与预训练的图像ControlNet模块集成,以实现几何视觉条件,而无需额外的训练开销。实验表明,MoonShot在视觉质量和时间一致性方面比现有模型有显著的改进,并且可以轻松地用于各种生成应用,如个性化视频生成、图像动画和视频编辑。
简介
本文介绍了文本到视频生成模型的发展,指出现有模型在控制视频外观和几何结构方面存在局限性。为了解决这些问题,本文提出了一种解耦的多模态交叉注意力模块,可以同时对图像和文本输入进行条件控制,从而更好地控制视频外观,同时最小化所需的微调工作量,并实现零样本主题定制视频生成。此外,本文还介绍了一些现有的控制视频几何结构的方法,并指出它们的局限性。
MoonShot是一个视频生成模型,它结合了图像和文本条件输入。模型的基础是一个新的视频生成模块,称为多模态视频块(MVB)。MVB包含三个主要设计考虑:传统的空间-时间模块用于视频生成,包括空间卷积层、自注意力层和时间注意力层;解耦的多模态交叉注意力层,用于同时考虑文本和图像输入;可选地,可以立即集成预训练的图像控制网络模块来控制生成的几何结构。MoonShot生成基于多模态输入的高度一致的视频,并可以进一步利用几何输入来控制生成的组合布局。此外,MoonShot的通用架构可以轻松用于各种生成应用,如图像动画和视频编辑。定性和定量结果表明,MoonShot在个性化视频生成、图像动画和视频编辑方面具有优越的性能。当以视频帧作为图像条件时,MoonShot展示了与最先进的基础VDM相媲美或更好的结果,验证了模型的有效性。
相关工作
文本到视频生成。以往的研究在文本到视频生成领域使用了多种生成模型,如GANs、自回归模型和隐式神经表示。多数现有方法只关注单一模态的条件,而我们的方法支持图像和文本的多模态条件,实现更精确的控制。
视频编辑和ControlNet是视频编辑的两个重要方向,我们的方法直接使用VDM进行视频编辑,无需微调或复杂设计。
生成模型定制化是通过定制大型预训练模型来增强用户特定偏好的能力,我们的方法在视频块中引入了解耦的图像-文本交叉注意力层,实现了高质量和平滑的视频创建。
图像动画是生成给定初始图像的后续帧的任务,我们的方法通过掩码条件和解耦的图像-文本注意力,有效地对齐动画视频的第一帧和提供的图像,确保更准确地保留其原始身份。
模型结构和适配
模型的核心组件是多模态视频块,可以用于几何控制视频生成、图像动画和视频编辑等任务。模型的优化使用了噪声预测损失函数。
我们的模型架构建立在多模态视频块(MVB)之上。这个关键模块的设计有三个主要目标。首先,我们的目标是让模型始终如一地产生高质量的视频帧。其次,需要立即集成预训练的图像控制网。这样,我们可以方便地使用几何图像来控制构图布局,而无需额外的训练。第三,该模型有望适应多模态文本和图像输入,以获得更好的视觉外观条件。为此,每个MVB由两组层组成,时空U-Net层和解耦的多模态交叉注意层,如下所示。
时空U-Net层。文本-图像模型中典型的U-Net由空间卷积层(ResNet2D)、自注意层和交叉注意层组成,交叉注意层限制了文本的生成。我们观察到,在交叉注意层之后增加时间注意层并没有显著改变空间特征分布,而是有效地促进了时间特征的聚集。通过在训练期间冻结空间层,我们可以重用ControlNet,通过沿时间轴广播来调整几何视觉输入的生成,如图3(c)所示。
解耦的多模态交叉注意力层。大多数现有的视频生成模型使用交叉注意模块来约束文本的生成。在文本提示符嵌入的情况下,扩散模型要求通过交叉关注层增强U-Net特征f x,其中查询Q来自U-Net特征f x,键K和值V来自文本嵌入f x。然后将交叉注意操作定义为:
这种设计有两个问题。首先,仅依靠文本提示通常不足以准确描述所需生成的高度定制的视觉概念。其次,特别是在视频生成过程中,由于缺乏视觉调节机制,使得时间注意层负担过重。他们必须同时确保帧间的一致性,同时保持高质量的空间特征,这通常会导致低质量视频的闪烁。
为了解决这些问题,我们引入了解耦的多模态交叉注意,其中一个额外的键和值转换针对图像条件进行了优化,表示为KI, VI∈RBN ×L ×C。注意事项如下:
这种方法使模型能够有效地管理图像和文本条件。此外,对视觉线索的调节允许后续时间模块更多地关注于保持时间一致性,从而产生更平滑和更高质量的视频输出。有了额外的图像条件,训练损失可以重新表述为:
适配视频生成
图像动画的掩码条件。为了增强内容的一致性,我们采用了掩码调节机制用于图像动画。我们使用第一帧作为U-Net的附加输入条件。除了原始的四个潜在通道,我们在U-Net的输入中添加了另外五个通道。其中,4个通道表示复制的第一帧潜伏期,1个二进制通道表示掩码帧。这种方法鼓励动画视频中主体的身份与条件反射图像中的身份保持一致。我们观察到,结合一个额外的图像交叉注意层是必不可少的图像动画。它有助于显著防止外观的突然变化和减少时间闪烁,这在仅由文本条件驱动的模型中很常见。
视频编辑与视频扩散模型。DreamMix表明,VDM可以重新用于视频编辑,但这需要大量的微调。我们的模型是通用的视频生成,但可以用于视频编辑而无需微调。具体来说,对于选定的编码源视频,我们使用DDPM前向处理加入高斯噪声。接下来,我们直接使用VDM的扩散,同时以文本和图像为条件。这个过程有效地将原始视频中的主题替换为图像条件中的主题,并结合文本中描述的视觉吸引元素,从而产生平滑编辑的视频。
几何控制生成。由于我们的模型保留了预训练的文本到图像模型的空间特征,我们可以直接集成图像ControlNet进行几何调节。为了实现这一点,我们将预训练的ControlNet模块附加到模型上。然后通过残数将每一帧的条件特征添加到相应的特征映射中。由于U-Net时空层的精心设计,我们观察到令人满意的几何控制效果,而无需针对视频进行微调。
实验
实现细节
模型使用SDXL初始化空间权重,并使用LAION数据集训练图像交叉注意力层,然后使用WebVid10M数据集训练时间注意力层。最后,使用InternVideo数据集进行进一步的细化。模型使用16个A100 40G GPU进行训练。详细信息请参见补充材料。
人类评估
在Amazon Mechanical Turk上进行的人类评估,包括视频编辑任务、ControlNet评估和文本到视频消融研究。对于视频编辑任务,评估者需要根据三个标准(提示到编辑帧的精度、视频的时间连贯性和整体质量)从五种方法中选择最优结果。对于ControlNet评估,评估者需要判断创建的视频是否符合控制信号。对于文本到视频消融研究,评估者需要评估视频的整体质量、文本视频对齐的准确性和运动保真度。
主题定制生成
在DreamBooth数据集上进行了实验,评估了主题定制视频生成的效果。通过使用DINO和CLIP-I分数来评估主题对齐性,使用CLIP-T来评估视频文本对齐性,计算所有帧的平均分数。实验结果表明,该方法在零样本定制方面表现出色,远远超过非定制的文本到视频模型。与需要针对新主题进行重复训练的AnimateDiff不同,该方法利用预训练的解耦多模态注意力层,实现了零样本定制,并且性能相当。如果使用80个步骤进行微调,该方法的性能进一步超过了AnimateDiff,证明了模型的有效性。此外,该模型还能够与图像ControlNet直接集成,实现对几何结构的控制。
图像动画
通过对128个视频-文本对进行评估,该方法在身份保留、时间一致性和文本对齐等方面表现出色,优于其他方法。与其他方法相比,该方法能更好地保持外观,使动画与文本提示相一致。同时,该方法还与I2VGEN-XL、DynamiCrafter和VideoComposer进行了定性比较,证明了其优越性。
视频编辑
本文比较了四种视频编辑方法,并介绍了作者的方法在时间一致性和帧编辑准确性方面的优势。作者的方法使用基础VDM模型进行视频编辑,相比于使用图像模型的方法,具有更好的时间一致性。在定性结果中,作者的方法成功地根据条件图像替换了吉普车,并符合文本提示。
文本到视频生成
本文介绍了一种基于文本和图像的多模态生成模型,该模型在零样本生成方面表现出色,使用MSR-VTT数据集进行评估,取得了最佳结果。模型在训练过程中冻结空间层,先生成图像,再与文本结合进行多模态生成。该模型在FID-vid、FVD和CLIP-T等方面表现优异,具有更好的视觉质量和文本对齐效果。
消融分析
时空模块设计。研究了时空模块设计对图像控制网络的影响,发现将时间卷积插入空间模块会影响空间特征,而将时间注意力放在空间模块之后可以保持图像控制网络的有效性。
图像条件对视频一致性和质量的影响。探究了多模态条件对视频生成的影响,发现仅使用文本条件会导致较弱的时间一致性、运动保真度和视觉质量,而加入图像交叉注意力可以提供有效的视觉信号,从而使时间模块专注于视频一致性,减少闪烁和提高视频质量。
图像条件和遮罩条件对图像动画的影响。研究了图像条件和掩码条件对图像动画的影响,发现掩码条件可以产生与条件图像匹配的第一帧动画,但不能保证时间一致性,而加入图像条件可以提高时间一致性和主体识别度。同时,使用掩码条件和图像条件可以产生高度保留条件图像的第一帧和视觉一致的动画。
总结
MoonShot是一个新的视频生成模型,它通过Multimodal Video Block (MVB)同时对图像和文本进行条件约束。该模型在生成高质量视频方面表现出色,并且能够利用预训练的图像ControlNet来控制几何特征,无需额外的训练开销。该模型具有通用的架构和多功能的条件约束机制,可以轻松适应各种视频生成任务,如图像动画、视频编辑和主题定制视频生成,生成质量优于先前的方法,展示了其在视频生成研究和应用中的巨大潜力。
评论0