AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改

《AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改》- 投稿作者:灵度智能 - 发布于:GetAI社区

视频到视频编辑涉及编辑源视频和附加属性(如文本提示、主题或样式),以生成与源视频和提供的控件一致的新视频。传统方法受限于特定的编辑类型,限制了其满足用户广泛需求的能力。本文提出AnyV2V,一种新的不用训练的框架,旨在将视频编辑简化为两个主要步骤:

  • 1)利用现成的图像编辑模型(如InstructPix2Pix, InstantID等)来修改第一帧
  • 2)利用现有的图像到视频生成模型(如i2vgenxl)来进行DDIM反转和特征注入。

在第一阶段,AnyV2V可以插入任何现有的图像编辑工具,以支持广泛的视频编辑任务。除了传统的基于提示的编辑方法,AnyV2V还可以支持新的视频编辑任务,包括基于参考的风格迁移、主题驱动的编辑和身份操纵,这是以前的方法无法实现的。在第二阶段,AnyV2V可以插入任何现有的图像到视频模型进行DDIM Inverison和中间特征注入,以保持与源视频的外观和运动一致性。

在基于提示的编辑方面,AnyV2V可以比之前的最好方法在提示对齐方面提高35%,在人类偏好方面提高25%。在三个新任务上,AnyV2V也取得了很高的成功率。我们相信AnyV2V将继续蓬勃发展,因为它能够无缝集成快速发展的图像编辑方法。这种兼容性可以帮助AnyV2V增强其通用性,以满足多样化的用户需求。

简介

视频到视频编辑任务是一个关键的研究领域,合成的视频不仅要保持对源视频的忠实,而且还要准确地纳入所提供的额外指导。本文提出一种统一而简单的框架AnyV2V,旨在解决任何视频编辑任务。任何视频编辑任务都可以有效地分解为两个关键阶段:

  • 1)在第一帧上应用现成的特定任务的图像编辑模型。
  • 2)应用图像到视频模型对源视频进行DDIM Inverison,然后注入中间特征以生成新视频。

在第一阶段,AnyV2V利用现有的特定于任务的图像编辑方法来编辑第一帧。在第二阶段,旨在在整个视频中传播编辑效果,同时确保与源视频对齐。为了实现这一点,我们遵循一个倒置-生成框架。我们使用图像到视频模型进行DDIM Inverison来启用第一帧条件。将倒转的潜变量作为初始噪声,将修改的第一帧作为条件信号,I2V模型能够生成不仅忠实于编辑的第一帧,而且遵循源视频的外观和运动的视频。为了进一步加强图像外观和运动与源视频的一致性,在I2V模型的去噪U-Net的卷积层、空间注意力层和时间注意力层中进行特征注入。通过执行两阶段的编辑过程,AnyV2V有效地将编辑操作转移到现有的图像编辑工具。这种解缠有助于AnyV2V在以下方面表现出色:

  • 兼容性:AnyV2V与所有图像编辑方法具有优越的兼容性。实验表明,AnyV2V可以无缝构建在高级图像编辑方法之上,如InstructPix2Pix、InstantID、NST、AnyDoor,以执行各种类型的编辑。
  • 简单性:AnyV2V是一种无需调节的方法,不需要任何额外的视频功能来实现高外观和时间一致性。

通过定性和定量的结果展示了AnyV2V的通用性和有效性。在四个重要任务上进行了全面评估:基于提示的编辑、基于参考的风格迁移、主题驱动的编辑、身份操纵。

AnyV2V是首个在视频领域进行基于参考的风格迁移、主题驱动的编辑和身份操纵的模型之一。此外,AnyV2V在基于提示的编辑方面比之前的SOTA表现出25%的人类偏好改进。

文本主要贡献如下:

  • 提出了AnyV2V,一种为各种视频到视频编辑任务量身定做的即插即用统一框架。
  • 本文是第一个用预训练的I2V模型进行视频编辑的,标志着该领域的一个新范式。
  • AnyV2V兼容任何图像编辑方法,将任何图像编辑方法免费扩展到视频领域。
  • AnyV2V在基于提示的编辑方面优于现有的SOTA,并在三个新的任务上表现出鲁棒的性能:基于参考的风格迁移、主题驱动的编辑和身份操纵。

AnyV2V

给定一个源视频。我们提取初始帧,并将其传递给图像编辑模型,以获得编辑后的第一帧。在第二阶段,我们将编辑过的第一帧和一个目标提示点输入到一个I2V生成模型,并利用源视频VS的潜变量来指导生成过程。

《AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改》- 投稿作者:灵度智能 - 发布于:GetAI社区

灵活的初始帧编辑

AnyV2V通过利用图像编辑模型修改视频的第一帧来实现更可控的视频编辑。这种策略方法能够对视频进行高度精确的修改,并与广泛的图像编辑模型兼容,包括可以进行图像风格迁移、基于掩码的图像编辑、图像修复、保持身份的图像编辑和主题驱动的图像编辑的其他深度学习模型。这个阶段非常灵活,甚至可以由人类专家完成。

基于DDIM Inverison的结构引导

我们采用DDIM Inverison来获取源视频在每个时间步的潜在噪声。我们在没有文本提示条件但有第一帧条件的情况下执行Inverison:

《AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改》- 投稿作者:灵度智能 - 发布于:GetAI社区

在理想情况下,应该使用最后时间步的潜在噪声(源视频的初始噪声)作为编辑视频采样的初始噪声。在实践中,发现由于某些I2V模型的能力有限,从上一个时间步去噪后的编辑视频有时会失真。我们观察到从之前的时间步长T'<T开始采样可以用作解决此问题的简单解决方法。

基于空间特征注入的外观引导

经验观察表明,通过仅使用编辑过的第一帧和DDIM Inverison噪声作为模型输入,I2V生成模型已经具有一些编辑能力。然而,由于在反向噪声中编码的源视频条件信号有限,这种简单的方法往往不能正确地保留经过编辑的第一帧中的背景和源视频中的运动。

为了加强与源视频的一致性,在去噪U-Net的卷积层和空间注意力层中执行特征注入。在视频采样过程中,我们保留两种类型的源视频去噪过程中隐藏的特征:卷积特性和空间。然后在正常去噪分支和负提示分支中替换去噪过程中对应的特征,以实现无分类器指导。

基于时域特征注入的运动引导

空间特征注入机制显著增强了编辑后视频的背景一致性和整体结构一致性。但我们观察到,与源视频相比,编辑后的视频仍然有很高的机会包含不正确的运动。

为了更好地重建编辑后视频中的源视频运动,本文还建议在视频生成过程中注入时间注意力特征。与空间注意力注入类似,从由一些U-Net解码器层中收集源视频时域自注意力,并将它们注入编辑过的视频去噪分支中。总的来说,结合空间和时间特征注入机制,我们的AnyV2V去噪过程可以表示为:

《AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改》- 投稿作者:灵度智能 - 发布于:GetAI社区

所提出的空间和时间特征注入方案使I2V生成模型能够自由调整自适应视频编辑。实验结果表明,设计中的每个组件对源视频的准确编辑都至关重要。

实验

任务定义

 

  • 基于提示编辑:允许用户仅使用自然语言操作视频内容,可以包括描述性的提示或说明,如合并附件,生成或交换对象,添加效果,或更改背景。
  • 基于参考的风格迁移:我们专注于使用风格图像作为参考来执行视频编辑。经过编辑的视频应该捕捉到参考目标的独特风格。
  • 主题驱动编辑:基于给定的主题图像,用目标主题替换视频中的对象,同时保持视频运动并保留背景。
  • 身份操作:根据目标人物的输入图像,通过将视频中的一个人替换为另一个人的身份来操作视频内容。

实现细节

我们的AnyV2V基于三个现成的I2V生成模型:I2VGenXL、ConsistI2V和SEINE。

为了在实现中获得初始编辑的图像帧,使用了一组候选图像编辑模型,包括基于提示的图像编辑模型InstructPix2Pix、风格迁移模型Neural style transfer (NST)、主题驱动的图像编辑模型AnyDoor和身份驱动的图像编辑模型InstantID。

定量评估

基于提示编辑。AnyV2V与三个基线模型进行了比较:Tune-A-Video、TokenFlow和FLATTEN。人工评估结果表明,AnyV2V在所有方法中取得了最好的整体偏好和提示对齐。我们猜测,这种收益来自于与最先进的图像编辑模型的兼容性。自动评估表明,与基线方法相比,该模型在基于提示的编辑方面具有竞争力。

《AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改》- 投稿作者:灵度智能 - 发布于:GetAI社区

基于参考的风格迁移、主题驱动编辑、身份操纵。我们使用人工评估评估了三个I2V生成模型的性能,结果表明AnyV2V (I2VGen-XL)是所有任务中的最佳模型,突显了其在处理不同视频编辑任务中的鲁棒性和通用性。AnyV2V (SEINE)和AnyV2V (consistti2v)在不同任务中表现出不同的性能。

《AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改》- 投稿作者:灵度智能 - 发布于:GetAI社区

定性评估

基于提示编辑。AnyV2V框架提供了对编辑的精确控制,使场景中不相关的部分在编辑后保持不变。与三个基线模型TokenFlow、FLATTEN和Tune-A-Video进行比较,基线方法在编辑的视频中显示过多或不足的更改,以与编辑文本提示对齐。颜色色调和物体形状也有倾斜。

《AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改》- 投稿作者:灵度智能 - 发布于:GetAI社区

基于参考的风格迁移。AnyV2V准确地捕捉了作品的独特风格,而这种编辑通常很难使用现有的文本引导的视频编辑方法进行。

主题驱动编辑。AnyV2V在执行主题驱动的物体交换时产生高度运动一致的视频。

《AnyV2V:无需训练AI视频编辑框架,视频主题、风格、人物任意修改》- 投稿作者:灵度智能 - 发布于:GetAI社区

身份操纵。通过将保留身份的图像个性化模型InstantID与ControlNet相结合,AnyV2V能够替换个体的身份来创建初始帧。据我们所知,AnyV2V是第一次在视频编辑模型中提供这种灵活性。

0

评论0

请先
显示验证码