百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当

UNIVG: TOWARDS UNIFIED-MODAL VIDEO GENERATION

百度发表UNiVG,在MSR-VTT数据库上实现了最低的FVD,在人类评估方面超越了当前的开源方法,并且与当前的闭源方法Gen2相当。

UNiVG提出了一种统一模式视频生成系统,该系统能够处理文本和图像的任意组合作为输入条件。为此,将系统内视频生成模型的多个任务重新分类为高自由度生成和低自由度生成两类。对于高自由度视频生成,使用多条件交叉注意来生成与输入图像或文本的语义一致的视频。对于低自由度视频生成,我们引入偏置高斯噪声来替换完全随机的高斯噪声,以便更好地保留输入条件的内容。

项目主页:https://univg-baidu.github.io/

论文地址:https://arxiv.org/pdf/2401.09084.pdf

摘要

现有的视频生成方法主要集中在单一目标或单一任务的视频生成上,无法满足实际应用场景中用户以灵活的方式输入图像和文本条件的需求。为了解决这个问题,提出了一个统一模态的视频生成系统,可以处理跨文本和图像模态的多个视频生成任务。通过引入多条件交叉注意力和偏置高斯噪声的方法,实现了对输入图像或文本语义对齐的高自由度视频生成和更好地保留输入条件内容的低自由度视频生成。该方法在公共学术基准MSR-VTT上达到了最低的Fréchet Video Distance (FVD),在人工评估中超过了当前的开源方法,并与当前的闭源方法Gen2持平。

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

简介

现有的视频生成方法仅限于单一任务,缺乏足够的灵活性以满足所有用户需求。本文提出了一个视频生成系统,可以处理多种视频生成任务。不同的视频生成任务需要采用不同的策略。对于高自由度的视频生成,可以使用扩散生成范式。对于低自由度的视频生成,编辑范式更适合。

本文提出了一个统一的系统UniVG,用于支持基于图像和文本的任意组合的灵活视频生成。系统中的所有模型分为两组:高自由度视频生成和低自由度视频生成。对于高自由度视频生成,提出了一个基础模型,能够处理任意组合的文本和图像条件。通过将UNet架构的原始交叉注意力模块与多条件交叉注意力模块相结合,实现了这一目标。对于低自由度视频生成,提出了两个相应的模型,分别用于图像动画和视频超分辨率任务。这些模型采用了编辑范式而不是生成范式。为了调和基于生成范式的训练过程和基于编辑范式的推理过程之间的差异,在本文中,通过在训练阶段改进目标函数,预测了针对目标分布的有偏高斯噪声(简称BGN),而不是标准高斯噪声。

文本主要贡献如下:

  • UniVG是一个视频生成系统,可以处理多种视频生成任务,包括文本/图像到视频生成和图像动画等。它包括Base模型、Image Animation模型和Super Resolution模型,能够生成高质量的视频。
  • UniVG引入了Biased Gaussian Noise,对于低自由度的视频生成任务(如图像动画和超分辨率),证明了其有效性。
  • 实验表明,UniVG在客观指标上显著优于现有的文本/图像到视频生成方法,在主观评估中与Gen2相当,并超过其他方法。

相关工作

文本到视频生成

早期的文本到视频生成工作使用了GANs、VQ-VAEs、自回归模型或Transformer结构,但受限于低分辨率和视觉质量不佳。随着扩散模型在图像生成、音频生成和其他领域的成功,VideoDiffusion成为首个应用扩散模型进行视频生成的工作。Make-AVideo和ImagenVideo通过将2D U-Net扩展为3D U-Net,将视频生成扩展到开放领域。研究人员开始将扩散过程从像素空间转移到潜空间,以解决GPU内存消耗和高训练成本的问题。

 

图片到视频生成

 

直接从文本生成视频是一项具有挑战性和高度复杂性的任务。一种自然的想法是使用图像作为中间桥梁。早期的视频预测工作使用非扩散方法,这些方法通常局限于低分辨率或特定领域。I2VGen-XL是第一个利用扩散进行开放域图像到视频生成的方法。SVD也从文本到视频模型微调到图像到视频模型,但进一步将图像的VAE特征拼接为更强的控制信号。videogen、VideoCrafter1、EMU Video和Make Pixels Dance仍然是文本到视频生成的目标,但它们引入了文本到图像的合成作为中间步骤。生成的图像通过拼接或通过CLIP特征合并到视频生成框架中。

UniVG与早期作品的主要区别在于,我们从生成自由而不是任务的角度来区分视频生成中包含的各种模型。

方法

UniVG

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

UniVG由三个模型组成。其中,Base模型FB接受文本和图像条件,Image Animation模型FA生成与输入图像像素级对齐的视频,Super-resolution模型FSR提高视频的空间分辨率。每个模型都是一个潜在扩散模型,由空间层、时间层和交叉注意层组成。FB使用CLIP的图像编码器和文本编码器,FA通过微调FB并将第一帧的隐藏空间特征作为额外条件来训练。FSR从FB微调而来,用于提高生成视频的清晰度。在训练过程中,FSR接受低分辨率视频Vlr作为输入。

多条件交叉注意力

FB和FA模型使用多条件交叉注意力来接受文本和图像CLIP特征。这个模块的架构主要遵循VideoCrafter,通过计算得到Fout。

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

其中,Qin是FI和FT共享的,WKI和WVI的权重是从WKT和WVT初始化的。与VideoCrafter不同的是,我们将图像视为与文本一样重要的控制信号,并在训练过程中应用一定比例的图像dropout。MCA可以通过增加交叉注意力单元的数量来适应多个条件,而无需重新训练。这种灵活性大大降低了扩展模型训练以处理新条件的成本。

偏置高斯噪声

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

本文介绍了一种用于低自由度视频生成的偏差高斯噪声方法。通过将条件分布转化为目标分布,可以实现从目标分布到标准高斯分布的过渡。为了在推理过程中考虑条件分布,将原始扩散过程分为三个部分。为了保持原始扩散计划,引入了一个噪声变量ϵ’,通过线性变换来定义ϵ’。ϵ’是从一个偏差高斯分布中采样的,其均值通过vC和vT的加权组合进行偏移。这种偏差对于将扩散过程从条件分布过渡到目标分布至关重要。

 

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

实验

实现细节

数据集。训练数据集包括WebVid-10M和LAIONCOCO等公开数据集以及自己收集的高质量视频和图像数据集。为了提高生成视频的质量并解决WebVid-10M中存在的水印问题,作者还使用了自己的数据集进行训练。

训练。FB使用1:1:1的图像:视频:视频帧比率进行训练,使用了文本和图像的dropout,以及偏置高斯噪声和零终端信噪比。然后,使用偏置高斯噪声在自己的视频数据集上对FB进行微调,得到FA和FSR。FA和FSR使用了不同的dropout和噪声设置,并使用了ϵ-预测和v-预测。最后,使用DPM Solver加速采样。

评估。本文介绍了一种基于文本和图像条件生成高质量视频的方法UniVG。作者使用了客观指标和人类评估来评估UniVG的性能。在客观指标方面,作者使用了MSR-VTT数据集作为标准基准,并计算了CLIPSIM和FVD指标。在人类评估方面,作者采用了EMU视频的评估指标,包括视觉质量、运动质量、文本忠实度和图像忠实度。作者的方法在各项指标上均表现优异,尤其是在同时使用文本和图像条件生成视频时表现最佳。

与SOTA比较

自动评估。对于文本到视频的生成,我们只使用文本作为输入条件来生成视频(fb + FSR)。对于图像到视频的生成,我们首先使用SDXL1.0+refiner从提示创建图像,然后使用UniVG进行文本和图像的组合,进行高自由生成和低自由生成。结果如表1所示。无论是只使用文本作为输入条件,还是同时使用文本和图像,我们的方法生成的视频都比在相同设置下使用其他方法生成的视频表现更好。即使只使用文本作为条件,我们的方法生成的视频在FVD指标上也超过了使用文本和图像的其他人生成的视频。

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

人工评估。我们与开源作品I2VGen-XL、VideoCrafter1、SVD,以及我们可以从网站或discord上获得结果的闭源作品Pika beta、Gen2进行比较。我们的方法生成的视频优于开源文本/图像到视频模型和闭源方法Pika beta,与闭源方法Gen2相当。

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

消融分析

训练过程。通过训练过程的检查点测试,证明了基础模型FB可以同时保持文本到视频、图像到视频和文本/图像到视频生成的能力。

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

偏置高斯噪声通过对动画模型FA和视频超分辨率模型FSR的实验,证明了偏置高斯噪声(BGN)更适合低自由度视频生成任务,可以提高视频质量。BGN的应用可以扩展到其他低自由度视频生成任务,如帧插值和视频编辑。

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

文本和图片条件。通过调整文本和图像的推理权重,可以使生成的视频更加偏向于文本或图像条件。该系统可以根据不同的文本提示生成不同的视频,同时输入一致的文本有助于增强生成视频的动态效果。虽然该系统也可以处理图像和文本的拼接特征,但由于图像特征的约束更强,生成的视频主要依赖于图像语义。

《百度发表UNiVG,统一模式视频生成系统,超越所有开源方法,与Gen2相当》- 投稿作者:灵度智能 - 发布于:GetAI社区

总结

UniVG用于多任务条件视频生成,利用了文本和图像。作者提出了一种新颖的模型分类方法,根据生成自由度将模型分为高自由度和低自由度视频生成模型。高自由度组件包括一个基础模型,能够调节文本和图像的影响,以在不同语义条件下生成视频。对于低自由度视频生成,UniVG包括图像动画模型和超分辨率模型,能够生成与输入图像密切对齐的视频。在低自由度生成中,作者提出使用偏置高斯噪声来替代标准的随机高斯噪声,以便更直接地连接条件和目标分布。实验证明,该系统在客观评估中优于现有方法,并与Gen2在主观评估中相匹配。

0

评论0

请先
显示验证码