“Fairy: Fast Parallellized Instruction-Guided Video-to-Video Synthesis”
随着生成式AI的发展,文本生成、图像生成、音频视频、风格迁移等应用效果已经得到了极大的提升。然而,视频生成方面依然面临挑战,主要问题在于难以保证每一帧视频间的连贯和一致性。
近日,Meta GenAI团队发表了Fairy,一种图像编辑扩散模型的极简但鲁棒的自适应方法。该方法围绕基于锚点的跨帧注意力的概念,一种隐式传播跨帧扩散特征的机制,确保卓越的时间一致性和高保真合成。Fairy不仅解决了以前模型的限制,包括内存和处理速度。通过独特的数据增强策略提高时序一致性。
Fairy在短短14秒内生成120帧512×384视频(30 FPS下4秒持续时间),比之前的工作至少快44倍。一项涉及1000个生成样本的全面用户研究证实,所提出方法提供了卓越的质量,明显优于现有方法。
项目主页:https://fairy-video2video.github.io/
论文地址:https://arxiv.org/pdf/2312.13834.pdf
摘要
本文提出Fairy,一种图像编辑扩散模型的极简但鲁棒的自适应方法。Fairy解决了以前模型的限制,包括内存和处理速度。通过独特的数据增强策略提高时序一致性,该策略使模型对源图像和目标图像的仿射变换具有等变性。Fairy在短短14秒内生成120帧512×384视频(30 FPS时4秒持续时间),比之前的作品至少快44倍。
简介
本文介绍了一种名为Fairy的视频生成框架,它能够高效地生成高质量的视频。该框架采用了跟踪和传播的范式,通过跨帧注意力和对应估计来实现时间上的一致性。Fairy采用了基于锚点的模型,从中提取扩散特征,并将其传播到后续帧中。此外,Fairy还采用了数据增强策略来提高模型的时间一致性。
Fairy通过对图像编辑模型进行简单而有效的改进,在人类评估和定量指标方面都表现出更好的质量。此外,Fairy的设计简单且可并行化,使用8个GPU并行生成时可以实现>44倍的加速。
本研究的贡献包括:
- 采用一系列简单而有效的改进,将图像编辑模型转化为视频合成模型。
- 通过对1000个生成的视频进行广泛的人类研究,证实Fairy在质量上优于先前的最先进方法。
-
Fairy速度极快,在使用8个GPU并行生成时可以实现>44倍的加速。
相关工作 条件视频生成需要对源视频提取属性进行模型条件,以实现视频生成。这需要在视频数据集上进行训练,但视频数据集比图像数据集更稀缺,训练成本也更高。相比之下,我们的模型是从预训练的图像到图像模型中进行调整的,只需要图像数据进行微调,训练成本更低。 跟踪和传播。传统的跟踪方法在复杂视频中容易失败,而本文提出的模型利用交叉帧注意力来隐式跟踪对应区域,并传播特征以减少帧之间的差异。这种方法具有鲁棒性和灵活性,适用于更广泛的视频,并提供了增强的编辑灵活性。 图像模型自适应。现有的方法在图像到图像的模型上进行了改进,以适应视频编辑的需求。其中一些方法只能生成少量帧的视频片段,而另一些方法通过改进空间时间注意力和特征传播来生成任意长度的视频。与其他方法相比,我们的模型更简单、更高效,不需要潜在反演,并且可以并行生成视频。 预备知识 视频到视频扩散模型。给定一个有N帧的输入视频,根据保持原始视频语义的自然语言指令,目标是将其编辑为新视频。一个简单的基线是采用基于图像的编辑模型逐帧编辑视频。本文在这一行工作的基础上,用跨帧注意力的变体提高了一致性。 自注意力和跨帧注意力。自注意力在扩散网络中起着至关重要的作用。给定N个框架,要将自注意力扩展到跨帧注意力,可以简单地连接所有帧的键和值,并将帧内自注意力计算为跨帧自注意力。跨帧注意力通过关注其他帧提供了时间建模能力,并在提高时间一致性方面显示出良好的效果。 基于跨帧注意力的隐式跟踪 本文介绍了一种基于交叉帧注意力和对应估计的视频生成方法,通过注意力机制实现特征传播,同时将注意力得分解释为特征传播的融合表示。注意力得分可以用于跟踪行为分析。 基于注意力评分的时间跟踪 本文提供了证据表明跨帧注意力中的注意力分数隐含地作为帧间对应关系的估计。通过采用条件图像扩散模型,我们检查了视频剪辑中两个帧之间的注意力图。通过评估所提出的估计器的跟踪能力,我们可以验证注意力分数是否是特征传播的良好对应估计器。 视频跟踪实验:TAP-Vid 该研究使用了DAVIS数据集进行评估,数据集来自TAP-Vid,包含30个视频片段,帧数在34-104之间。评估时将帧大小调整为256×256。使用TAPVid提出的δx位置准确度进行测量,该指标计算了在δx像素范围内与真实位置接近的点的比例。注意图的尺寸对于点追踪的精度有一定的限制。由于Diffusion UNets采用了空间下采样,因此我们在实验中将δx设置为16和32。我们使用Euler祖先采样器将扩散步数设置为10。 图2显示了不同层和扩散步数下的位置准确度。可以看到,第一层和最后几层的追踪结果很好,对于δx=16/32,准确度超过60%/70%。有趣的是,结果在不同的扩散步数下保持一致,表明跨帧注意力具有强大的追踪能力。UNet架构中间层的准确度下降主要是由于特征图的空间分辨率降低。例如,在网络的第七层中,特征图的尺寸被限制为4×4。图3可视化了给定查询点的目标帧上的注意力分数。可以看到,注意力图定位到了目标帧中的相应位置。 跨帧注意力≈跟踪和特征传播。实验结果显示,跨帧注意力具有出色的追踪能力,并且在没有显式微调的情况下,隐式地执行了强大的特征传播机制。特别是,基于注意力分数确定的对应关系,将来自其他帧的特征V∗传递到当前帧。 快速视频到视频合成 Fairy是一个视频到视频的框架,利用跨帧注意力的内在特征传播。通过跨帧注意力将锚定帧的值特征传播到候选帧,可以进一步提高性能。还提出了等变微调方法,可以进一步增强性能。Fairy易于并行化,可以快速生成任意长度的视频。 Anchor-Based模型 我们的目标是将锚帧中的编辑扩展到连续的帧,但利用跨帧注意力机制,而不是光流或明确的点跟踪。给定一组锚框I anc,我们将它们视为一个批次,并将它们提供给扩散模型f,其中模型中的自注意力以零样本的方式被跨帧注意力取代。在整个扩散过程中,对于每个锚框,我们将其键和值向量存储在缓存中,用于每个跨帧注意力层和每个扩散步骤。直观地说,定义了一组要传播到连续帧的全局特征。 为了编辑的任何帧,我们根据锚帧的键和值向量将自注意力模块修改为跨帧注意力,如下所示: 其思想是,通过估计输入帧和锚帧之间的时间对应关系,softmax生成的注意力分数有助于跨帧跟踪。然后,通过将注意力分数与V anc相乘,将全局值向量传播到输入帧。通过用基于锚点的跨帧注意力机制取代自注意力模块,该模型可以生成高度一致的视频编辑。在默认设置下,我们在整个视频中统一选择锚帧,并且在采用不同的锚帧选择策略时,没有注意到一致的性能提升或下降。 通过并行化快速生成。请注意,编辑帧不需要其他帧作为输入,除了从锚帧缓存的特征。因此,可以通过将长视频分割为片段来编辑任意长的视频,并利用多gpu来并行生成,而计算在数字上保持不变。与之前的工作相比,该方法取得了显著的加速。 等变化整合 为了提高图像编辑数据集的时间一致性,我们提出了一种数据增强策略,称为等变微调。该策略利用仿射变换对图像进行随机变换,从而使模型对仿射变换具有等变性。实验结果表明,该策略可以显著提高时间一致性。 结果 Fairy是基于指令式图像编辑模型实现的,但将模型的自注意力替换为跨帧注意力。模型接受具有不同纵横比的输入,并将输入分辨率重新缩放为较长边为512,保持纵横比不变。我们编辑输入视频的所有帧,不进行时间下采样。我们将计算分布到8个A100 GPU上。我们使用Euler Ancestral采样器进行等变微调,使用与训练图像编辑模型相同的数据集,并应用第5.2节中讨论的数据增强。我们加载图像编辑模型的预训练检查点,并使用批量大小为128进行50,000步的恢复训练,耗时30小时,使用8个A100 GPU和80GB内存。 定性评估 Fairy模型展示了其在不同主题上进行编辑的能力,包括风格化、角色交换、局部编辑和属性编辑。模型还能根据指令将源角色转换为不同的目标角色,并且能够适应不同的输入宽高比。尽管输入视频包含大幅度运动、遮挡和其他复杂动态,但模型生成的视频在时间上保持一致且视觉上吸引人。在补充材料中还展示了模型生成长视频的能力。 定量评估 本文介绍了评估视频生成模型的挑战性。首先,生成任务本身具有高方差性,给定指令可以有无数种编辑视频的方式。其次,先前的研究采用了CLIP分数等指标来评估生成质量,但这些指标不一定与人类感知相一致。最后,人工评估仍然是判断质量的黄金标准,但由于人工评估的成本,先前的研究只进行了小规模的人工评估。本文在一个由1000个视频指令样本组成的评估集上进行了大规模用户研究。评估集分为两部分:首先,为了测试模型在不同视频上的鲁棒性,我们构建了一个由50个视频×10个指令组成的评估集。其次,为了测试模型在不同指令上的鲁棒性,我们构建了一个由10个视频×50个指令组成的双重评估集。这些视频可以从ShutterStock获取。据我们所知,这是迄今为止在视频生成领域中规模最大的评估。 我们描述了一个A/B比较实验,用于比较一种新的视频生成方法与三种先前的方法的效果。实验结果表明,新方法生成的视频更受人们喜欢。此外,新方法还在时间一致性和帧编辑准确性方面表现出色。与其他方法相比,新方法的速度更快。
消融分析 本文通过逐步去除等变微调和基于锚点的注意力机制,最终采用标准的逐帧编辑方法进行实验,验证了模型组件的有效性。结果表明,去除等变微调和基于锚点的注意力机制会导致生成视频的细节不一致,而采用提出的方法可以有效提高时间一致性。通过计算Tem-Con指标,结果从0.959(基准)提高到0.968(带锚点)和0.974(带锚点和等变微调)。 限制 Fairy的效能与其图像编辑模型密切相关,模型的固有限制会在Fairy的视频编辑能力中表现出来。在观察中,发现等变微调的一个显著副作用是无法准确地呈现动态视觉效果,如闪电或火焰。这个过程似乎过于关注维持时间上的一致性,导致闪电被描绘为静态或停滞的,而不是动态和流畅的。 总结 Fairy是一种视频编辑方法,利用图像编辑扩散模型的优势,通过锚点交叉帧注意力和等变微调,保证了时间上的一致性和优越的视频合成效果。此外,它解决了之前模型中存在的内存和处理速度限制。Fairy能够以惊人的速度生成高分辨率视频,从而在质量和效率方面确立了其优越性。
评论0