你是否还在为如何创作一个漫画故事发愁?让我们来看看字节和南开发表的StoryDiffusion,让AI自动生成一个好的漫画故事。
项目主页:https://storydiffusion.github.io/
论文地址:https://arxiv.org/pdf/2405.01434
Github地址:https://github.com/HVision-NKU/StoryDiffusion
摘要
StoryDiffusion是一种新的自我关注计算方法,可以显著提高生成图像的一致性,并以零样本的方式增强预训练的扩散式文本到图像模型。StoryDiffusion还引入了一种新的语义空间时间运动预测模块,名为Semantic Motion Predictor,它可以将生成的图像序列转换为具有平滑转换和一致主题的视频。StoryDiffusion可以用一系列一致的图像或视频描述基于文本的故事,这是视觉故事生成方面的开创性探索。
简介
本文提出了一种名为StoryDiffusion的框架,它可以根据预定义的文本故事生成长的图像序列或视频。我们提出了一种新的运动预测模块,称为Semantic Motion Predictor。它可以在语义空间中预测两个图像之间的转换,生成的视频帧比最近的流行图像调节方法(如SEINE和SparseCtrl)更稳定。我们还提出了一种训练免费的、可插拔的注意力模块,称为Consistent SelfAttention。它可以在高文本可控性的情况下维护一系列生成图像中的角色一致性。
Consistent Self-Attention可以在零样本情况下,通过参考图像来提高生成图像的一致性。该方法可以用于生成具有一致性的角色图像,包括身份和服装,以描述故事情节。与传统的自注意力不同,Consistent Self-Attention在计算令牌相似性矩阵和令牌合并时,引入了来自参考图像的采样令牌。该方法可以轻量级地实现,无需大量数据和计算资源。
相关工作
为了增强文本到图像生成的可控性,出现了许多方法。其中,ControlNet和T2I-Adapter引入了控制条件,如深度图、姿态图像或草图,以指导图像的生成。MaskDiffusion和StructureDiffusion则专注于增强文本的可控性。此外,还有一些方法控制生成图像的布局。这些方法包括Latent Diffusion、DiT和Stable XL等。
身份保持是一个热门话题,可以分为两个主要类别:一类只需要对模型的一部分进行微调,另一类利用经过大规模数据集预训练的模型,直接使用给定的图像来控制图像生成。与这两种类型不同,我们的方法专注于在多个图像中保持主题一致性,以叙述一个故事。我们的一种方法是无需训练即可生成多个主题一致的图像。
方法
StoryDiffusion是一个用于视频故事生成的模型,它可以在不需要训练的情况下生成一致的图像和视频。它的方法可以分为两个阶段,第一阶段使用一致的自注意力生成主题一致的图像,第二阶段使用这些图像生成一致的转换视频。
无需训练的一致图像生成
生成一致图像的关键在于如何保持一批图像中内容的一致性,我们需要在批量图像之间建立联系。我们并提出了一致的自注意力。将一致的自注意力插入到现有图像生成模型的U-Net架构中原始自注意力的位置,并重用原始自注意力权重以保持免训练和可插拔。
给定一批图像特征I,我们定义一个函数注意力来计算自注意力。原始的自注意力是在每个图像特征I I中独立执行的。
为了在一批图像之间建立交互,以保持主题的一致性,我们的一致自注意力从批中的其他图像特征中采样一些标记I:
其中RandSample为随机抽样函数。采样后,我们将采样的标记S与图像特征I配对,形成一个新的标记集合P。然后,对P进行线性投影,以实现一致的自注意力。
给定配对的标记,该方法在一批图像上执行自注意力,促进不同图像特征之间的交互。这种类型的交互促进了模型在生成过程中对角色、面孔和服装的融合。尽管方式简单且无需训练,但一致的自注意力可以有效地生成与受试者一致的图像,将在实验中详细证明。这些图像作为插图来叙述一个复杂的故事。
用于视频生成的语义运动预测器
通过在每对相邻图像之间插入帧,生成的角色一致图像序列可以进一步细化为视频。这可以看作是一个以已知的开始帧和结束帧为条件的视频生成任务。然而,我们根据经验观察到,目前的方法不能在两幅图像之间差异较大时稳定地连接两幅条件图像。这种限制源于它们仅依赖时间模块来预测中间帧,这可能不足以处理图像对之间的巨大状态差距。时间模块在每个空间位置的像素内独立运行,因此在推断中间帧时可能没有充分考虑空间信息。这使得模拟长距离和有物理意义的运动变得困难。
为了解决这个问题,本文提出了语义运动预测器,将图像编码到图像语义空间以捕获空间信息,实现从给定的开始帧和结束帧进行更准确的运动预测。在语义运动预测中,首先使用函数E建立RGB图像到图像语义空间向量的映射,编码空间信息;本文没有直接使用线性层作为E,而是利用预训练的CLIP图像编码器作为E,以利用其零样本能力来提高性能。利用E,将给定的起始帧F s和结束帧F E压缩为图像语义空间向量K s, K E。
在图像语义空间中,训练一个基于Transformer的结构预测器,对每个中间帧进行预测。预测器首先进行线性插值,将K s和K e两个帧扩展为序列。然后,序列被送入一系列Transformer块中,以预测过渡帧:
接下来,我们需要将这些图像语义空间中的预测帧解码为最终的过渡视频。将这些图像语义嵌入定位为P,P作为控制信号,视频扩散模型作为解码器,以利用视频扩散模型的生成能力。我们还插入额外的线性层来将这些嵌入投影到键和值中,涉及到U-Net的交叉注意力。
在扩散过程中,对于每个视频帧特征V,将文本嵌入T和预测的图像语义嵌入P连接起来。交叉注意力的计算方法如下:
与之前的视频生成方法类似,通过计算L帧预测的过渡视频之间的MSE损失来优化模型O和L框架真实值G:
通过将图像编码到图像语义空间中以集成空间位置关系,语义运动预测器可以更好地建模运动信息,使生成具有大运动的平滑过渡视频。
实验
实现细节
本方法可以在Stable Diffusion XL和Stable Diffusion 1.5上实现,且无需训练。为了与比较模型保持一致,我们在Stable-XL模型上使用了相同的预训练权重,并采用50步DDIM采样和5.0的无分类器指导分数。
对于生成一致的视频,我们使用了Stable Diffusion 1.5预训练模型,并结合了预训练的时间模块,采用7.5的无分类器指导分数和50步DDIM采样。我们使用Webvid10M数据集进行训练。
与当前一致图像生成方法比较
与IP-Adapter和PhotoMaker相比,StoryDiffusion在生成具有主题一致性的图像方面表现出更好的性能。StoryDiffusion在文本控制性和人物一致性方面表现出更好的性能。在文本-图像相似度和人物相似度方面,StoryDiffusion都表现出最好的性能。
与当前过渡视频生成的比较
与SparseCtrl和SEINE两种现有方法相比,StoryDiffusion在质量上表现更好。在定量比较中,StoryDiffusion在四个指标上均优于SparseCtrl和SEINE。这些实验结果表明,StoryDiffusion在生成一致和无缝的过渡视频方面具有强大的性能。
消融分析
通过进行消融研究,我们测试了使用用户指定的ID生成一致图像的性能。我们将我们的一致自注意力与PhotoMaker相结合,使图像能够控制角色以实现一致的图像生成。结果显示,通过控制ID图像,我们的StoryDiffusion仍然能够生成符合给定控制ID的一致图像,这强烈表明了我们方法的可扩展性和即插即用性。
我们的一致自注意力从批次中的其他图像中采样标记,并在自注意力计算过程中将它们合并到键和值中。为了确定最佳的采样率,我们对一致自注意力的采样率进行了消融研究。我们发现采样率为0.3无法保持主题的一致性,如图6左侧部分的第三列图像所示,而较高的采样率成功地保持了一致性。在实践中,我们将采样率默认设置为0.5,以对扩散过程产生最小影响并保持一致性。
用户研究
我们的StoryDiffusion模型在主题一致图像生成和过渡视频生成方面表现出压倒性优势,这一点得到了用户研究的证实。在主题一致图像生成方面,我们与最近的最先进方法IPAdapter和PhotoMaker进行了比较。在过渡视频生成方面,我们与最近的最先进方法SparseCtrl和SEINE进行了比较。用户研究进一步证实了我们StoryDiffusion的卓越性能。
总结
本文提出了StoryDiffusion方法,可以在无需训练的情况下生成连贯的图像,用于叙事,并将这些图像转换为视频。Consistent Self-Attention可以在多个图像之间建立联系,高效生成具有一致面部和服装的图像。同时,Semantic Motion Predictor可以将这些图像转换为视频,更好地叙述故事。这一方法可以启发未来可控图像和视频生成的研究。
评论0