StoryGPT-V,可以生成漫画故事的多模态大模型

StoryGPT-V: Large Language Models as Consistent Story Visualizers

 

目前,大模型在复杂故事的可视化任务方面仍然存在重大挑战。本文提出StoryGPT-V,利用潜扩散(LDM)和LLM的优点,产生基于给定故事描述的具有一致和高质量字符的图像。论文地址:https://arxiv.org/pdf/2312.02252.pdf

 

摘要

 

StoryGPT-V是一种结合了LDM和LLM的生成模型,用于根据给定的故事描述生成具有一致性和高质量角色的图像。该模型通过训练一个角色感知的LDM和使用LLM来解决指代消解和上下文理解的问题。在两个视觉故事可视化基准测试中,该模型表现出优异的定量结果和低内存消耗。

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

简介

 

图像生成算法取得了显著进展,接近达到人类水平的熟练程度。然而,即使是强大的图像生成器在故事可视化任务中也存在困难,这涉及生成一系列保持语义连贯性的帧,以呈现通过多个句子在一系列帧中展开的对象交互的叙事。先前的研究探索了故事可视化的领域,但没有考虑到参考解析。本研究旨在通过利用强大的文本到图像模型和大型语言模型来解决这些挑战,以实现基于共指帧描述的故事可视化。为了提高高度忠实的角色生成,我们改进了预训练的潜在扩散模型,并利用大型语言模型来解决模糊的参考问题。我们的方法通过以低内存消耗的方式将图像处理为LLM输入空间中的令牌序列来有效地保留上下文。

 

本文介绍了一种基于视觉特征和字符分割掩码的文本表示增强方法,以及一种基于字符感知的LDM模型,用于生成更准确的角色。同时,该模型还采用了LLM模型,将文本和图像输入交错,以实现对先前上下文的隐式推理和视觉响应的生成。该模型在故事可视化基准测试中表现出了精确和连贯的角色和背景,同时还能够生成低内存消耗的长篇故事。

 

相关工作

 

文本-图像合成。最近,基于扩散的文本到图像模型通过利用扩散模型,在增强图像质量和多样性方面取得了重大进展。然而,这些文本到图像的方法主要集中在对齐基于文本描述的个人生成的图像,没有考虑到故事可视化任务中多帧人物和场景一致性的关键方面。

 

多模态大型语言模型。目前的几项工作从LLM表示的隐藏嵌入中学习到额外视觉输出到冻结的预训练文本到图像生成模型的输入空间的映射。本文将交错图像和参考文本描述作为多模态LLM的输入,并将输出与第一阶段Char-LDM的字符感知融合嵌入对齐,指导LLM隐式推导参考。

 

故事可视化。StoryGAN率先提出了故事生成任务,提出了一种具有双重框架和故事级判别器的顺序条件生成网络框架,以提高图像质量和叙事连贯性。DuCoStoryGAN引入了一个双重学习框架,利用视频字幕来增强描述和生成图像之间的语义对齐。VLCStoryGAN使用视频字幕来实现文本和帧之间的语义对齐。最近,StoryDALL-E对预训练的文本到图像模型的交叉注意力层进行了改造,以提高对生成故事的未见过视觉属性的泛化能力。这些方法没有考虑文本描述中的歧义引用。StoryLDM首先在故事可视化任务中引入了参考解析,并提出了一个带有记忆注意力模块的自回归扩散框架来解决歧义引用。然而,它很难准确地解析引用,并且是内存密集型的,因为它需要在像素空间中保留所有以前的上下文。采用一个强大的因果推理LLM进行参考解析,通过将视觉特征映射为几个token嵌入作为LLM输入,而不是在潜在像素空间中操作,有效地保持了上下文。

 

方法

 

这篇文章介绍了一种双阶段方法,旨在将文本叙述转化为对应的视觉帧,生成准确高质量的角色。首先,通过使用角色分割掩码监督,将文本表示与角色的视觉特征相结合,优化Char-LDM以实现高质量的角色生成。然后,利用LLM的推理能力,通过将LLM的输出与Char-LDM的输入空间对齐,解决模糊引用,实现时间上的一致性故事可视化。

 

预备知识

 

文本条件扩散模型中的交叉注意力。在扩散模型中,每个扩散步骤都涉及到通过u型网络以文本嵌入为条件,从噪声代码预测噪声。在U-Net中,交叉注意力层接受空间潜代码和文本嵌入作为输入,然后将它们投影为Q。在这种情况下,交叉注意力中的每个条目量化了从第k个文本标记到位置(i, j)的潜在像素的信息传播幅度。

 

具有注意力控制的字符感知LDM

 

将视觉特征与文本条件相结合。为了在故事可视化中实现准确、高质量的角色描述,通过增加相应角色的视觉特征来增强文本描述,并引导文本条件的注意力更多地关注相应角色的合成。我们首先利用CLIP文本编码器和图像编码器分别获取文本嵌入向量和图像中出现字符的视觉特征。将token嵌入和相应字符的视觉特征连接起来,并将它们输入到MLP中,以获得增强的文本嵌入。增广嵌入c中的每个增广标记嵌入如下所示:

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

然后使用增强嵌入c作为第二阶段训练的监督。

 

控制文本标记的注意力。首先,我们获得对应字符的离线分割掩码作为监督信号。然后,我们鼓励为标记索引位置的每个字符绘制交叉注意力图,与二进制分割掩码对齐,公式如下:

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

通过减少损失,增加字符标记对各自字符相关像素的注意力,同时减少对不相关区域的注意力。此外,由于token嵌入丰富了对应字符的视觉特征,这种注意力控制加深了增强的语义空间和潜在像素去噪之间的联系,从而提高了合成字符的质量。

 

第一阶段Char-LDM只关注基于单个标题的图像生成质量。然而,在可视化一系列故事方面,仍然存在超越文本到图像生成器的能力的挑战。首先,故事可视化需要角色和背景的一致性,这是我们第一阶段的增强没有涵盖的方面。此外,冗长描述的内在本质包括he、she或they等参考术语,这对LDM实现准确推理提出了重大挑战。相比之下,llm可以熟练地推断出歧义文本所指的预期字符。为了解决这个问题,本文利用LLM强大的推理能力来消除此类引用的歧义。

 

对齐LLM以进行参考解析

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

为了使LLM能够根据先验上下文自回归地生成图像并解决模糊的引用,本模型必须能够:1)处理图像;2)制作图像;3)隐含地推断所指的主体。

 

模型通过学习视觉特征到LLM输入空间的线性映射来理解图像,并将隐藏状态与LDM所需的条件输入对齐来生成图像,即第一阶段Char-LDM的文本与视觉编码器的融合嵌入编码。将字符的视觉特征融入到文本嵌入中。这种字符增强的嵌入,以及因果语言建模(CLM)将指导LLM为参考输入隐式推断和生成正确的字符,如图2 (b)所示。

 

LLM输入由交错的共指文本描述和具有灵活帧长n的故事框架组成。我们首先提取视觉嵌入的和剪辑视觉中枢,和可训练的学习Mapper矩阵。此外,我们添加了额外的[IMG]标记来表示视觉输出,并将可训练矩阵W合并到LLM中。训练目标是最小化以先前交叉的图像/文本标记为条件产生[IMG]标记的负对数似然:

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

为了使LLM产生的[IMG]与LDM输入空间对齐,我们利用基于transformer的映射器LDM将[IMG]标记投影到具有可学习查询嵌入的第一阶段微调LDM的输入空间。训练目标是最小化Mapper的输出Gen Emb与LDM的增强条件文本表示之间的距离,表示为:

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

假设我们可以在没有引用标题编码的情况下访问原始嵌入文本。然后,由增强模型文本的文本输入和每个视觉对象的编码器。这种非参考文本,增强了字符视觉特征,帮助LLM使用休闲语言建模有效地消除歧义。

 

推理。在推理过程中,该模型依次将基于文本描述的故事可视化。它首先处理初始帧的文本描述。专注于帧生成,约束LLM只生成特定的[IMG]标记,然后将这些标记嵌入到第一阶段CharLDM中,从而生成第一个帧。随后,LLM采用上下文历史,其中包括第一帧的文本描述,生成的第一帧,以及第二帧s2的文本描述作为输入。重复这个过程,逐步可视化整个故事。

 

实验

 

实验设置

 

数据集。本文使用了FlintstonesSV和PororoSV两个故事可视化数据集进行实验。

 

评估指标。包括角色和背景的分类准确度、Frechet Inception Distance(FID)分数以及文本-图像对齐的BLEU4和CIDEr分数。

 

对比方法。将本模型与VLCStoryGAN、StoryDALL-E、LDM和Story-LDM等最新方法进行了比较。

 

实现细节。使用了两阶段的训练策略。第一阶段训练包括冻结CLIP文本编码器和微调其余模块,第二阶段训练使用OPT-6.7B模型作为LLM骨干。

 

可视化故事生成

 

Char-LDM在生成准确的角色和背景场景方面表现出色,并且与给定的文本描述具有更好的对齐性。在使用共指描述生成图像时,该模型通过利用LLM的推理和理解能力,显著提高了参考解析的性能。与其他模型相比,该模型在生成高质量图像、准确角色和保持背景场景的时间一致性方面表现出色。

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

在人类评估中,该模型在视觉质量、文本图像对齐、角色准确性和时间一致性方面均表现出优异的综合效果。

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

消融分析

 

我们进行了两个阶段的消融实验,结果表明,融合角色视觉特征和图像文本交替训练可以显著提高模型性能。

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

分析

 

通过可视化交叉注意力图,我们进一步研究了使用交叉注意力控制进行第一阶段微调的影响。如图5所示,没有使用L正则化的普通LDM(顶部)在FlintStonesSV上进行微调,无法准确地将注意力集中在相应的字符标记上。我们的模型(底部)通过引入交叉注意力指导,能够精确地将注意力引导到生成的字符上。

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

特性

 

StoryGPT-V能够生成更长、更准确的故事,速度更快,计算资源消耗更低。与Story-LDM相比,StoryGPT-V在生成超过50帧的序列时,内存使用率更低,且能够保持准确的角色一致性。该模型可以轻松适应任何LLMs,并具有多模型生成的能力。它不仅可以根据提供的文本描述可视化故事,还可以通过连续文本生成扩展这些叙述,并逐步合成与新生成文本段落相符的图像。这是故事可视化领域的一项重大进展,为AI辅助技术探索各种可视化情节扩展提供了新的可能性。

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

《StoryGPT-V,可以生成漫画故事的多模态大模型》- 投稿作者:灵度智能 - 发布于:GetAI社区

总结

 

本文旨在通过核心指代文本描述,实现高质量、一致性的角色合成,利用LDM生成高质量图像,结合LLM的推理能力,理解扩展上下文,解决歧义,确保生成过程中的语义一致性。首先,通过指导LDM的交叉注意力图与角色分割掩码相结合,来提高角色生成的准确性和忠实度。接下来,通过将LLM的输出映射到第一阶段LDM的输入空间,使多模式LLM能够同时处理和生成图像。这个过程利用了LLM的逻辑推理来澄清模糊的参考,并保留上下文信息。我们的模型报告了优越的定量结果,并始终生成具有显着质量的角色。

0

评论0

请先
显示验证码