摘要
目前个性化文本到图像扩散模型中的两个问题:多个概念的个性化技术不可靠,以及缺乏综合评估性能的度量标准。为了解决这些问题,作者提出了Gen4Gen数据集创建流程和MyCanvas数据集,并设计了综合度量标准。作者还提供了一个简单的基线模型,并展示了通过改进数据质量和提示策略可以显著提高多概念个性化图像生成的质量。作者认为,将强基础模型串联起来可能是生成针对计算机视觉社区各种挑战性任务的高质量数据集的有前途的方向。
简介
文本到图像扩散模型的能力在过去一年中有了显著提升,从逼真的肖像到幻想生物的绘画。一些最近的工作集中在个性化生成模型上,通过用户提供的概念图像来生成新场景。然而,同时进行多个概念的个性化可能会很具有挑战性,尤其是当概念在语义上相似时。这可能是由于预训练数据集中文本和图像之间的不匹配导致的。
本文介绍了一种名为Gen4Gen的半自动生成数据管道,用于构建多概念个性化图像和文本描述的概念证明数据集。该数据管道利用了最近的高精度基础模型,包括图像前景提取、大型语言模型、图像修复和多模态大型语言模型等技术,生成了超过10k个图像,并创建了最终的基准数据集MyCanvas。此外,作者还提出了两个评估指标:Composition-Personalization-CLIP score (CPCLIP)和Text-Image alignment CLIP score (TI-CLIP),用于评估多概念个性化的准确性和能力。作者发现,使用Gen4Gen和提示策略,可以显著提高生成多概念图像的准确性和质量。本文的贡献包括:整合AI基础模型的重要性、数据集质量的重要性以及多概念个性化的评估基准的必要性。
相关工作
个性化文本到图像生成是通过微调预训练的文本到图像扩散模型,并找到一个特殊的标识符映射到特定概念的目标。这个标识符被用来生成新的场景,其中包含了特定的概念。之前的方法包括Textual Inversion、DreamBooth、Custom Diffusion、SVDiff、Cones2等。
文本到图像数据集和基准测试。扩散模型的成功之处在于其大量的数据。然而,数据集中存在许多质量较差的数据,特别是在文本和图像之间的对齐方面。本文提出了一个多概念个性化数据集的概念证明,旨在展示即使数据量很小,也可以通过良好对齐的文本描述来改善微调过程。此外,本文还介绍了评估这些生成模型的综合方法,以及提出了第一个评估多概念个性化任务的综合基准测试。
Gen4Gen:数据驱动的多概念个性化方法
本文旨在解决多概念个性化生成图像的问题,通过学习每个概念的身份,合成具有不同背景和构图的新图像。本文提出了一种改进数据质量的方法,以提高生成图像的质量。这是对以往优化训练策略的方法的补充。本文的主要贡献在于提高多概念个性化生成图像的水平。
数据集设计原则
LAION-2B-en improved Aesthetics数据集存在图像复杂度与简单描述不匹配的问题,需要提供详细的文本描述和图像配对、合理的物体布局和背景生成、高分辨率等三个设计原则。数据集中可能存在不准确和过多的文本描述,以及低分辨率的图像,需要注意。为了生成高质量、多概念的个性化图像,需要保证数据集的质量和准确性。
Gen4Gen
Gen4Gen创建流程的三个主要阶段:1)对象关联和前景分割,2)LLM引导的对象组合,3)背景重绘和图像重新标题。由于当前最先进的模型在每个步骤中仍然存在一些缺陷,因此数据生成过程需要人工参与中间和最终的清理工作。
第一阶段是对象关联和前景分割,通过从不同数据集中获取一组对象的图像,并使用DIS算法获取每个图像的前景和掩码。这个数据集的目标是提供一个综合的基准,以了解当前模型在复杂图像生成下的能力。
基于ChatGPT和LLM的图像修复。通过ChatGPT生成可能的边界框,然后将图像放置在相应的位置上进行修复。为了解决物体大小不合理的问题,使用GPT-4生成合理的比例尺。最终生成的修复图像可以放置在不同的场景中。
背景重绘与图像重绘。为了生成合理的背景,我们使用高分辨率图像作为参考,并从中进行重新绘制。我们还观察到使用平滑的软掩码比使用二进制的硬掩码更好地将前景对象与背景整合在一起。为了丰富文本描述的多样性,我们使用多模态大型语言模型进行自动标题化。我们重复这些步骤来构建我们的数据集。
数据统计
MyCanvas数据集包含150个对象,其中一些只有一张图片,而其他一些有多张图片。我们创建了41个可能的组合,并生成了超过10,000张图片。然后我们通过手动筛选,最终得到了2684张质量最好的图片。数据集中的标题平均每个单词长度为17.7个字,约30%的长度超过20个字。数据集中包含了各种不同的对象,比CustomConcept101和DreamBooth数据集更丰富。我们使用了各种不同的对象和背景提示进行训练和推理。与DreamBooth和Custom Diffusion等之前的基准相比,我们的数据集涵盖了更多种类的对象,并且具有多概念组合,因此更全面地衡量了个性化任务。
改进训练时的文本提示
全局组合令牌。引入全局组合令牌,使模型能够更好地描述复杂的场景排列,从而实现更真实和连贯的图像生成。
在训练过程中重复概念Token提示,以确保生成的图像中包含每个指定的概念,增强整体对象的持久性和完整性。
合并背景提示。引入背景提示,以区分背景和概念组合,确保概念令牌仅学习对象身份。
个性化合成度量
随着通过增加对象数量来增加个性化挑战的难度,在模型不学习如何生成关键细节和过拟合失去生成新背景的能力之间实现了一种固有的权衡。这种权衡的问题在以前使用的基准中没有反映出来,因为:1)没有使用像MyCanvas这样的复杂数据集进行评估,2)可以完全过拟合训练集并获得高质量的结果。
为克服这一问题,本文提出了两个指标。第一个指标,composition personalization – clip分数(CP-CLIP),评估了构图和个性化的准确性。第二个指标,文本-图像对齐CLIP得分(TI-CLIP),通过评估模型对各种文本背景的泛化质量,作为潜在过拟合的指标。
场景构图和个性化精度。与主要关注一般概念组成的现有基准和指标不同,所提出的指标解决了两个关键问题:1)文本中提到的每个个性化概念在图像生成过程中反映了吗?(构图的准确性)和2)生成的个性化概念与它们的对应源看起来相似吗?
为了自动化完整的评估框架,从最先进的开放词汇表目标检测模型OWL-ViT开始。开放词汇表的选择允许在MyCanvas数据集中捕获任何对象。具体来说,给定一个生成的图像I生成的目标是包含O ‘内的所有对象,我们得到一组任意裁剪的图像,由预测边界框指定:
我们将其用作OWL-ViT的目标词汇。
对于我们从等式1获得的每个裁剪图像,我们计算图像集的平均剪辑得分:
最终个性化剪辑得分是:
最后,我们得到每张图像的CP-CLIP总得分:
当特定的个性化对象没有反映在生成的图像中时,这是一个惩罚。当边界框比预期的更多时,我们不会惩罚,因为只要遵循文本指导,生成模型应该能够自由地生成比要求更多的对象。
文本图像对齐。为了定量测量过拟合的数量,我们计算了TI-CLIP作为I生成和用于生成I生成的提示p生成之间的剪辑分数。请注意,虽然TI-CLIP的表达非常类似于CP-CLIP,但它正在评估模型泛化质量的一个正交概念,因此应该作为一个单独的指标进行测量。
在高层视图上,TI-CLIP用整个生成的图像测量背景提示(没有对象),没有理由相信在个性化过程中背景得到了改善,因此在TI-CLIP中维护应该是我们在提高CP-CLIP分数时的目标。这表明该模型对训练集背景没有过拟合。
分数可解释性。在实践中,我们意识到CP-CLIP的好分数在0.5左右,而TI-CLIP应该是一个保持而不是增加的分数。我们将在附录中深入探讨分数可解释性的细节。
实验
基线和实现细节
并从定量和定性两个方面对其性能进行了评测:1)基于单个源概念图像的Custom Diffusion;2)基于组合MyCanvas的Custom Diffusion。
为了进行评估,我们为每个组合使用最佳检查点。我们为每个组合选择一个与训练期间使用的提示符截然不同的提示符。这使我们能够更好地分析每个模型的泛化能力,因为对所有数据都不可见背景描述。我们使用ViT-B-32作为骨架,用于OWL-ViT边界框提取和计算两个基于片段的分数,CP-CLIP和TI-CLIP。
定量分析
通过比较使用原始源图像和MyCanvas数据集的Custom Diffusion方法的表现,发现使用MyCanvas数据集可以提高50%的性能。同时,应用提示策略可以进一步提高CP-CLIP得分,而TI-CLIP得分保持一致,确保合成准确性的提高不是过拟合的结果。
定性对比
通过使用MyCanvas数据集,我们的个性化模型的生成质量得到了显著提高。我们的组合策略成功地将在潜在空间中相似的对象(如狮子和猫,两个拖拉机)分离开来,并且我们的提示方法确保在生成过程中没有概念被遗漏。此外,我们的提示方法还能够处理越来越难的组合情况。
消融分析
对通过Gen4Gen流程生成的800张图像进行质量评估的方法和结果。评估主要基于个性化概念的包含程度、适当的放置位置以及视觉瑕疵的排除程度。评分从1到5进行排名,只有得分为4/5的图像被添加到MyCanvas数据集中。研究结果表明,生成高质量图像在涉及少于四个概念时更容易实现。此外,文档还提供了使用不同数量图像(1到100张)进行训练的分析结果,显示在涉及四个以上概念时,训练稳定在10到50张图像之间。这表明我们的数据集大小已经足够获得稳定的性能。
总结
MyCanvas是一个包含图像和文本描述的数据集,用于多概念个性化的基准测试。通过对数据集进行广泛的研究,我们展示了改善数据质量可以显著提高复杂构图的图像生成效果。我们希望这些贡献能够展示个性化文本到图像生成和自动数据集创建的可能性。然而,目前的数据创建流程仍存在一些缺陷,特别是在挑战性场景下。未来的工作可以集中在自动化过滤过程和评估数据集质量上。此外,随着新的多模态语言模型具有丰富的多模态理解能力,我们可以包含更多的视觉指导来改进边界框生成。
评论0