“DiffusionGPT: LLM-Driven Text-to-Image Generation System”
论文地址:https://arxiv.org/pdf/2401.10061.pdf
Github地址:https://github.com/DiffusionGPT/DiffusionGPT
摘要
当前的文本到图像系统仍然存在一个主要挑战,即通常无法处理不同的输入,或者仅限于单一的模型结果。目前的统一尝试通常分为两个方面:1)在输入阶段解析多样化提示;2)激活专家模型输出。为了结合这两个方法的优点,我们提出了DiffusionGPT,它利用大型语言模型(LLM)来提供一个统一的生成系统,能够无缝地适应各种类型的提示并集成领域专家模型。DiffusionGPT基于先验知识为各种生成模型构建特定于领域的树。当提供输入时,LLM解析提示并使用思想树来指导选择合适的模型,从而放松输入约束并确保跨不同领域的卓越性能。此外,我们还介绍了优势数据库,其中思想树丰富了人类的反馈,使模型选择过程与人类的偏好保持一致。通过大量的实验和比较,我们证明了DiffusionGPT的有效性,展示了它在不同领域推动图像合成边界的潜力。
简介
当前的稳定扩散模型在特定领域表现不佳,且对于不同类型的提示存在限制。为了解决这些问题,提出了DiffusionGPT,它利用大型语言模型(LLM)提供一个无缝集成优秀生成模型和有效解析不同提示的一体化生成系统。DiffusionGPT构建了一个思维树结构,包含基于先验知识和人类反馈的各种生成模型。在输入提示时,LLM首先解析提示,然后引导思维树识别最适合生成所需输出的模型。此外,还引入了优势数据库,将思维树丰富了有价值的人类反馈,使LLM的模型选择过程与人类偏好相一致。
DiffusionGPT是一种文本到图像生成系统,采用大型语言模型作为认知引擎,能够处理多样化的输入和输出。它是一种全能系统,能够兼容各种扩散模型,不仅限于描述性提示。DiffusionGPT是一种无需训练的插件式解决方案,通过树状思维和人类反馈,实现更高的准确性和更灵活的专家聚合过程。它比传统的稳定扩散模型表现更好,提供了一种更高效和有效的图像生成途径。
相关工作
文本到图像生成
文本生成的方法已经从最初的生成对抗网络(GANs)发展到了扩散模型,尤其是与文本编码器(如CLIP和T5)结合使用时,能够实现精确的文本条件图像生成。最新的方法还提出了使用奖励信号来训练扩散模型,以更好地满足用户需求。这些方法旨在提高生成图像的保真度和相关性,以更好地满足用户需求。
用于视觉语言任务的大型语言模型
自然语言处理领域出现了大型语言模型(LLMs),这些模型通过对话接口展现出了惊人的交互能力。为了进一步提高LLMs的能力,引入了Chain-of-Thought(CoT)框架,该框架指导LLMs逐步生成答案,以获得更好的最终答案。最近的研究探索了将外部工具或模型与LLMs集成的创新方法。作者利用LLMs的潜力,引入了LLMs作为多功能工具的概念,以指导T2I模型生成高质量的图像。
方法 DiffusionGPT是一个全能系统,旨在为各种输入提示生成高质量的图像。它由大型语言模型和各种领域专家生成模型组成,主要目标是解析输入提示并确定产生最优结果的生成模型。DiffusionGPT的工作流程包括四个步骤:提示解析、模型构建和搜索的思维树、人类反馈的模型选择和生成执行。 提示解析 提示解析代理在我们的方法中起着关键作用,因为它利用大型语言模型(LLM)从输入提示中分析和提取重要的文本信息。考虑到用户输入固有的复杂性,准确解析提示对于有效地生成所需的内容至关重要。该代理适用于各种类型的提示,包括提示型、指导型、启发型、假设型等。 通过识别这些形式的提示,提示解析代理允许DiffusionGPT准确地识别用户想要生成的核心内容,同时减轻噪声文本的影响。这个过程对于选择合适的生成模型和获得高质量的生成结果至关重要。 思维树模型 在选择适当的生成模型之前,需要构建一个模型树来帮助确定最合适的模型。模型树基于Tree-of-Thought (TOT)的概念,通过分析和总结模型的标签属性,将模型分为不同的主题和风格类别,并建立一个两层的层次结构。然后,根据模型的属性将其分配到相应的叶节点上,形成一个完整的模型树结构。在模型树中进行搜索时,采用广度优先的方法,逐层比较输入的提示与每个叶节点的类别,以确定最匹配的类别。这个迭代的过程会得到候选模型集合,作为后续模型选择的基础。通过这种方式,可以提高模型选择的准确性,并方便地扩展新模型的加入。 模型选择 模型选择代理从候选模型集中选择最适合生成所需图像的模型。该代理利用人类反馈和优势数据库技术来对齐模型选择过程与人类偏好。使用奖励模型计算得分,从10,000个提示中计算语义相似度,选择前5个提示,然后从离线数据库中检索每个模型的预计性能,并选择排名较高的模型作为最终选择。 执行生成 选择合适的生成模型后,使用核心提示生成所需的图像。为了提高生成过程中提示的质量,使用了提示扩展代理来增强提示。该代理利用选定模型的提示示例自动丰富输入提示。示例提示和输入提示都被发送到LLM中进行上下文学习。具体而言,该代理根据示例提示的句子模式,将丰富的描述和详细的词汇添加到输入提示中。例如,如果输入提示是“一个笑着的女人的图片,时尚杂志封面”,示例提示是“时尚摄影女性头像,蓝色郁郁葱葱的外星人雨林中有花和鸟,幻想,八角渲染,hdr,杜比视界,(复杂细节,超详细:1.2),(自然肌肤质地,超写实,柔和光线:1.2),蓬松的短发,锐利的焦点,夜晚,项链,中国神话,乳沟,中等胸部,科幻头带,看着观众,最佳质量,完美身材” ,提示扩展代理将其增强为更详细和表达力更强的形式,例如:“杂志封面上的女人正在开心地笑,眼睛闪烁着喜悦。她穿着一套时尚的服装,突出了她的曲线,她的发型与她的特征相得益彰”。这种增强显著提高了生成输出的质量。 实验 设置 使用的主要大型语言模型(LLM)控制器是ChatGPT,采用了LangChain框架,有效地控制和指导生成的输出。对于我们实验中使用的生成模型,我们选择了来自Civitai和hug Face社区的各种模型。选择过程包括在这些平台上选择不同类型或风格的最受欢迎的模型。 定性结果 与SD1.5比较 结果表明,DiffusionGPT相对于基线方法在语义对齐和图像美学方面表现更好。同时,基线方法存在语义缺乏和人类相关目标表现不佳的问题,而DiffusionGPT成功解决了这些问题。该系统能够更全面地捕捉输入提示的语义信息,并在生成人类相关对象的详细和准确性方面表现出色。 与SDXL比较 与SD XL相比,我们的系统在生成更精确和视觉上更吸引人的表示方面表现出色。然而,SD XL在某些情况下可能会出现语义信息的部分丢失。我们的系统在生成“带有卡通猫的白色毛巾”和“星空”的表示方面表现出色。 定量结果 DiffusionGPT的用户偏好与表1中的定量结果之间的对齐为其鲁棒性和有效性提供了强有力的证据。通过使用美学预测器和人类反馈相关的奖励模型来进一步评估不同的生成结果,表1中的结果表明,我们的整体框架在图像奖励和美学得分方面优于SD1.5基线模型,分别实现了0.35%和0.44%的改进。 消融分析 思维树和人类反馈 通过视觉分析验证了设计组件的有效性。随着逐渐引入TOT和HF模块,生成的图像质量显著提高。这种视觉分析展示了我们的系统通过整合TOT和HF组件在选择优秀模型方面的优势。 提示扩展
通过比较使用原始提示和扩展提示作为输入生成结果的效果,我们发现扩展提示可以显著提高生成图像的美学和细节水平。扩展提示提供了更丰富和详细的图像描述,使生成更具视觉吸引力和艺术性。
用户分析 研究结果表明,该方法生成的图像更受用户喜欢。研究使用了PartiPrompts数据集中的100个图像描述,每个描述生成了四张图像,共有20个用户参与了评价。 限制和未来工作
DiffusionGPT目前在生成高质量图像方面已经取得了一定的成果,但仍存在一些限制。
未来的计划包括: 引入反馈驱动的优化,将反馈直接纳入LLM的优化过程中,以实现更精细的提示解析和模型选择。 扩展模型候选集,丰富模型生成空间,以取得更令人印象深刻的结果。 将这些见解应用于更广泛的任务,包括可控生成、风格迁移、属性编辑等。
总结 Diffusion-GPT是一个集成了优秀生成模型和高效解析多样化提示的框架。通过利用大型语言模型,Diffusion-GPT可以理解输入提示的意图,并从思维树结构中选择最合适的模型。该框架具有多样性和卓越的性能,同时还通过优势数据库融入了人类反馈。Diffusion-GPT是一个无需训练且易于集成的即插即用解决方案,为社区发展提供了高效有效的途径。
评论0