“PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion”
本文首先提出一种资源高效的时间解耦训练策略,将单一的文本到图像模型分割为结构和纹理生成器。每个生成器都使用最大限度地提高数据利用率和计算效率的方案进行训练,将数据准备减少48%,减少51%的训练资源。
同时,提出Coop-Diffusion算法,能够在统一的去噪过程中合作使用具有不同潜空间和预定义分辨率的各种预训练扩散模型。这允许在任意分辨率下进行多控制图像合成,而不需要额外的数据或重新训练。
项目主页:https://pangu-draw.github.io
论文地址:https://arxiv.org/pdf/2312.16486.pdf
Github地址:https://github.com/mindspore-lab/mindone/tree/master/examples/pangu_draw_v3
摘要
PanGu-Draw旨在实现资源高效的文本到图像合成,并能够适应多个控制信号。该模型采用了时间分离训练策略和“Coop-Diffusion”算法,能够最大化数据利用和计算效率,同时实现多控制图像合成。实验证明,PanGu-Draw在文本到图像和多控制图像生成方面表现出色,具有很高的信息密度和生成多样性。最大的5B T2I PanGuDraw模型已在Ascend平台上发布。
简介
PanGu-Draw旨在提高扩展性和数据效率,同时节省训练资源。该范式采用时间分离训练策略,将综合文本到图像模型的训练分为两个不同的生成器:一个专门用于结构轮廓,另一个用于纹理细节。这种分离不仅集中了训练工作,而且提高了数据效果。结构生成器擅长制作图像的初始轮廓,提供数据质量的灵活性,并使训练跨越各种数据质量;相反,纹理生成器则使用低分辨率数据进行微调,将这些轮廓注入细节,确保在高分辨率合成期间实现最佳性能。这种专注的方法不仅加速了5B模型的训练过程,而且显著减少了对广泛数据收集和计算资源的依赖。
PanGu-Draw是一种高效的文本到图像生成模型,采用时间分离训练策略,能够在减少数据和训练资源的同时生成高质量的图像。Coop-Diffusion是一种多重扩散模型的合作集成算法,能够在一个统一的去噪过程中实现多控制和多分辨率图像合成,避免了引入伪影的问题。这些算法的综合评估表明,PanGu-Draw能够生成与文本和各种控制相一致的高质量图像,具有良好的可扩展性和灵活性。
相关工作
文本到图像生成。GLIDE和DALL-E 2等模型能够从文本描述中生成多样且语义对齐的图像。Latent Diffusion模型通过从文本条件的低维潜在表示中创建图像来解决计算挑战。LoRA和ControlNet等技术提供了领域特定的适应性和空间条件控制。当前的研究还致力于将模型输出与人类审美偏好对齐,以优化图像质量和用户满意度。然而,目前还没有一个统一的框架来整合这些不同的能力,限制了图像合成中多控制和复杂编辑的潜力。
建立高效的训练和扩展策略。传统方法利用级联方法有效利用不同分辨率的数据,但依赖于多个模型,导致推理过程效率低下。相比之下,分辨率提升训练策略可以提高单个模型的成本效益,但并未充分利用数据效率。在扩展策略方面,模型大小与性能之间的相关性已有充分研究,大型模型可以获得显著的性能提升。本文提出了一种增强效率的扩散模型扩展方法。
PanGu-Draw
本文介绍了一种资源高效的5B文本到图像生成模型,采用时间解耦训练策略,并进一步增强了提示增强LLM。同时提出了CoopDiffusion算法,用于协作集成多种预训练扩散模型,实现多控制和多分辨率图像生成。
时间解耦训练策略
提高数据、训练和推理效率对文本到图像模型的实际使用至关重要。为响应提高效率的需求,本文引入了时间解耦训练策略。该方法将一个文本到图像模型分为两个跨不同时间区间运行的专门子模型:结构生成器结构和纹理生成器纹理。每个子模型的大小是原始模型的一半,从而提高了可管理性,减少了计算负荷。
结构生成器结构负责跨较大时间步长的早期去噪,这一阶段的重点是建立图像的基本轮廓。纹理生成器纹理在后者中运行,较小的时间步长,详细生成纹理细节。每个生成器都是单独训练的,这不仅减轻了对高端内存计算设备的需求,而且避免了与模型分片相关的复杂性及其随之而来的机间通信开销。
在推理阶段,结构最初从初始随机噪声向量中构建一个基本结构图像。随后,纹理细化该基以增强纹理细节,最终形成最终输出。这种顺序处理促进了更节省资源的工作流程,大大减少了硬件占用,加快了生成过程,而不影响模型的性能或输出质量。
高效的专用训练策略。我们进一步对上述两种模型采用专门的训练设计。结构生成器需要在包含广泛概念的广泛数据集上进行训练。传统的方法通常会消除低分辨率图像,丢弃约48%的训练数据。相反,我们将高分辨率图像与放大的低分辨率图像相结合。这样既提高了数据效率,又避免了语义退化的问题。
本文提出在低分辨率下训练纹理的同时仍然在高分辨率下采样。我们在消融实验中证明,这种策略不会导致性能下降,也不会出现结构性问题。因此,我们的训练效率整体提高了51%。除了更高的数据和训练效率外,与级联训练策略相比,该策略还以更少的推理步骤实现了更高的推理效率,与分辨率提升训练策略相比,该策略的每一步模型更小。
Coop-Diffusion:Multi-Diffusion融合
不同模型的隐空间和分辨率不同,阻碍了不同模型控制图像的联合合成,从而限制了它们的实际应用。针对这些挑战,本文提出了具有两个关键子模块的Coop-Diffusion算法,以弥合潜在空间差距和分辨率差距,并将去噪过程统一在同一空间中。
弥合潜在空间缺口。为了弥合空间之间的潜空间差距,本文建议通过将潜空间B中的模型预测转换为潜空间A,以图像空间为中间,来统一潜空间A中的模型预测。
弥合分辨率差距。为了将低分辨率模型的去噪过程与高分辨率模型的去噪过程相结合,上采样和/或下采样是必要的。传统的双线性上采样通常应用于去噪过程中的中间结果不能很好地放大像素间的相关性。这种放大偏离了最初的独立同分布(IID)假设,导致最终图像中出现严重的伪影。相反,下采样不存在这个问题。为解决上采样中的IID问题,本文提出一种新的上采样算法,保留IID假设,从而弥合具有不同预训练分辨率的模型之间的分辨率差距。
实验
实现细节。本文采用SDXL的预训练变分自编码器(VAE)模型,并基于其U-Net模型架构构建了结构和纹理生成器。为了实现双语文本到图像生成(中文和英文),我们在中文训练数据集上预训练了一个中文文本编码器。然后,将来自这个中文文本编码器的文本嵌入与预训练的英文文本编码器的文本嵌入连接起来,作为去噪模型的最终文本嵌入。对于多分辨率图像生成,选择1024×1024左右的图像分辨率范围,并进一步将去噪模型约束在图像分辨率索引对应的正弦位置嵌入上。根据消融研究的建议,将T结构参数设置为500。
数据集。为了涵盖世界上丰富的概念,我们从多个来源收集各种风格的图像,包括Noah-Wukon、LAION和其他,如摄影,卡通,肖像和游戏资源。
评价指标。我们分别在COCO和COCO-CN上用30k张图片(英文)和10k张图片(中文)进行评估。采用FID评价图像质量和多样性。对于中文,其他指标包括Inception Score(IS)和CNCLIP-score。
文本到图像生成
PanGu-Draw在COCO数据集上表现优异,FID值为7.99,超过了DALL-E 2和SDXL等方法,并与SOTA方法竞争力相当。在COCO-CN数据集上,PanGu-Draw在三个指标上均优于Taiyi-CN、Taiyi-Bilingual和AltDiffusion等中文文本到图像生成模型。用户研究表明,PanGu-Draw在三个指标上均优于SD和SDXL,并且与Midjourney 5.2和DALL-E 3的表现相当。PanGu-Draw生成的高保真度多分辨率图像具有高美学价值,并与输入提示在语义上对齐。
Multi-Diffusion融合结果
多重控制图像生成。通过与不同模型的融合,PanGu-Draw实现了多样化的图像生成。
多分辨率图像生成。PanGu-Draw为低分辨率预测添加了许多细节,从而获得了高保真的高分辨率结果。此外,与采用扩散模型实现所有低分辨率去噪步骤的超分辨率方法相比,该方法具有更高的推理效率。
消融分析
时间解耦训练策略。使用我们的策略训练的模型在所有三个指标上都取得了更好的性能,表明我们的策略的有效性。
训练设计。结构生成器和纹理生成器被设计为在不同的分辨率上进行训练,以提高数据和训练效率。我们将这种设计与传统的训练过程进行了比较,其中结构生成器丢弃低分辨率图像,或者纹理生成器以高分辨率进行训练。在COCO上的结果显示,结构生成器受益于这些额外的上采样数据,而纹理生成器在较小的分辨率下学习足够的纹理模式。
时间步分割点。结构生成器和纹理生成器之间的时间步分割点T struct也会影响最终性能。结果显示,随着T struct从200增加到700,性能一开始增加,然后持续下降。T struct = 500是最佳值。
总结
PanGu-Draw能够有效地整合多个控制信号。该方法采用了时间解耦训练策略,将文本到图像过程分为结构和纹理生成,提高了数据利用率和计算效率。此外,还引入了Coop-Diffusion算法,允许在统一的去噪过程中协同使用不同的预训练扩散模型,实现多控制图像合成,无需额外数据或重新训练。PanGu-Draw在英文T2I方面优于DALLE 2和SDXL,中文T2I方面表现出更好的FID、IS和CN-CLIP分数,并获得了良好的用户反馈。这使得PanGu-Draw成为一种多功能高效的最先进方法,可在Ascend平台上使用。
评论0