StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘

StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

StreamMultiDiffusion可以根据用户指定的区域,结合多文本提示,生成实时、交互式的图像。这意味着用户可以使用细粒度的区域提示控制来生成大尺寸图像。

项目主页:https://jaerinlee.com/research/streammultidiffusion

论文地址:https://arxiv.org/pdf/2403.09055

Github地址:https://github.com/ironjr/StreamMultiDiffusion

 

摘要

StreamMultiDiffusion是一个实时区域文本到图像生成框架。通过稳定快速推理技术和重新构建模型,实现了比现有解决方案快10倍的全景生成速度,并在单个RTX 2080 Ti GPU上实现了1.57 FPS的区域文本到图像合成速度。该解决方案为交互式图像生成开辟了一种新的范式,称为语义调色板,可以实时从给定的多个手绘区域生成高质量图像。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

简介

扩散模型目前仍存在两个主要挑战:需要更快的大规模扩散模型推理和更智能的控制。已有一些突破,如DDIM和LCM可以减少推理步骤,StreamDiffusion实现了亚秒级推理,ControlNet和IP-Adapter实现了对生成过程的精细控制。这些突破可以结合起来实现更快速的可控生成。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

StreamMultiDiffusion是一个图像生成和编辑工具,它是一种实时响应的图像生成和编辑工具,可以快速生成高质量的图像。StreamMultiDiffusion采用了多个技术来提高图像生成的效率和质量,包括潜在预平均、掩模居中引导和量化掩模等。同时,StreamMultiDiffusion还提出了一种新的语义绘图框架,称为语义调色板,作为下一代图像创作范式。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

相关工作

现有的扩散模型图像编辑方法生成全新的图像,需要输入图像引导和特定条件。尽管它们能够生成与图像引导和条件输入相对齐的高质量图像,但生成的图像往往与原始图像有很大的差异。而且这些方法也不支持局部图像编辑。

与我们的StreamMultiDiffusion最相关的工作是SDEdit,它基于用户的笔画绘制合成和编辑图像。然而,SDEdit没有明确的机制来确保用户的笔画和原始图像之间的边界区域的协调。

StreamMultiDiffusion通过语义绘制和编辑来协调用户提供的绘制区域和原始输入图像。与现有的图像修复方法不同,StreamMultiDiffusion明确地协调了用户提供的绘制区域和原始输入图像。现有的图像修复方法主要是生成图像中掩蔽区域的最合理内容,而StreamMultiDiffusion则结合了扩散模型的生成能力和“修复”任务的空间约束,成为一个强大的图像编辑流程。

StreamMultiDiffusion

MultiDiffusion

经典的文本条件图像扩散模型由于加性高斯白噪声(AWGN)去噪问题的病态性,如果t接近T,这种直接的一步推理通常会产生x0的高度模糊估计,迫使从业者依赖各种多步推理算法:

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

这些算法中的每一个都可以表示为对单步反向扩散的递归调用。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

虽然式(3)和(4)所表示的高级算法包含了几乎每一种条件扩散模型的生成方法,但它没有考虑在实践中要求较高的情况:图像期望形状与训练集不同的情况,以及多个不同的文本提示生成图像的不同区域相关。MultiDiffusion解决了这些问题,其主要思想是通过对每个采样步骤的特征进行平均来集成多个可能重叠的中间潜在块。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

Stabilizing MultiDiffusion

简单地将Stable Diffusion替换为LCM,和将默认的DDIM采样器替换为LCM采样器并不能带来更快的多重扩散。这种不兼容性极大地限制了LCM和多重扩散的潜在应用。我们讨论每一个原因,并寻求更快、更强的替代方案。

步骤1:LCM与Latent Pre-Averaging的兼容性。全景图模糊的主要原因是原始的多重扩散算法没有考虑底层不同类型的反向扩散步长函数步长。我们可以将现有的反向扩散算法分为两类:1)每一步都向潜函数添加新采样噪声的算法;2)只对潜函数去噪而不添加噪声的算法。由于多重扩散算法依赖中间潜在值的平均,应用多重扩散可以有效地抵消同步添加的噪声,从而降低图像质量。我们可以通过一个简单的方法来避免这个问题。首先,我们将阶梯函数分为确定的去噪部分和可选的噪声添加部分:

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

然后,将方程(6)的平均运算应用于去噪部分的输出,而不是完整步骤的输出。在多重扩散步骤之后添加噪声。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

从图2中可以看出,这个小小的算法改变解决了生成不规则尺寸图像(如全景图)时的兼容性问题。

步骤2:重新考虑使用Bootstrapping进行密集掩码合成。导致不兼容的第二个原因是MultiDiffusion的bootstrapping阶段。在MultiDiffusion的前40%的推理步骤中,每个掩码潜在表示都与具有随机恒定颜色的背景混合。然而,当我们将时间步数从n=50步减少10倍到n=4或5步时,自助步骤的数量也相应减少,限制了消除不必要信息的效果。因此,随机的颜色被强加到最终的图像中。作为随机颜色c的替代,我们发现对这个少量的采样步骤使用白色背景c=1有效地保持了输出图像的质量。我们根据经验发现,逐渐将白色背景与真实背景混合有助于模型适应其他提示生成的外部区域。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

此外,在只有少量采样步骤的情况下,前几个步骤决定了生成图像的整体结构。这种快速收敛与MultiDiffusion掩码聚合相结合时,带来了新的问题。当应用加速方法时,偏离中心的对象往往在MultiDiffusion的早期步骤中被掩盖。因此,最终结果往往会忽略小的、偏离中心的区域提示。因此,我们建议对白色掩码引导过程增加中心策略。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

在生成的前几个(1-3)步骤中,每个提示的中间生成在被U-Net处理之前被转移到帧的中心。通过利用扩散U-Net的中心偏好特性,最终得到稳定的bootstrapping算法,用于从多个基于区域的提示中快速采样图像。

步骤3:量化掩码无缝生成。MultiDiffusion推理步骤减少带来的另一个问题是每个单独标记的区域不能协调成单个图像。在原始的MultiDiffusion中,不存在这个问题,因为较长的反向扩散步骤通过连续添加噪声并模糊它们来有效地平滑掩模边界。然而,在我们的快速推理方案中,该算法没有提供足够的步数来模糊边界。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

本文开发了一种替代方法,可以无缝合并不同文本提示和掩码生成的区域:通过引入量化掩码。给定一个二值掩模,我们通过应用高斯模糊得到一个平滑的版本。然后,通过扩散采样器的噪声水平对实数掩码进行量化。每个去噪步骤,我们都使用具有相应噪声水平的掩码。由于噪声水平随着算法迭代而单调降低,因此掩码的覆盖率逐渐增加。语义掩码的这种放松还提供了画笔的直观解释,画笔是专业图形编辑软件中使用最广泛的工具之一。

流式过程

我们认为实现实时响应对最终用户应用程序很重要。我们将基于区域的文本到图像合成框架修改为管道架构,以最大限度地提高图像生成的吞吐量。

架构。流批处理(Stream batch)目的是最大化模型的吞吐量。这种架构修改隐藏了方程(3)中反向扩散的多步骤算法造成的延迟。为了将此特征应用到基于区域的文本到图像合成框架中,我们在每个时间步将具有不同提示和掩码的小批量图像提供给估计U-Net的噪声。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

优化吞吐量。与去噪过程相比,预处理文本提示和可选背景图像需要显著的延迟。因此,我们建议将这些处理步骤与生成管道分开。通过使用压缩自编码器,如Tiny自编码器,可以实现吞吐量的额外增加。

实验

由于我们的方法依赖于LCM LoRA,它是在Stable Diffusion v1.5上实现的,因此我们的实验基于版本实现。然而,本方法可以应用于任何社区创建的模型。

 

稳定性评估

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

全景生成。为了生成所示的文本-全景生成示例,我们采样了一组512 ×4608的全景,宽高比为9:1。使用结合LCM LoRA和na ïve加速的MultiDiffusion基线进行比较。实验表明,我们的稳定技术在不降低太多质量的情况下加快了超过10倍的推理速度。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

基于区域的提示。接下来,评估了基于区域的文本到图像生成。我们使用COCO数据集来比较基于区域的文本-图像合成的掩码保真度,用交并比(IoU)分数与GT掩码的保真度进行测量。实验结果表明,这三种稳定技术有助于缓解LCM和MultiDiffusion之间的不相容问题。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

速度对比

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

通过在快速推理区域稳定多重扩散所实现的加速,通过多提示流批处理架构进一步加速。通过引入低内存自编码器来权衡质量和速度,我们最终可以实现1.57FPS。

我们对原始的MultiDiffusion和我们的加速算法进行了压力测试,从9个区域分配的文本提示生成768×1920的图像。实验结果表明,与基准算法相比,该算法取得了52.5倍的加速比。算法的速度和控制保真度表明,StreamMultiDiffusion可以支持任何图像扩散模型下的通用图像创建工具。

讨论

语义调色板

 

StreamMultiDiffusion的实时界面为图像生成开辟了一种用户交互应用的新范式,称为语义调色板。

概念。我们的流管道启用了基于区域的响应式文本到图像合成,允许用户像绘画一样编辑他们的提示掩码。由于像3.3节中讨论的那样,需要大量预处理的是提示符而不是掩码,因此可以立即将掩码修改反馈给用户,根据生成的图像迭代更改他们的命令。换句话说,一旦应用程序对提示进行了预处理,用户就可以使用文本提示进行绘制,就像他们可以用彩色画笔绘图一样,因此得名:语义调色板。

示例应用程序设计。应用程序由前端用户界面和运行StreamMultiDiffusion的后端服务器组成。每个用户输入要么是背景图像的修改,文本提示,掩码,以及文本提示和掩码的可调选项,如混合比例和模糊强度。当命令进行重大更改时,需要进行预处理阶段,例如修改提示符或背景时,后端管道会刷新并使用新给定的上下文重新初始化。否则,重复调用管道以获得生成的图像流。用户首先选择背景图像,并通过输入一对正文本和负文本提示创建一个语义调色板。然后,用户可以使用熟悉的笔刷工具、形状工具或绘图工具绘制与创建的调色板相对应的蒙版。该应用程序根据用户输入自动生成合成图像流。用户还可以暂停或恢复流,或一个一个地生成图像,或批量生成图像。我们演示关键概念的技术演示应用程序将随代码发布。

《StreamMultiDiffusion:交互式实时AI绘画系统,支持多文本提示+局部重绘》- 投稿作者:灵度智能 - 发布于:GetAI社区

限制

首先,我们的解决方案仍然需要几个(4到6)步骤的反向扩散。第二,尽管我们通过使用白色背景图像的一步自助法提高了基于区域的文本到图像生成的掩膜保真度,但还不能完美拟合。然而,由于我们的主要目标是演示第一个在不规则尺寸的画布上进行基于区域的文本到图像合成的流应用,因此我们希望将这些改进留给未来的工作。

总结

StreamMultiDiffusion是一个快速、强大的交互式图像生成和编辑工具,解决了潜在一致性模型和MultiDiffusion之间的兼容性问题,并进一步融合了StreamDiffusion管道的架构突破,提出了一个实时高度交互式的图像生成系统,适用于专业使用。StreamMultiDiffusion实现了全景图像生成的10倍速度,并提供了一种新型的用户界面,称为语义调色板,最适合当前亚秒级实时图像合成的图像扩散模型范例。

0

评论0

请先
显示验证码