ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法

ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

项目主页:https://idaligner.github.io/

论文地址:https://arxiv.org/pdf/2404.15449

Github地址:https://github.com/Weifeng-Chen/ID-Aligner

 

摘要

身份保持的文本到图像生成(ID-T2I)由于其广泛的应用场景,如人工智能肖像和广告,受到了极大的关注。虽然现有的ID-T2I方法已经展示了令人印象深刻的结果,但仍然存在几个关键挑战:

  • 1)难以准确保持参考肖像的身份特征
  • 2)生成的图像缺乏美学吸引力,特别是在强制保持身份时3
  • 3)存在限制,无法同时兼容基于lora-base和基于Adapter的方法

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

为解决这些问题,本文提出ID-Aligner,一种通用反馈学习框架,以提高ID-T2I的性能。为解决身份特征丢失问题,引入身份一致性奖励微调,利用人脸检测和识别模型的反馈来改善生成的身份保持。提出身份美学奖励微调,利用人类标注的偏好数据的奖励和自动构建的角色结构生成反馈来提供审美调节信号。本方法可以很容易地应用于LoRA和Adapter模型,实现性能提升。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

简介

ID-Aligner是一个通过反馈学习来提高身份保持文本到图像生成性能的框架。它引入了身份一致性奖励调整和身份美学奖励调整来提高身份生成的一致性和美学质量。该方法适用于Adapter模型和LoRA模型,并在身份保持和美学质量方面都取得了显著的改进。实验证明了该方法的有效性。

方法

ID-Aligner是一种使用反馈学习方法来增强身份保留生成性能的方法。该方法通过奖励反馈学习范式来解决身份保留生成,并提高生成图像与参考面部图像的一致性和美学。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

身份奖励

身份一致性奖励。给定参考图像𝑥0 ref和生成的图像𝑥0’。我们的目标是评估特定肖像的ID相似性。我们首先使用人脸检测模型FaceDet来定位两张图像中的人脸。根据人脸检测模型的输出,裁剪相应的人脸区域,并将其输入人脸识别模型FaceEnc的编码器。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

计算这两个人脸嵌入之间的余弦相似度,作为生成过程中ID保留的度量。然后,我们将这种相似性作为反馈调整过程的奖励信号:

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

身份美学奖励。除了身份一致性奖励外,本文引入了一个关注吸引力和质量的身份美学奖励模型。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

首先,我们使用自收集的人类标注偏好数据集训练一个奖励模型,该模型可以对图像进行评分,并反映人类的偏好。我们采用ImageReward提供的预训练模型,并对其进行微调,损失如下:

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

这个损失函数基于图像之间的比较对,其中每个比较对包含两个图像(𝑥𝑖和𝑥𝑗),提示𝑐。𝑓𝜃(𝑥,𝑐)表示给定图像𝑥和提示𝑐的奖励分数。我们以𝑓𝜃作为申诉奖励。

此外,设计了一种结构奖励模型,可以区分扭曲的肢体/身体和自然的肢体/身体。为了训练一个可以访问图像结构是否合理的模型,我们收集了一组包含正样本和负样本的文本-图像对。我们使用来自LAION的图像经过人体检测器滤波。然后,使用姿态估计模型来生成姿态,可以将其视为未失真的人体结构。然后,我们随机扭转姿态,并利用ControlNet生成错位的身体作为负样本。数据构造完成后,我们训练结构奖励模型与相同的损失以及期限结构奖励模型。

身份审美奖励模型定义为:

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

身份保持的反馈学习

在反馈学习阶段,我们从一个输入提示开始,随机初始化一个潜变量𝑥𝑇。然后逐渐去噪,直到达到一个随机选择的时间步长𝑡。此时,从𝑥𝑡直接预测出去噪后的图像𝑥0’。之前阶段得到的奖励模型应用于这个去噪后的图像,生成期望的偏好分数。这个偏好分数用于微调扩散模型,使其更加接近我们反映身份一致性和审美偏好的ID-Reward。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

最后,我们使用这两个奖励目标的加权和来微调扩散模型,以实现保持身份的图像生成。我们的ID-Aligner是一种通用方法,可以应用于基于LoRA的模型和基于Adapter的模型,以实现保持身份的生成。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

用于Adapter模型。IP-Adapter是一种可插接的扩散模型,可以用人脸图像作为身份控制。我们使用奖励反馈学习优化该模型。遵循ReFL的思想,利用定制奖励模型提供了一种关于身份一致性的特殊反馈信号。具体来说,给定特定肖像的参考图像和文本控制提示符(𝑥0 ref,𝑝),我们首先迭代地去噪一个没有梯度的随机初始化潜在函数,直到一个随机时间步𝑇𝑑∈[𝐷𝑇1,𝐷𝑇2],得到𝑥𝑇𝑑。然后,通过梯度进一步去噪得到𝑥𝑇𝑑−1,并直接从𝑥𝑇𝑑−1得到预测的去噪图像𝑥0’。然后,利用奖励模型在𝑥0’上进行评分,并根据奖励模型指导将模型引导到特定方向。在这里,我们使用相似度奖励𝐿𝑖𝑑_𝑠𝑖𝑚和美学奖励𝐿𝑖𝑑_𝑎𝑒𝑠的加权和来获取公式9中的损失𝐿𝑖𝑑_𝑟𝑒𝑤𝑎𝑟𝑑来优化模型。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

用于LoRA模型。LoRA是一种实现身份保持生成的有效方法。给定特定肖像的单个或多个参考图像,它通过单独微调网络的一些可插入的额外低秩参数矩阵,快速使预训练的LDM适应指定的身份。然而,扩散模型中的少样本学习在学习生成新人时高度依赖于提供的数据集,可能需要来自不同侧面或不同环境的人脸来避免过拟合。本文提出了一种更有效的基于ID奖励的LoRA训练方法。我们使用公式1中的去噪损失𝐿𝑖𝑑_𝑙𝑜𝑟𝑎和公式9中的ID奖励损失𝐿𝑖𝑑_𝑟𝑒𝑤𝑎𝑟𝑑的加权和来训练LoRA。𝐿𝑖𝑑_𝑙𝑜𝑟𝑎使模型能够学习人脸结构,而𝐿𝑖𝑑_𝑠𝑖𝑚引导模型学习身份信息。额外的𝐿𝑖𝑑_𝑎𝑒𝑠用于提高图像的整体美感。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

实验

数据集。使用MTCNN人脸检测器和LAION数据集筛选的图像进行训练。为了增强模型的泛化能力,还从JourneyDB中收集了高质量的提示集。

训练和推理。使用stable-diffusion-v1-5和SDXL作为基础文本到图像生成模型,使用IP-Adapter作为基线模型,使用FaceNet和MTCNN进行面部检测和嵌入提取。在推理过程中使用DDIM调度器进行生成。

评估。评估使用了FastComposer数据集中的四种不同类型的提示,并使用面部数据集和互联网上的图像作为参考图像。评估指标包括面部相似度、DINO分数、CLIP-I和CLIP-T。

结果

定性对比。ID-Aligner模型在Adapter模型和LoRA模型上进行了定性比较实验。在Adapter模型中,与基线方法和其他最先进的基于适配器的模型相比,我们的方法在身份保留和美学质量方面表现出优势。在SD15模型中,我们的方法在身份保留和美学质量方面都表现出优越性。在SDXL模型中,InstantID在身份保留方面表现最好,但由于面部控制网络的限制,其灵活性较低。我们的方法在美学方面表现更好,颜色和具体结构更清晰。在LoRA模型中,我们的方法显著提高了身份一致性和视觉吸引力。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

定量对比。对于SD1.5模型,所提出方法在人脸相似性、DINO和CLIP-I得分方面优于FastComposer和IP-Adapter,表明优越的身份保持一致性。本方法还产生了最高的LAION-Aesthetics(LAION-Aes)得分5.59,表明与基线相比,美学质量得到了提高。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

对于SDXL模型,InstantID的Face Sim最高。得分为0.783,在人脸身份保留方面优于本方法(0.619)和其他基线。本方法在DINO(0.499)和CLIP-I(0.602)指标上实现了有竞争力的性能,表明可比较的整体身份一致性。本方法在所有基于sdxsl的技术中获得了最高的LAION-Aes得分5.88,证明了其在保持身份一致性的同时生成美观图像的能力。

消融分析

本文对每个组件进行了消融分析。实验表明,身份一致性奖励显著提高了身份相似性,审美奖励进一步增强了生成图像的视觉吸引力,身份一致性和美学奖励在实现高质量、保持身份的图像生成方面发挥的关键作用。本法我给你发可以显著加快LoRA训练的身份适应。本方法可以在SD15、SDXL、Dreamshaper、RealVisXL上使用,具有通用性。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

用户研究。结果与定量研究一致。InstantID取得了最高的人脸相似度分数,而我们的方法获得了第二好的人脸相似度分数。该方法获得了最高的美学分数和第二高的纹理图像一致性分数。总的来说,该方法在所有指标上都表现良好,与其他方法相比,表现出相对平衡的性能。

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

《ID-Aligner:要真实还要好看,结合美学评分的高保真身份保持生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

总结

ID-Aligner是一个用于优化图像生成模型的算法,通过奖励反馈学习来提高身份一致性和美学。它引入了两个关键奖励:身份一致性奖励和身份美学奖励,可以与基于适配器和基于LoRA的文本到图像模型无缝集成,始终提高身份一致性并产生美观的结果。实验结果验证了ID-Aligner的有效性,证明其性能优越。

0

评论0

请先
显示验证码