阿里发表DivAvatar,简单提示即可生成多样化3D人物头像,单张V100即可运行

DivAvatar: Diverse 3D Avatar Generation with a Single Prompt

《阿里发表DivAvatar,简单提示即可生成多样化3D人物头像,单张V100即可运行》- 投稿作者:灵度智能 - 发布于:GetAI社区

近日,阿里发表了DivAvatar,解决了当前头像方法中普遍存在的多样性挑战。DivAvatar能够从单个文本提示中生成广泛的不同头像。其关键特点包括创新的噪声采样训练、语义感知的缩放机制和基于特征的深度损失,这些特点在实现外观多样性和提高视觉质量方面起到了重要作用。

论文地址:https://arxiv.org/pdf/2402.17292.pdf

 

摘要

DivAvatar是一个用于生成多样化的头像的模型,它可以从噪声样本中生成不同的头像。DivAvatar有两个关键设计,帮助实现生成多样性和视觉质量。第一个是训练阶段的噪声采样技术,它在生成不同外观方面起着关键作用。第二个是语义感知的缩放机制和一种新颖的深度损失,前者通过对特定身体部位进行单独微调来产生高文本保真度的外观,后者通过在特征空间中平滑生成的网格来大大改善几何质量。大量实验证明,DivAvatar在生成多样外观的头像方面非常灵活。

简介

DivAvatar是一个头像生成框架,可以从一个文本提示中生成多种外观。DivAvatar结合了扩散先验,并对预训练的EVA3D进行微调,EVA3D是一种由GAN框架构建的合成人类NeRF表示。DivAvatar利用了EVA3D的内在外观优势,为生成具有逼真多样外观的头像提供了基础。

DivAvatar包含两种新颖的设计。第一个是噪声采样技术,有效地恢复了GAN生成不同角色的能力。第二种是一种全面的语义感知缩放机制,旨在确保文本保真度。此外,我们设计了一种新颖的深度损失,有效地改进了特征空间中的几何质量。

总的来说,DivAvatar能够高效、快速地生成各种各样的头像。生成的头像谱不仅表现出高度的多样性,而且与原始的单个训练提示保持文本一致性。

 

相关工作

常见的3D头像生成方法包括Avatar-CLIP、DreamAvatar、AvatarCraft、DreamHuman、DreamWaltz、AvatarVerse。这些方法都有一些局限性,如弱的SDS指导和有限的骨骼条件,限制了它们生成头像的能力。本文提出了一种基于强3D先验的生成模型的方法,可以生成多样化的头像,扩展了文本驱动头像生成的创造性可能性。

 

方法

DivAvatar是一个生成真实3D头像的新型流程,可以从单个文本描述中生成任何姿势的头像。该流程采用多样化的训练策略,以提高头像生成的质量,并使用语义缩放和基于特征的深度损失来增强合成质量。最后,使用DMTet finetune进行网格优化。

前置知识

EVA3D

EVA3D是一个无条件的3D人体生成模型,仅通过2D图像集合进行学习。它使用组合的NeRF表示将人体分成局部部分,并通过单独的网络对每个部分进行建模。生成器使用噪声z、SMPL参数(β, θ)和相机姿态cam来生成假样本。渲染算法负责生成最终输出。每个组合NeRF表示中的子网络由堆叠的MLP和SIREN激活函数组成。生成的假样本和真实样本一起送入鉴别器进行对抗训练。

分数蒸馏抽样

分数蒸馏抽样(Score Distillation Sampling,SDS)是一种从预训练的扩散模型中提取先验知识的方法,通过优化可微分的3D表示,使其多视角渲染结果与高质量样本相似。具体而言,通过给可微分的3D模型添加随机噪声,然后计算SDS损失来优化3D表示,使其预测的噪声与添加的噪声之间的差异最小化。使用强大的无分类器引导设置对于扩散模型创建高质量的3D样本至关重要,尽管这会牺牲生成多样性。

DivAvatar

《阿里发表DivAvatar,简单提示即可生成多样化3D人物头像,单张V100即可运行》- 投稿作者:灵度智能 - 发布于:GetAI社区

EVA3D的基本原理源于对抗性训练的固有能力。EVA3D对人体图形几何和外观的固有先验使其成为进一步基于文本的条件的理想起点。在原始无条件EVA3D的训练和推理过程中,从正态分布中随机抽取噪声作为输入,从而实现无条件的多元三维人生成。

为了使预训练生成模型(即EVA3D)适应文本描述,我们将SDS损失集成到微调过程中。我们设计了一种替代噪声采样技术,该技术有效地恢复了微调生成模型从单个文本提示生成不同角色的能力。另外,我们分别引入了一种全面的语义感知缩放来加强纹理中的文本对齐,以及一种先进的基于特征的深度损失来改进几何形状。

策略性噪音取样

SDS倾向于生成具有共同外观的表示,而不考虑输入噪声中存在的变化。当SDS与生成模型一起使用时,模型会以一种固定于数据分布的单一模式或少数模式的方式进行更新,而忽略了整个分布的丰富性。因此,即使我们将随机噪声作为人类生成模型(即EVA3D)的输入,生成的样本也几乎没有多样性。

与传统的GAN训练中的噪声采样不同,在每次迭代中采样一个新的噪声。在推理过程中,随机噪声从正态分布中采样,我们的精细生成模型能够生成具有不同外观的头像,每个头像都准确地对应于文本提示。

语义缩放

为了解决SDS loss在生成复杂文本输入时可能出现的匹配不完全的问题,本文引入了基于语义的缩放机制。将人体分为6个语义区域,并相应地修改文本提示,以便正确地编码信息。这种语义缩放机制可以有效地处理长或复杂的提示,准确地聚焦扩散模型在特定区域。

损失函数

基于特征的深度损失。利用深度损失来避免三维几何结构中的非自然塌陷结构。我们通过在VGG网络的特征空间中设计一种新的掩膜深度正则化来缓解这个问题。采用现成的深度估计器来预测渲染图像的深度图作为“真实值”。然后,我们将被掩码的“真实值”深度和被掩码的实际生成深度的特征图的l1损失最小化:

《阿里发表DivAvatar,简单提示即可生成多样化3D人物头像,单张V100即可运行》- 投稿作者:灵度智能 - 发布于:GetAI社区

这种基于特征的深度损失有效地消除了由于水印伪影而产生的意外凹痕,并平滑了生成的表面。

总体损失。除了上述基于特征的深度损失和SDS损失外,我们还利用EVA3D中存在的现有损失函数进行微调。总体损失函数定义为:

《阿里发表DivAvatar,简单提示即可生成多样化3D人物头像,单张V100即可运行》- 投稿作者:灵度智能 - 发布于:GetAI社区

网格优化

虽然生成的人类角色在几何和外观上都很合理,但其纹理过于平滑,颜色过于饱和,不够逼真。为了解决这个问题,作者将生成的网格导出到纹理分解的SDF-Mesh混合表示中,并使用渲染图像学习纹理3D网格。此外,作者还使用img2img管道添加逼真的细节,以确保多样化的外观不会在DMTet微调过程中丢失。最终,作者通过最小化渲染纹理网格和输入图像之间的MSE损失来实现这一目标。

实验

实现细节

使用 Stable Diffusion v2.0 作为 SDS loss 的扩散先验,CFG 值为 100。使用 DeepFashion 数据集训练 EVA3D 模型,进行 5000 次微调。在一台 Tesla V100 GPU 上进行实验。

定性结果

与现有的方法相比,本方法生成的人物模型具有更广泛的外观变化,并且更好地匹配输入的文本提示。同时,本方法还能够生成任意姿势的人物模型,而其他方法则需要进一步调整才能生成不同姿势的人物模型。

《阿里发表DivAvatar,简单提示即可生成多样化3D人物头像,单张V100即可运行》- 投稿作者:灵度智能 - 发布于:GetAI社区

消融分析

本文通过噪声采样、语义感知缩放、基于VGG特征的深度损失和网格优化等技术,生成具有多样性和真实感的头像。其中,噪声采样是产生多样性的关键,而网格优化则主要用于提高头像的真实感。同时,语义感知缩放和基于VGG特征的深度损失也对头像的生成起到了重要作用。

《阿里发表DivAvatar,简单提示即可生成多样化3D人物头像,单张V100即可运行》- 投稿作者:灵度智能 - 发布于:GetAI社区

《阿里发表DivAvatar,简单提示即可生成多样化3D人物头像,单张V100即可运行》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

《阿里发表DivAvatar,简单提示即可生成多样化3D人物头像,单张V100即可运行》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

总结

DivAvatar解决了当前头像方法中普遍存在的多样性挑战。通过对人类生成模型EVA3D进行微调,并在训练过程中采用独特的噪声采样,DivAvatar能够从单个文本提示中生成广泛的不同头像。其关键特点包括创新的噪声采样训练、语义感知的缩放机制和基于特征的深度损失,这些特点在实现外观多样性和提高视觉质量方面起到了重要作用。我们的结果表明,DivAvatar能够以多样且详细的3D头像赋予创作者强大的能力,与文本描述密切相关。

然而,我们的模型在推理时生成的纹理缺乏逼真的细节,需要对每个样本进行额外的网格优化。改进纹理质量以直接生成高质量头像而无需进一步优化是未来的工作。此外,我们的模型在特定制服(如护士或消防员)方面显示出有限的多样性,可能是因为依赖于EVA3D在DeepFashion数据集上的外观先验。如果提示主题不在训练数据集中,外观的主要来源将依赖于SDS损失,这往往会收敛。此外,我们还面临着EVA3D固有的挑战,如水印伪影和无法生成宽松服装。

0

评论0

请先
显示验证码