阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像

Make-A-Character: High Quality Text-to-3D Character Generation within Minutes

项目主页:https://human3daigc.github.io/MACH/

论文地址:https://arxiv.org/pdf/2312.15430.pdf

摘要

Make-A-Character (Mach)可以通过文本描述快速创建逼真的3D角色。该框架利用大型语言和视觉模型进行文本意图理解和中间图像生成,然后通过一系列人类感知和3D生成模块,提供了一种直观的方法来创建可控、逼真、完整的3D角色。该系统可以在2分钟内满足用户的期望,并且可以轻松集成到现有的CG流程中。更多信息请访问项目页面。

简介

Mach利用大型语言和视觉基础模型,从简单的文本描述中生成逼真的3D头像。该系统具有可控性、高度逼真、完整性、可动性和行业兼容性等特点。用户可以通过直观的文本提示自定义头像的面部特征和服装,而且这些头像可以无需额外建模即可用于各种情境。

方法

Mach旨在创建完整、逼真、可驾驶的3D虚拟化身,采用显式3D表示,选择MetaHuman作为几何基础模型,利用LLM进行语义理解,提取面部属性,生成参考肖像图像,通过不同iable渲染和美化技术提取和精细化漫反射纹理,提供发丝级别的头发合成,匹配其他配件,最终组装成完整的3D人物。整个过程持续时间不到2分钟。

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

LLM驱动的视觉提示生成

本文介绍了如何利用大型模型来解决Stable Diffusion在面部属性控制方面的局限性。作者使用Qwen-14B进行面部属性分析,然后结合ControlNet来调节面部细节特征。在ControlNet的部署中,作者还整合了Openpose和canny maps来确保面部特征的合理分布。最终,作者得到了与文本提示强相关的参考图像。

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

Dense Landmark检测

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

面部标记点在重建三维面部结构中的重要性,传统的68或98个面部标记点只能覆盖有限的面部区域,缺乏额头等区域的标记点,因此本文提出了利用密集面部标记点来重建面部和头部几何形状的方法。为了获得密集面部标记点,本文采用了合成图像进行训练,并使用了多视角捕捉和处理流程来生成统一拓扑结构的头部几何形状和面部纹理。同时,本文还使用了多种数字资产来创建完整的人头模型,并使用了经典的52个混合形状来生成不同的面部表情。在面部标记点检测方面,本文采用了堆叠沙漏网络来回归每个面部标记点的热图。最后,本文通过计算FaceScape数据集中98个面部标记点的重投影误差来评估方法的性能。

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

几何生成

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

通过将每个顶点的位置映射到三个正交平面上,可以将3D网格表示为三通道图像。通过引入投影损失、总变差损失和对称损失等约束,可以实现头部几何的生成。最终的损失函数包括标记投影损失、顶点损失、对称损失等。

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

纹理生成

纹理提取

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

首先通过几何生成得到几何模型,然后采用不同iable渲染方法得到所需的纹理图像。为了解决像素位置和UV坐标之间不一定存在一一对应关系的问题,采用多分辨率方法逐步生成纹理。最后通过计算渲染图像和目标图像之间的损失来优化纹理生成。

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

漫射反照率估计

直接使用可微渲染得到的纹理是不理想的,因为它不能完全分离纹理图像中的照度和漫射反照率分量。因此,当在不同的照明条件下渲染时,包含烘焙照明的纹理可能会导致明显的不现实的阴影和阴影。为了解决这个问题,我们引入了一种神经愉悦的方法,从纹理图像中去除不需要的光照,得到可渲染的漫射反照率。值得注意的是,我们的愉悦算法适用于纹理图像而不是肖像图像。这是一个有意的选择,因为纹理图像没有遮挡,并且在肖像的不同姿势和表情中保持一致,使得数据采集和算法学习更容易处理。

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

真实数据收集。我们在均匀照明下捕获了193个个体的面部。通过重建几何图形,我们获得了未扭曲的高分辨率漫反射率。

训练数据生成。不同照度下的纹理通过烘烤光合成为地面真实弥散反照率。为了覆盖广泛的自然采光条件,我们为每个地面真实数据烘焙100个高动态范围(HDR)灯(包括室内/室外,白天/夜晚场景)。为了提高数据的多样性,避免过拟合,根据个体类型角(Individual typogy Angle, ITA)对地面真散射反照率的肤色进行增强。

网络。在不失去一般性的前提下,我们将纹理愉悦问题表述为图像到图像的转换问题。具体来说,我们采用了粗至细的pix2pixHD网络,该网络将合成的照明纹理作为输入,生成具有视觉吸引力的高分辨率漫射反照率。损失函数被定义为GAN损失和VGG特征匹配损失的加权组合。

纹理校正和补全

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

本文介绍了一种纹理修正和补全的流程,用于解决单个正面肖像图像所生成的漫反射反照率在眼睛、嘴巴和鼻孔区域周围可能存在的伪影问题。该流程利用面部解析算法提取这些容易出错的区域的掩模,并使用Poisson方法将其与模板漫反射反照率进行膨胀和合并。此外,还将口部和眉毛的颜色从肖像图像转移过来以保持面部特征,并在眼睛和脸颊周围添加化妆来提高美感。最后,将面部区域与模板漫反射反照率进行Poisson混合以获得耳朵和颈部的纹理。

头发生成

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

为了生成高保真的3D头像,使用单独的发丝而不是网格来渲染头发。通过SD模型合成各种发型图像,然后从这些2D图像中进行基于发丝的3D重建。使用SOTA研究和USC-HairSalon数据集训练模型,重建过程包括占用和方向场的估计以及几万个发丝的几何描述生成。生成的发型资产与现有的元人类头发一起标记属性,以实现高效匹配。由于实时发型生成耗时,选择离线生成多样化的发型资产。

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

资产匹配

使用CLIP的文本编码器计算输入提示和资产标签之间的余弦相似度,以选择最合适的资产。资产包括头部、发型、身体、服装和一些配件,每个资产都带有文本注释。将这些资产整合在一起,构建一个完整的3D角色。

结果

我们展示了生成的头像及其表情动画效果。头像生成使用了Unreal Engine进行渲染。

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

《阿里发表Make-A-Character,AI头像生成工具,几分钟内即可生成高质量3D的动画人物头像》- 投稿作者:灵度智能 - 发布于:GetAI社区

未来工作

目前的版本的重点是生成外观精美的亚洲人种三维头像,因为所选的SD模型主要是在亚洲面部图像上进行训练的。未来,我们将尝试扩展对不同种族和风格的支持。值得注意的是,我们的去光数据集仅包含干净的面部纹理,非自然的面部图案如涂鸦或贴纸可能会在生成的头像中减弱。目前,我们的服装和身体部件是预先制作的,并根据文本相似性进行匹配。然而,我们正在积极开发由文本提示驱动的布料、表情和动作生成技术。

0

评论0

请先
显示验证码