你是否有遇到过打字或者语音聊天时,开了一个玩笑,对方却误以为真,导致矛盾反正的情况?通过打字或者音频聊天时,我们通常只能猜测对方的态度和语气,容易引起误解。
也许在不久的将来,“顺着网线来打你”不在仅仅是一句玩笑。
项目主页:https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/
论文地址:https://arxiv.org/pdf/2401.01885.pdf
Github地址:https://github.com/facebookresearch/audio2photoreal/
摘要
本文介绍了一个生成全身逼真动作的头像的框架。通过结合向量量化和扩散的方法,生成多种可能的面部、身体和手部动作。作者还提供了一个多视角对话数据集,用于逼真重建。实验证明,该模型生成的动作更加适当和多样化,并且在感知评估中显示了逼真性的重要性。
简介
开发具有逼真细节的对话头像是虚拟代理与人类有意义互动的关键。非纹理网格的限制掩盖了微妙的细节,如眼神或微笑,使交互感觉机器人和怪异。人类对这些微表情和动作特别敏感,用于理解对话伙伴的意图、舒适度或理解。因此,开发能够捕捉这些微妙差异的逼真头像是必要的。
人类在更抽象的形式中表示运动时,对微小的运动模式的感知能力会降低。研究表明,人们在骨骼中辨别真实与虚假的关键帧动作(如行走)比在纹理网格中更困难,而在点云表示中更加困难。在面部表情中,研究显示,在卡通人物上,大的面部运动异常比在应用了人类纹理的角色上更不容易察觉。尽管抽象的表示不能准确地表达人类解读微妙的交流线索所需的细节水平,但在姿势生成的大部分先前工作中,仍然使用基于网格或骨骼的表示来评估他们的方法。本文强调了开发逼真的对话角色的重要性,这不仅可以让我们表达微妙的运动模式,还可以更准确地评估合成运动的真实性。
本文介绍了一种基于语音音频生成逼真头像的方法。该方法能够生成与语音同步的高频手势和表情,并且使用了自回归VQ方法和扩散模型来处理身体和手部动作。作者还介绍了一个多视角系统捕捉的数据集,用于支持他们的方法。他们的方法比以往的方法生成的动作更加逼真和多样化。他们还提出了一个问题,即使用非纹理网格来评估对话动作的有效性。最后,他们将公开发布代码、数据集和渲染器。
相关工作
人际对话动态。最近,有工作通过从说话者的运动和音频、文本或风格化情感预测听者的细粒度2D或3D手势运动来建模多人交互动力学。然而,所有这些方法都只能生成听者的头部姿态和面部表情。在另一个极端,Lee等人仅在二元对话中对说话者的手指运动进行建模。本方法首次考虑了人际对话的全方位3D面部、身体和手部运动,同时使用单个模型来处理说和听运动。
手势运动生成。之前关于扩散的工作已经探索了音频到舞蹈,文本到运动,甚至音频到手势。Yu等人使用一种基于扩散的对比学习方法,只关注面部,产生既准确又能从与嘴唇无关的面部运动中分离出来的唇部同步。虽然这些方法只对身体或面部进行建模,但所提出方法同时生成对话代理的完整面部、身体和手。
SHOW通过训练单独的矢量量化来产生给定音频的面部、身体和手部运动来解决这个问题。虽然本方法同样侧重于为对话智能体生成全方位的面部、身体和手部运动,但方法显著不同,在逼真的角色上可视化,而不是基于网格的渲染。如图2所示,它们的网格可以代表遵循节奏的大型手臂运动,但很难捕捉笑和张嘴说话之间的关键区别。相比之下,我们是第一个使用照片真实的角色,可以表达微妙的细微差别,如鬼脸和假笑。
本方法对二元对话的人际交流动态进行了建模,而不是在一元环境中对单个说话人进行建模。所提出方法必须对听者和说话者的运动进行建模,并生成运动,不仅看起来就音频而言是真实的,而且还能真实地对对话中的另一个人做出反应。
会话数据集。会话动作的大规模数据集越来越多。一些数据集提供独白者的面部、身体和双手的姿态参数,另外一些只提供身体和手的重建。然而,所有这些数据集的信息都不够丰富,以通过缺乏真实感和高频细节的blendshapes重建粗糙的人体网格或有纹理的角色。据我们所知,我们是第一个提供同时完整重建面部、身体和手的数据集,并在二元对话环境中考虑这一点。
逼真的全身运动合成
模型可以根据两个人的对话生成一个人的逼真面部、身体和手部动作。分别使用了面部表情代码和关节角度来表示面部和身体动作,并使用神经渲染器将其渲染成完整的纹理化角色。面部和身体动作具有不同的动态特征,因此使用了两个不同的运动模型来生成它们。面部运动模型是一个扩散模型,以输入音频和唇部顶点为条件。身体运动模型分为两部分:一个自回归音频条件变换器预测粗略的姿势,然后由扩散模型填充细节和高频运动。
面部运动扩散模型
本文提出了一种基于音频输入的面部运动生成方法,使用音频条件扩散模型来生成面部运动。模型通过交叉注意力层和特征调制层来整合音频和唇部顶点信息。模型训练采用简化ELBO目标函数,并使用分类器无指导的训练方法。实验结果表明,使用音频和唇部顶点信息可以显著提高唇语同步质量。
身体运动模型
为了生成身体动作,我们通过引入以1fps采样的引导姿势作为额外的条件来扩展条件扩散模型。这使我们能够建模更具表现力的动作。类似于仅依靠音频时面部模型无法生成准确的嘴唇动作,我们发现仅依靠音频时身体模型生成的动作不够真实且多样性有限。
为了在30fps下生成全身动作序列,我们使用引导姿势对原始30fps的身体姿势序列进行子采样。身体动作扩散模型与面部动作扩散模型相同,但是在条件上使用了子采样的引导姿势。在推理时,无法获得真实的引导姿势,需要生成它们。
引导姿态生成。为了在推理时生成引导姿势,我们训练了一个自回归变换器,以输出符合对话动态的1fps粗略关键帧。我们使用残差VQ-VAE对1fps的引导姿势序列进行量化,然后使用音频条件变换器预测下一个标记的分类分布。我们使用交叉熵损失训练变换器,并使用核心采样预测运动标记序列。我们可以通过增加或减少累积概率来轻松控制样本之间的变异程度
逼真的角色渲染
模型以面部表情和身体姿势序列作为输入,输出注册几何和视角相关纹理,通过光栅化合成图像。模型是一个条件变分自编码器(cVAE),由编码器和解码器组成,均由卷积神经网络参数化。cVAE以多视角捕获的主体图像为训练数据,以监督方式进行端到端训练。每个主体都有一个个性化的角色渲染器。
逼真对话数据集
本文介绍了一个中等规模的数据集,包含了四个人之间的对话,共计8小时的视频数据。该数据集提供了全面的面部、身体和手部的三维骨架重建,以及音频和多视角原始视频素材。此外,该数据集还提供了全面的照片级别渲染,以更好地评估手势运动。为了创建这些照片级别渲染,作者使用了多视角捕捉技术,同时捕捉了两个人的面部、身体和手部运动。作者将公开发布该数据集的音频、视频、预计算的关节角度、面部表情代码和训练好的个性化渲染器。
实验
本文评估了模型在生成逼真的对话动作方面的能力,并通过跟踪的真实数据进行了定量测量。同时进行了感知评估,结果表明评估者对于在逼真的头像上呈现的微妙手势更为敏感。此外,还发现在头像上呈现的手势比在3D网格上更具多样性和逼真度。
实验设置
评价指标。使用一组指标来衡量生成运动的真实性和多样性。
- FD g:由生成和真实静态姿态之间的分布距离衡量的“几何”真实感。我们直接计算表达式R df和姿态空间R d j × 3中的Frechet距离(FD)。
- FD k:“动态”运动现实主义。与上述类似,但在运动序列的速度分布计算表达式R T×df和姿态空间R T × dj × 3。
- Div g:“几何”姿势多样性。我们随机采样一个运动序列中的30个表情和姿态对,并计算对之间的平均L2距离,以衡量集合中静态表情/姿态的多样性。
- Div k:表情/姿势序列的时间变化。按顺序测量运动的量。
- Div sample:不同样本之间的多样性。我们对同一音频生成的样本进行分组,并计算样本之间的方差。
基线和消融。我们与方法进行比较:
- 随机:训练集中的随机运动序列。
- KNN:一种通常用于合成的分段搜索方法。给定输入音频,从训练集中找到其最近的邻居,并使用其相应的运动段作为预测。我们使用来自Wav2Vec的音频特征对音频进行编码。
- SHOW:基于VQ-VAE的方法,使用transformer自回归输出以扬声器音频为条件的运动。他们有脸、身体和手的不同模型。考虑到SHOW是在独白上训练的,我们为我们的领域重新训练他们的模型。
- LDA:独白环境下训练的音频到运动扩散模型。我们重新训练以适应我们的领域。
- 我们的Uncond:(消融)没有音频或引导姿势条件的无条件运动生成。
- 我们的w/o P:(消融)音频条件运动扩散没有引导姿态条件。类似于LDA。
- 我们的w/o A:(消融)引导姿势条件运动扩散模型,但没有音频条件。类似于扩散填充方法。
结果
通过定量评估,所提出方法输出的真实运动比竞争的基线更多样化。在Mechanical Turk A/B评估中,证明了所提出方法产生了令人信服和合理的手势,始终优于最强的基线。
定量的结果。表1显示,与之前的工作相比,所提出方法在生成多样性最高的运动的同时取得了最低的FD分数。在图5中,展示了该方法生成的向导姿态的多样性。通过基于矢量量化的transformer P进行采样,可以在相同的音频输入条件下产生明显不同的姿态风格。扩散模型学会产生动态运动(图6),其中运动忠实地遵循对话音频。本方法实现了更好的真实感和多样性。在序列中,我们的方法产生更多的运动,导致更高的Div k。图7强调了这一点,本方法合成了与真实情况密切匹配的运动变化。
我们的消融证明了我们的设计决策。在没有任何条件的情况下应用我们的方法(我们的Uncond),性能明显更差,具有类似于随机的真实感和方差。仅音频调节(我们的w/o P)比无条件生成有所提高,其性能类似于LDA。通过预测的引导姿势引入的从粗到细的范式,有助于增加扩散结果的多样性。
此外,还分析了该方法生成唇动的准确性。在表2中,我们分别计算了代表嘴巴上下角和左右角的两对关键点之间的垂直和水平距离。我们的方法大大优于没有预训练唇回归器的消融方法。
感知评价。我们在Amazon Mechanical Turk上进行了两种不同的A/B测试。首先,评估者在一个通用的无纹理网格上观看运动渲染。在第二组实验中,他们观看了逼真角色的运动视频。
我们的方法明显优于最强的基线LDA,约70%的评估者在网格和照片真实设置中都倾向于我们的方法。有趣的是,当以逼真的方式可视化时,评估者对我们的偏好从轻微到强烈。当我们将我们的方法与真实值进行比较时,这种趋势将继续。虽然所提出方法在基于网格的渲染中与真实值具有竞争力,但在真实图像领域却滞后,43%的评估者强烈倾向于真实值。实验结果表明,逼真性对准确评估对话动作至关重要。
总结
本文介绍了一种基于音频条件的生成对话手势的方法,结合了向量量化和扩散的优点,生成更具表现力和多样性的动作。作者使用了一个新的多视角、长形式对话数据集进行训练,可以进行逼真的重建。该方法可以产生准确匹配对话动态的多样化面部、身体和手部动作。作者还强调了逼真性在评估细粒度对话动作方面的重要性。
局限性和伦理考虑。模型仅适用于短程音频,无法生成需要长程语言理解的手势,例如计数。此外,该工作仅限于数据集中的四个主题的逼真生成,以解决伦理问题。作者希望通过发布完全参与者同意的数据集,为研究人员提供在伦理环境下探索逼真动作合成的机会。
评论0