“GenZI: Zero-Shot 3D Human-Scene Interaction Generation”
给定任意 3D 场景,GenZI 利用视觉语言模型(VLM)的强大能力,可以根据简短的文本描述在指定位置合成与 3D 环境交互的虚拟人,无需任何3D人体-场景交互训练数据或 3D 学习。
项目主页:https://craigleili.github.io/projects/genzi/
论文地址:https://arxiv.org/pdf/2311.17737.pdf
摘要
文本介绍了一种名为GenZI的零样本方法,可以生成3D人物与场景的交互。GenZI的关键在于从大型视觉语言模型中提取交互先验,这些模型已经学习了丰富的2D人物-场景组合的语义空间。给定自然语言描述和3D场景中所需交互的粗略点位置,GenZI首先利用VLM想象出可能的2D人物交互,然后通过迭代优化来合成场景中3D人物的姿态和形状,以与2D交互假设一致。与现有的基于学习的方法不同,GenZI避免了捕获3D交互数据的传统需求,并允许使用易于使用的文本提示灵活控制3D交互合成。广泛的实验表明,我们的零样本方法具有高度的灵活性和普适性,适用于各种场景类型,包括室内和室外环境。
简介
GenZI是一种新的零样本方法,用于生成人与3D场景的交互图像。该方法利用最近的视觉语言模型来合成人类交互的2D图像,并引入了一种强大的优化方法,将推断出的2D姿势信息转化为3D人类合成。与现有的HSI合成方法不同,该方法不需要使用任何捕获的3D交互数据,因此具有更广泛的适用性和泛化能力。
GenZI可以根据自然语言提示生成与3D场景互动的逼真的3D人物。它利用VLM生成可能的2D人物,并通过动态遮罩方案自动更新提出的遮罩,无需手动指定人物的遮罩区域。然后将这些2D交互假设转化为3D,并通过优化生成与2D姿势指导最一致的参数化3D人体模型。最后通过迭代VLM的2D填充和鲁棒的3D转换阶段来进一步改进生成的3D人物。GenZI在各种类型的3D环境中展示了其灵活性和普适性。
相关工作
3D人-景交互合成。现有3D人物场景交互合成的方法主要依赖于从可用的扫描数据中学习先验知识,但这些数据很难获取和标注。因此,本文提出了一种利用大型视觉语言模型进行人物场景交互合成的方法,避免了数据获取和3D学习的需求。
基于RGB图像的三维人体估计。近年来,基于学习的方法在单目图像中进行3D人体估计方面受到了广泛关注,特别是在改进手部和面部估计方面。我们的工作利用了多个不同的2D视角假设的2D姿势推理,并提出了一种稳健的3D公式,将各种2D假设聚合到与3D场景交互的一致的3D人体中。我们的方法利用这些模型的2D生成能力来传达关于可能的人-场景交互的信息,然后将其提升到一致的3D交互。
方法
概述
GenZI是一种基于优化的多视角方法,利用大型VLM推断人与场景之间的空间关系,从而合成与场景交互的逼真3D人物。GenZI采用SMPL-X来参数化3D人物,通过优化全局方向、全局平移、身体姿势和身体形状等参数,生成在场景中执行指定动作的3D人物。GenZI通过2D人体修复和鲁棒的3D提升,从VLM中提取信息,合成3D人物与场景之间的交互。GenZI的优点是不需要3D交互数据捕获,可以在没有3D交互数据的情况下进行学习。
多视图交互假设修复
首先,利用VLM自动将人类修复到多个渲染的视图中,生成场景中潜在的人类交互的2D假设。
多视点渲染。为了获取场景上下文并用于2D人体修复,利用k个虚拟摄像机观察p个摄像机,绘制场景的多个视图。我们参考补充材料的额外相机设置的细节。
动态掩码修复。给定一个渲染的场景图像I和文本提示Γ,利用最先进的潜2D扩散模型来生成一个新图像,其中一个人被修复到场景图像中,同时坚持指定的交互和2D场景上下文。
隐扩散模型通过在每个时间步t逐步去噪一个带噪的隐zt来进行图像修复。在去噪扩散过程中,二进制掩码M定义图像I中的修复区域。通过自动生成掩模,开发了一个全自动的修复过程。
本文提出一种掩码方案,通过利用Ω的内部交叉注意力图来提出掩码,通过去噪过程动态适应掩码。交叉注意力图捕捉了图像像素和输入文本标记之间丰富的语义关联,在指导图像生成方面发挥着至关重要的作用。
在扩散过程的每个时间步骤t使用交叉注意力图,可以动态推导出与人类标记相关的掩码。
3D交互的鲁棒提升
我们的目标是在多视图交互线索的指导下,优化3D人体B的姿态和形状参数。我们通过将B与从{¯I I}中提取的2D姿态进行匹配来优化B。由于2D假设在不同视图之间可能不一致,将其表述为一种鲁棒优化,同时对与B最一致的视图集进行优化。
2D姿态估。计为了提取3D HSI合成的交互指导,我们计算了每个图像中修复的人体的2D姿态表示¯I I。我们使用AlphaPose,为图像中的人体受试者推断一组2D关节位置和相应的关节置信度分数。
然后,这些2D姿态假设用于指导3D人体B和场景s之间的交互合成。我们的目标是最小化以下目标函数E:
鲁棒的视图一致3D姿态拟合。主要损失项最小化了B的3D姿态的投影和来自多个视图的修复姿态之间的差异。然而,由于扩散模型的随机性,2D姿态假设在不同的视图之间往往不一致,导致b的优化信号冲突。为了解决这个问题,采用了一种鲁棒的优化策略,对视图进行额外优化
因此,引入了一组新的可优化变量表示视图一致性分数,并将鲁棒核ρ应用于每个视图的联合拟合约束。权重w允许求解器自适应地关注具有一致修复姿态的视图,并降低不一致姿态的权重。具有视图一致性的姿态拟合损失公式如下:
正则化。下面,我们描述在优化中采用的正则化项。
1)我们鼓励每个视图的权重w至少关注τ个视图:
2)为了确保自然的3D姿态,我们在身体姿态参数上施加以下损失项:
第一项是身体先验正则化潜在姿态Θ,第二项是对身体关节旋转的简单角度先验Θˆ。
3)通过正则化形状参数Φ获得合理的人体形状:
测量Φ与SMPL-X中使用的体型分布之间的马氏距离。
4)为了确保3D人体B和场景S之间的物理接触,同时避免两者之间的渗透,我们将空间约束表述为:
其中Ψ是场景s的预先计算的有符号距离场(SDF)。当Ψ (v)具有负号时,表示体顶点v位于最近的场景内部。
5)为了解决人体B内部的穿透问题,提出了一种基于BVH检测碰撞体三角形的自穿透损失。
迭代优化
为了提高合成和一致性,我们采用了迭代的修正方案,并使用更精确和一致的掩模来替换动态掩模。通过这种方法,2D姿势假设的一致性逐渐提高,从而导致改进的3D HSI合成结果。
实现细节
在基于VLM的2D修复中,使用了16个摄像头进行多视角渲染。在稳定扩散修复中,使用了50个去噪步骤,并使用了最先进的扩散采样器。在修复过程中,使用了分辨率为16×16的交叉注意力图进行动态遮罩。输入的文本提示被添加了固定的前缀和后缀,以更好地约束生成过程。在稳健的3D提升中,设置了参数τ=3,并使用梯度下降法对能量函数进行了优化。在迭代改进中,使用了11×11的卷积核对渲染的人体轮廓进行膨胀,然后进行一次改进。
实验
我们在Sketchfab.com上的多样化3D场景模型集合上展示了我们的方法的有效性和普适性。我们进行了定量和定性评估,将GenZI与替代基线方法进行比较。
数据集。Sketchfab数据集包括8个大规模的3D场景,涵盖了各种室内和室外环境,包括一个逼真的威尼斯城市、一个健身房和一个卡通风格的食品车。我们为每个场景收集了4-5个文本提示,描述了人类与场景的交互,以及指定的近似点位置,共计38个动作进行评估。
基线。GenZI不需要任何3D场景分割,因此我们将其与相关基线方法进行比较:
-
COINS是一种最先进的方法,在给定对象分割的情况下,用固定的动作和对象词汇表在室内3D扫描中估计3D人类。
-
《Resolving 3D human pose ambiguities with 3D scene constraints》从单个RGB图像进行3D人体估计。为了使其适应Sketchfab,重用了动态掩蔽方案中由人类修复的多视角场景图像,其中具有最佳图像-文本余弦相似度的视图被用作已知虚拟相机参数下3D人体估计的输入。
-
我们的单视图:考虑利用所提出方法中的3D人体估计的基线,但仅限于一个修复视图。如上所述,同样的最佳视角图像也作为该基线的输入。
评价指标。为测量3D HSI质量,进行了感知研究,并计算了包括语义一致性、多样性和物理合理性在内的指标。
首先进行了两项感知研究,以评估合成交互的真实性和语义准确性。第一种是二元选择研究,展示基于相同文本提示的两种不同方法生成的交互样本,并要求参与者选择更真实、更匹配文本的样本。第二项研究是一元测试,对于每个交互样本,参与者被要求从1(非常不同意)到5(非常同意)对所示样本和文本提示之间的真实性和一致性进行评分。
为评估合成3D交互和输入文本提示之间的语义一致性,计算CLIP得分,其中3D交互被重新渲染为k个视图图像,并对所有视图中来自CLIP ViT-B/32的图像-文本余弦相似性进行平均。
还包括来自现有工作的定量指标,以评估多样性和物理合理性。
与其他方法的比较
定量评价。图4显示了通过二元研究和一元研究从30名参与者中收集的知觉研究的结果。在二元研究中,我们观察到,与所有基线相比,参与者压倒性地支持我们的GenZI生成的代-超过87%的时间。在一元测试中,我们交互世代的平均现实主义评级是3.6,与基线相比最高,均低于2.0。这些感知结果强烈表明,GenZI可以合成逼真的3D人类,与各种3D场景进行交互,而不需要任何捕获的3D交互数据。
定性评估。我们在图5中展示了定性比较。COINS受到室内交互封闭集的训练的严重限制,因此无法泛化到室外场景和未见过的物体(例如,在训练期间不存在弯曲的地板,以及有限的椅子高度和形状集)。由于Hassan等人和我们的单视图从单个视图操作,它们都受到来自其他视图的姿态约束不足,无法进行合理的交互生成。GenZI通过利用大型vlm来想象多视图交互假设,然后是鲁棒的3D提升,对各种3D室内和室外场景表现出了高度的灵活性和通用性。
消融分析
本文通过消融实验验证了我们提出的动态遮罩方案、具有视角一致性的鲁棒三维提取和迭代细化的有效性。结果表明,动态遮罩能够有效地融入足够的场景上下文进行人体修复。视角一致性对于鲁棒的三维提取起到了重要作用,通过自适应地关注具有一致修复的视角,生成更真实的三维人体姿势。迭代细化能够提高合成质量。然而,我们的方法受到潜在扩散模型修复能力的限制,而且由于迭代的性质,推理时间较慢。尽管如此,我们相信随着可变长度模型的快速发展,我们的方法可以从中受益,实现更好的人体场景交互合成。
总结
本文介绍了一种基于文本输入的3D人-场景交互合成方法,通过从大型视觉-语言模型中提取知识,可以在不需要任何3D交互数据的情况下生成3D人物场景。该方法利用强大的视觉-语言模型生成2D人-场景交互假设,并通过优化将其提升到3D,同时优化最具信息量的2D假设。该方法灵活,适用于各种场景设置和行为。这为3D理解提供了新的机会,无需昂贵的3D/4D数据捕捉。
灵度智能,我们致力于提供优质的AI服务,涵盖人工智能、数据分析、机器学习、深度学习、强化学习、计算机视觉、自然语言处理、语音处理等领域。提供AI课程、AI算法代做、论文复现、远程调试等服务。如有相关需求,请私信与我们联系。
我们的愿景通过创新创意和智能技术为客户提供卓越的解决方案,助力产业升级和数字化转型。我们的产品和服务将引领行业标准,创造卓越的用户体验。我们的团队致力于创造更智能、更便捷和更高效的生活方式,推动社会进步,致力于创造更美好的未来。
关注【灵度智能】公众号,获取更多AI资讯。
评论0