“SCENEVERSE: Scaling 3D Vision-Language Learning for Grounded Scene Understanding”
论文地址:https://arxiv.org/pdf/2401.09340.pdf
Github地址:https://github.com/scene-verse/sceneverse
摘要
本文提出了第一个百万级别的3D视觉语言数据集SCENE VERSE,其中包含约68K个3D室内场景和250万个视觉语言对。作者还提出了一种统一的预训练框架Grounded Pre-training for Scenes (GPS),并通过实验展示了其在现有3D视觉基础测试中的最新成果。作者还通过零样本转移实验展示了SCENE VERSE和GPS的巨大潜力。
简介
人类认知发展的基础在于将语言与物理世界联系起来。大型语言模型(LLMs)的进展促进了视觉和语言之间的对齐,但对于3D场景的理解仍处于初级阶段。3D数据收集比2D图像更复杂和昂贵,导致3D数据集规模相对较小。为了解决这些挑战,提出了SCENE VERSE,第一个百万规模的3D-VL数据集,用于推进基于场景的理解。使用SCENE VERSE进行大规模预训练可以显著提高性能,并在零样本迁移设置中展示了潜在的广泛应用。
同时,本文提出了GPS模型,通过多级对比对齐实现了在所有现有3D-VL基准测试中的最佳结果。通过大量实验证明了SCENE VERSE的数据规模效应,并指出了未来的研究方向。
相关工作
3D场景理解数据集。在3D对象建模方面,常用数据集包括ShapeNet、Objaverse等,在这些数据集上训练的模型显示出对对象的更好理解,这在分类、生成和标题任务中表现得很明显。相比之下,由于对场景采集和注释的广泛要求,开发基于3D场景理解的数据集更具挑战性,现有的工作包括ScanRefer、ReferIt3D、ScanQA、SQA3D、Multi3DRefer、Cap3D、ScanScribe等。然而,这些数据集在场景和语言尺度上都受到很大限制,这强调了扩大细粒度场景语言对齐数据以增强基础场景理解的必要性。
视觉-语言学习。在基于场景的理解中,模型面临的主要挑战是配对3D场景语言数据的有限可用性,这限制了从2D-VL获得的见解的应用。为了弥补这一差距,人们越来越强调在3D-VL中使用预训练的2D-VL模型。尽管如此,这些模型主要利用2D-VL模型提供的信息(例如,对象属性,可视性等),无法捕获关键信息,如对象空间关系,这些信息只能通过3D数据获得。这促使语言和3D场景之间需要多层次的对齐,特别是关于3D特定信息。考虑到现有3D预训练方法的初级阶段,我们认为SCENE VERSE和GPS有潜力引领3D- VL研究的新途径。
SCENE VERSE
SCENE VERSE是第一个百万级别的数据集,用于场景理解。它包含了来自真实和合成环境的多样化的3D场景。通过使用3D场景图和LLMs,我们引入了自动化流程,生成了全面且高质量的物体级和场景级描述语言。此外,我们还整合了迄今为止最广泛的人工注释物体引用,为该领域提供了新的训练资源和基准。
场景管理
SCENE VERSE整合了多个现有的真实和合成 3D 场景数据集。为了保证数据的一致性,进行了多项预处理步骤,包括房间分割、点采样、坐标轴对齐、标准化和语义标签对齐。最终,SCENE VERSE 包含了 68,406 个 3D 场景。
构造3D场景图
场景图由节点和边组成,节点表示3D物体实例,边表示物体之间的空间关系。场景图的构建包括节点实例化和空间关系确定。空间关系包括垂直接近、水平接近和多物体关系。节点的层次结构由支撑关系决定。空间关系的确定经过自动验证程序。
使用LLMs进行语言生成
SCENE VERSE中的场景-语言对旨在捕捉3D场景的不同方面,包括对象描述、对象引用中的空间关系和场景描述。通过使用模板和LLMs,基于3D场景图自动生成这三个粒度的描述。对象标题旨在提供对象的详细描述,利用点云识别对象在图像中的出现,并通过BLIP2生成初始对象标题。然后选择具有最高CLIP相似度分数和最小遮挡的前10个句子来完善标题,并通过LLM获得标题的连贯摘要。在此过程中,明确指示语言模型识别和纠正潜在错误。
对象引用是通过描述对象在场景中的空间关系来生成的,使用了不同的模板来生成不同类型的关系描述。场景描述强调了全局信息,展示了场景中的关键对象以及它们的属性和功能。为了增加场景描述的多样性,使用了子图采样策略来随机选择一部分边和节点作为场景上下文。在生成描述时,还可以使用房间类型和对象属性等注释信息作为提示。为了提高描述的自然度,使用了语言模型进行句子重述。
人工标注
SCENE VERSE是一个包含自动生成的场景-文本对以及人工标注的对象引用的数据集。人工注释包含了96,863个描述,用于评估场景理解能力。每个对象引用都经过两个评审人员的独立验证,未通过验证的引用需要重新注释。
数据统计
SCENE VERSE数据集包含68,406个房间级别的3D扫描和1.5M个物体实例,其中包括21种关系类型。使用LLM和GPT-3.5生成了1M个模板文本和1M个句子。经过人工验证,自动语言生成管道的有效性得到了验证。
场景理解预训练
GPS是一个基于Transformer的模型,使用多级对比损失训练,用于对齐3D场景和文本。GPS在物体级别、参照物体级别和场景级别收集语言描述,形成场景-语言对,用于对比目标。
对象级别理解
给定一个3D场景点云S,我们使用一个现成的3D对象分割模型将其分解为N个对象S。我们通过对象点云编码器提取对象特征tfiOu,并通过将对象标题输入到冻结的语言模型中提取文本特征tfiTu。我们通过对象特征和文本特征进行跨模态对齐:
遍历训练批次中的所有对象-文本对。与CLIP类似,我们使用可学习的温度参数τ来促进模型学习。
场景级别理解
通过将对象空间位置特征与提取的对象特征相结合来编码场景。同时,通过投影层和最大池化对所有对象特征进行场景级别的对齐,并使用可调整的语言模型将场景标题转换为文本特征进行对齐。最后,通过对齐的场景-文本对进行对比学习来提高模型性能。
引用对象级别理解
Transformer通过自注意力机制学习文本描述和物体关系之间的关联。作者使用可调节的语言编码器提取每个物体的特征,并将这些特征与场景物体特征一起输入Transformer,得到对齐的物体特征和句子级别的指代特征。然后,作者根据一种对齐度量函数进行指代-物体级别的对比对齐。为了实现细粒度的物体指代,作者强制选择正样本对在同一场景中进行,以提供场景内的对比。此外,作者还介绍了学习三维场景和语言之间多层次对齐的方法,并提到了训练过程中使用的损失函数。总的来说,这段文字介绍了一种用于场景中物体指代的推理Transformer,并介绍了其训练方法和对齐策略。
实验
本文评估了SCENE VERSE和GPS在3D视觉语言任务中的效果和潜力。评估结果回答了以下问题:1. SCENE VERSE中的数据缩放对3D视觉语言任务的有效性如何?2. GPS预训练管道的效果如何?3. SCENE VERSE和GPS为未来研究提供了哪些潜力?
3D场景理解
我们使用SCENE VERSE数据集对GPS进行了训练,并在三个常用的3D-VL数据集上进行了评估。结果表明,GPS在所有现有的3D-VL基准测试中均取得了最先进的结果。作者还发现,当GPS直接在基准数据集的训练集上进行训练时,其性能不如现有模型。但是,当GPS在SCENE VERSE上进行了大量训练后,其结果显著提高,并且已经在像ScanRefer这样的基准测试中取得了最先进的结果。此外,作者还发现,只需在预训练模型上添加一个简单的投影MLP,就可以在数据集特定的微调模型上实现一致的优异表现。这些结果突显了SCENE VERSE和GPS在3D-VL任务中的强大潜力。
零样本迁移
我们使用了一个新的数据集SCENE VERSE,该数据集包含了超过100,000个三维场景和物体的注释。作者还进行了零样本迁移实验,结果表明该方法在四个基准测试中表现出色。作者的方法与最近的预训练模型3D-VisTA进行了比较。GPS模型在未见过的场景中表现出比3D-VisTA模型更好的泛化能力,特别是在零样本迁移场景中表现更佳。SCENE VERSE数据集可以显著提高3D-VL grounding的能力,特别是在提供相对有限的训练数据时。自动产生的场景-文本对对于理解场景分布有很大的帮助,可以显著提高零样本文本设置下的性能。
消融分析和讨论
数据缩放对模型性能有重要影响,增加数据规模可以提高模型在预训练和零样本迁移设置下的性能。使用基于模板的生成文本和大型语言模型(LLM)精炼文本训练的模型在ScanRefer数据集上表现显著优于仅使用ScanRefer训练的模型,并且已经达到了先前基线的最新结果。添加人工注释数据仍然有益于模型性能,但相对于使用生成数据训练的模型,改进相对较小。
本文研究了在三维视觉语言任务中,合成场景在规模扩大过程中的作用。通过使用大规模、多样化的合成数据,评估模型的领域转移能力。结果表明,仅仅增加场景数量是不够的,还需要保证场景的自然性和质量。因此,收集多样化、高质量、真实的场景是进一步扩大三维视觉语言任务的关键。
总结
本文介绍了 SCENE VERSE 数据集和 Grounded Pre-training for Scenes 模型,用于在场景理解中扩展 3D-VL。SCENE VERSE 数据集包含多个场景和多级场景描述,通过人工注释和文本生成方法获取。Grounded Pre-training for Scenes 模型通过多级场景-语言对齐训练,实现了所有现有 3D-VL 推理任务的最佳结果,并在零样本迁移实验中展示了比以前基线更好的泛化性能。这些工作为 3D-VL 研究开辟了新的研究范式。
评论0