3D Copy-Paste：单目3D场景物体插入

“3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection”

单目3D目标检测的一个主要挑战是真实数据集中目标的多样性和数量有限。本文研究用虚拟物体增强复杂的真实室内场景，用于单目3D目标检测。主要挑战是在杂乱的真实场景中自动识别虚拟资产的合理物理属性(例如，位置、外观、大小等)。为应对这一挑战，本文提出一种物理上合理的室内3D物体插入方法，以自动复制虚拟物体并将其粘贴到真实场景中。场景中产生的物体具有合理的物理位置和外观的3D边界框。

项目主页：https://gyhandy.github.io/3D-Copy-Paste/

论文地址：https://arxiv.org/pdf/2312.05277.pdf

Github地址：https://github.com/gyhandy/3D-Copy-Paste

摘要

本文研究了在复杂的室内场景中使用虚拟物体增强现实场景以提高单目三维物体检测的性能。作者提出了一种物理可行的室内三维物体插入方法，可以自动将虚拟物体复制并粘贴到真实场景中，从而提高数据集中物体的多样性和数量。该方法首先确定插入物体的物理可行位置和姿态，然后估计插入位置的空间变化照明，使虚拟物体与原始场景融合，具有合理的外观和投影阴影。实验结果表明，该方法可以显著提高单目三维物体检测的性能，为后续任务提供了更好的数据增强技术。

简介

室内3D物体检测方法在机器人和增强现实等应用中显示出了很好的结果。然而，现有真实数据集中物体的多样性和数量有限，可能限制了这些方法的应用。数据增强技术在2D检测和分割任务中被广泛使用，但将2D增强方法扩展到3D场景是非常困难的。本文提出了一种新的方法，即3D复制粘贴，用于室内场景的3D数据增强。我们利用现有的大规模3D物体数据集，将模拟的3D物体复制并粘贴到真实场景中。为了解决物体插入的挑战，我们采用了三个步骤：分析场景，确定适合插入3D物体的平面；估计物体的姿态和大小，避免碰撞；估计空间变化的照明，为插入的物体渲染逼真的阴影和光照。我们的方法通过将大规模3D物体数据集与现有的室内场景数据集相结合，实现了新的数据增强。在SUN RGB-D数据集上训练的单目3D物体检测模型在这个增强的数据集上取得了最新的性能。我们系统地评估了插入物体的物理位置和照明对最终单目3D物体检测模型性能的影响。结果表明，物理上合理的3D物体插入可以作为一种有效的生成数据增强技术，提高单目3D物体检测等判别性下游任务的性能。

本文提出了一种新的室内物体插入技术——3D Copy-Paste，可以自动生成大规模的带注释的3D物体。该方法确保了物体在场景中的物理位置、大小、姿态和照明的合理性。同时，通过使用该技术增强数据集，训练单目3D物体检测模型可以获得最先进的性能。作者还对插入物体的位置和照明对下游单目3D物体检测模型性能的影响进行了系统评估。该研究为提高3D物体检测任务的准确性提供了有价值的洞见。

相关工作

单目3D目标检测

单目3D物体检测是通过单个2D图像估计物体的3D位置、方向和尺寸（3D边界框）。它在自动驾驶、机器人技术和增强现实等领域具有潜在应用。在驾驶场景中有许多单目3D检测的研究，如3DOP、MLFusion、M3D-RPN、MonoDIS、PseudoLiDAR、FCOS3D、SMOKE、RTM3D、PGD和CaDDN。几何方法：MV3D利用基于LiDAR的点云和图像的几何线索进行3D物体检测。Mousavian等人通过几何约束从2D边界框回归物体属性，如尺寸、方向和位置。在室内场景中，多任务学习得到了广泛应用。PointFusion等最近的研究将3D物体检测与深度估计或语义分割等任务相结合，以提高性能。Total3D和Implicit3D使用端到端的解决方案从单个图像中联合重建房间布局、物体边界框和网格。ImvoxelNet通过使用图像体素投影实现了最先进的性能。

3D数据增强

3D数据增强对于提高各种3D感知任务的性能至关重要。目前大部分工作都集中在室外场景上。数据增强方法包括几何变换、点云增强和基于生成模型的增强。3D生成模型可以实现对象级别的增强，但不适用于场景级别的增强。2D生成模型可以产生高度逼真的图像，但不能提供物理上合理的3D标签。3D常见的破坏可以用于生成2D数据集的真实世界破坏，但不支持3D检测，因为它不会引入新的3D对象内容。

光照估计

研究者们提出了不同的方法，如单图像反渲染、可微分光线追踪和深度学习室内照明估计等，以提高室内场景的照明估计精度和效率。此外，还有一种名为神经光场估计的方法，可以有效地模拟街景中复杂的照明条件，用于虚拟物体插入。

方法

本文提出了一种室内三维物体插入方法，包括确定插入位置、姿态和大小，避免与现有物体碰撞；估计场景的光照和渲染插入的物体；使用插入的物体创建增强数据集并训练单目三维物体检测模型。该方法可以生成真实感强的室内场景。

位置和方式：物理上合理的位置、姿势和大小估计

在插入物体时，避免碰撞的第一个挑战是估计物体的位置、姿态和大小参数。需要考虑物体的物理特性，以确保估计的参数是合理的。

地平面选择

首先进行平面重建，识别场景中可用的区域，然后估计物体的位置、大小和姿态。通过使用聚类和区域生长等方法提取平面，再利用全局优化方法进行平面优化和重建，最终选择合适的水平平面插入物体。

有约束的插入参数搜索

为了解决物体放置的问题，我们估计了具体的插入参数：位置（p）、大小（s）和姿态（o）。我们提出了一种高效的受限插入参数搜索算法来计算合理的插入参数，同时避免与场景中现有物体的碰撞（算法1）。给定重建的地板平面，我们首先确定每个参数的搜索空间。对于位置，我们希望插入的物体与地板接触，因此我们找到物体的3D边界框，并计算底部表面的中心点（p）作为位置的优化参数。为了防止插入的物体与原始场景中的现有物体发生潜在碰撞，我们在重建地板的中心周围搜索合适的位置。如图2(b)所示，我们首先计算地板的中心c ← (c x , c y , c z )，并设置一个搜索正方形，其宽度和长度分别为地板在X轴和Y轴上的标准差的两倍，σ x 和σ y 。插入位置从搜索正方形内的均匀分布中采样 p x ∼ U[c x − σ x , c x + σ x ] 和 p y ∼ U[c y − σ y , c y + σ y ]，p ← (p x , p y , c z )。对于大小（s），我们使用物体的3D边界框的高度作为优化参数。对于每个物体类别，我们首先计算原始场景数据集中属于同一类别的物体高度的平均值 m h 和标准差 σ h 。然后我们假设高度大小遵循正态分布，并从该正态分布中采样一个高度大小：s ∈ N(m h , σ h )。对于姿态（o），我们只允许物体沿Z轴旋转以保持其稳定性。优化参数是沿Z轴的旋转角度，其遵循均匀分布 o ∼ U[ − π, π ]。

本文介绍了一种基于约束插入参数搜索算法的物体插入方法。该算法通过随机采样物体的位置、大小和姿态等参数，并计算插入物体的边界框，检查与现有物体的碰撞情况，并量化评估碰撞程度。为了加速碰撞检测，该算法将三维碰撞转化为二维碰撞，利用高效的碰撞检测方法，可以在较短时间内完成大量搜索。该算法还考虑了插入物体的缩放因子，以适应不同的场景。在搜索过程中，如果找到了一个碰撞得分为0的插入位置，则终止搜索并返回该位置。否则，继续跟踪得分最低的插入位置，并在完成一定数量的搜索后返回。

物体上的光照是怎样的

空间变化光照估计与检索

通过深度逆渲染框架来估计场景的空间变化照明，并将其表示为环境贴图。首先，估计中间几何特征，然后使用LightNet结构来估计场景中的空间变化照明。估计的照明以环境贴图的形式表示，每个4×4像素区域与一个环境贴图相关联。为了获取插入对象位置的环境贴图，需要进行位置估计和参数搜索。

环境地图精化

为了在渲染器中重新照明插入的对象，需要将环境贴图转换为与渲染器的坐标系对齐。估计的环境贴图只包含纬度范围在(0, π /2)之间的值，需要通过填充人工值来完成整个环境贴图。估计的环境贴图是低动态范围格式，需要通过调整比例来估计高动态范围值。最终将转换和精细化后的HDR环境贴图与位置、大小和姿态一起输入插入渲染器，以获得带有3D边界框的插入图像。

通过插入和下游模型训练进行数据集增强

给定一个室内场景数据集和一组感兴趣的类别C，我们可以识别出属于这些感兴趣类别的外部3D对象集合E。在插入之前，我们计算每个感兴趣类别的统计参数，以指导外部对象的插入。对于每个室内场景，我们随机选择一个感兴趣类别C中的类别j。然后，我们从外部3D对象集合E中随机选择一个属于选定类别j的实例。接下来，我们使用物理可行的插入方法将这个外部3D对象整合到场景中。由于我们自动获得了插入对象的3D注释，我们可以使用增强的数据集来训练任何下游的单眼3D物体检测模型。

实验

数据集和模型设置

室内场景数据集。SUN RGB-D数据集是室内场景理解中最具挑战性的基准之一，包含10,335张RGB-D图像和146,617个2D多边形和58,657个3D边界框。ScanNet数据集是一个大规模的RGB-D视频数据集，包含1,201个训练集视频和312个验证集场景。

外部3D对象。我们使用Objaverse数据集中与SUN RGB-D类别对应的3D对象。

单目3D目标检测模型。我们使用ImVoxelNet模型进行单目3D物体检测，该模型在原始SUN RGB-D数据集上取得了最先进的性能。通过不同的插入方法对原始SUN RGB-D数据集进行增强，并在这些增强版本上训练ImVoxelNet模型。

物理上合理的位置、姿态、大小和光照会带来更好的单目检测性能

实验结果表明，使用3D Copy-Paste可以提高模型性能，特别是在应用物理约束和动态光照的情况下，可以达到新的最优性能。该方法可以作为一种有效的数据增强方法，有助于提高3D物体检测的性能。

表4展示了在ScanNet数据集上进行单目3D物体检测的结果。我们使用每个视频的一个RGB-D图像进行训练和验证，其中训练集有1,201个图像，验证集有312个图像。我们根据提供的场景级标签为每个视角计算了真实的3D边界框标签。对于基准模型，我们在训练集上训练了一个ImVoxelNet单目3D物体检测模型，并在验证集上进行测试。对于我们的方法，在ScanNet的18个类别中，我们的Objaverse数据中有8个重叠的类别（沙发、书架、椅子、桌子、床、写字桌、马桶、浴缸）。我们使用我们的3D复制粘贴来增强训练集，并训练了一个ImVoxelNet模型。所有的训练参数与在SUN RGB-D数据集上的训练相同。表4展示了8个重叠类别（mAP@0.25）的平均准确率结果。我们的3D复制粘贴将ImVoxelNet的mAP提高了2.8%。

嵌入光照和位置对单目三维目标检测影响的消融研究

光照对插入物体的影响以及全局上下文对单目3D物体检测任务的重要性进行了探索。光照不仅影响人眼对插入物体的视觉感知，还显著影响下游检测任务的性能。因此，准确和物理合理的光照估计对于理解场景和实际应用下游检测任务至关重要。全局上下文的考虑与随机类别选择设置相当，并且下游检测模型对此可能不敏感。

定性分析

在SUN RGB-D数据集上展示了单目3D物体检测的定性结果。该方法在检测具有显著遮挡的物体、提供改进的姿态估计和有效抑制误报方面具有增强能力。

总结和讨论

本文提出了一种物理可行的室内三维物体插入方法，可以有效地增强现有的室内场景数据集，如SUN RGB-D，从而实现大规模注释的三维物体检测。该方法考虑了插入物体的物理位置、大小和姿态，避免与现有房间布局发生碰撞，并估计空间变化的照明，将物体无缝地融入原始场景。该方法可以作为一种有效的生成数据增强技术，提高三维感知任务的性能。本文的发现突显了三维数据增强在提高三维感知任务性能方面的潜力，为研究和实际应用开辟了新的途径。

3D Copy-Paste：单目3D场景物体插入

评论0

微信公众号

客服微信

3D Copy-Paste：单目3D场景物体插入

猜你喜欢

评论0