“Pose Anything: A Graph-Based Approach for Category-Agnostic Pose Estimation”
项目主页:https://orhir.github.io/pose-anything/
论文地址:https://arxiv.org/pdf/2311.17891.pdf
Github地址:https://github.com/orhir/PoseAnything
摘要
本文介绍了一种新的类别无关姿态估计方法,称为CAPE。该方法通过设计图形转换解码器来捕捉关键点之间的几何关系,从而提高了关键点定位的准确性。该方法在MP-100基准测试中表现出色,比之前的方法在1-shot和5-shot设置下分别提高了2.16%和1.82%。此外,该方法的端到端训练还展示了可扩展性和效率。
简介
应用。传统的姿态估计模型存在类别特异性的局限性,限制了它们在新领域的应用。为了解决这个问题,提出了类别无关的姿态估计方法(CAPE),利用少量支持图像进行关键点定位,从而实现对任意对象类别的姿态估计。本文提出了一种新的方法,利用对象的几何结构关系,通过图形变换解码器来捕捉和整合关键点之间的关系和依赖性,从而提高关键点定位的准确性。在MP-100基准测试中,本文方法的性能优于之前最好的方法CapeFormer。
相关工作
Detection Transformer
DETR是一种简单、通用的目标检测方法,不需要领域特定知识或自定义标签,但存在收敛速度慢和检测精度降低的问题。许多后续研究改进了DETR,包括多尺度特征和局部交叉注意力计算等创新。目标检测和姿态估计之间存在联系,因此将DETR模型的一些进展应用于最新的类别无关姿态估计方法可以提高其性能。
类别无关的姿态估计
姿态估计的主要目标是准确地定位对象或实例的语义关键点。传统上,姿态估计方法主要针对特定类别进行定制,如人类、动物或车辆。现有的研究主要集中在设计强大的卷积神经网络或基于Transformer的架构。然而,这些方法仅限于训练过程中遇到的对象类别。一个相对未被探索的方面是无类别姿态估计,由POMNet引入,重点是构建通用表示和相似度度量。这种方法通过在嵌入空间中比较支持关键点和查询图像来预测关键点,解决了训练过程中未见过的对象类别的挑战。POMNet使用Transformer对查询图像和支持关键点进行编码,通过回归头直接预测支持关键点和查询图像特征的拼接的相似度。CapeFormer将匹配范式扩展到一个两阶段的框架,纠正不可靠的匹配结果以提高预测精度。我们遵循CapeFormer的方法,通过更强大的基线方法来增强他们的方法。此外,我们还关注几何结构的重要性,将其无缝集成到我们的架构框架中。
图神经网络
图卷积网络(GCN)在计算机视觉任务中的应用,包括场景图生成、点云分类和动作识别等。与GCN不同,图注意力网络(GAT)引入了自注意力机制,可以更好地处理邻居节点信息。本文提出了一种结合自注意力和GCN的解码器架构,以更好地利用关键点之间的语义关系。
方法
增强的基线
本文介绍了对CapeFormer架构的两个改进:使用比Resnet-50更强的transformer-based SwinV2-T作为backbone,并移除位置编码。CapeFormer架构包括四个子网络:共享backbone、Transformer编码器、相似度感知提议生成器和Transformer解码器。其中,共享backbone使用预训练的Resnet-50提取特征,Transformer编码器用于融合支持关键点特征和查询补丁特征,相似度感知提议生成器用于生成相似度感知提议,Transformer解码器用于从查询特征图中解码关键点位置。
基于图的方法
本文工作的核心思想是利用姿态图中编码的几何结构。所提出方法建立在增强的基线之上,用新的Graph Transformer Decoder取代Transformer Decoder模块。
Graph Transformer Decoder(GTD)。如图3所示,GTD在Transformer Decoder层中使用了一个新的前馈网络,其中包括一个图卷积网络层(GCN)。GTD基于原始的CapeFormer Decoder,将前馈网络从简单的MLP改变为GCN网络。图神经网络(GCN)层,可以纳入先验几何知识,进一步集中了关键点特征,促进了已知关键点连接之间的信息交换。
最后一层Decode的关键点位置被用作最终的关键点预测。
训练损失。在CapeFormer之后,我们使用两个监督信号:heatmap loss和offset loss。heatmap loss用于指导相似性度量和初始坐标建议,而offset loss用于指导定位输出:
总损失项为:
实验
MP-100数据集是用于训练和评估的数据集,包含超过2万张图像,涵盖100个不同类别,关键点数量在不同类别之间变化。数据集被分为五个不同的部分,确保训练、验证和测试类别互不重叠。为了标准化和增强数据集,采用统一的格式和全面的骨架定义。使用PCK指标来评估模型性能,PCK阈值设为0.2。与之前的方法相比,我们的方法在关键点定位上表现更好,并且结构信息作为强先验用于定位关键点,帮助打破对称性并创建关键点之间的结构一致性。
为了公平的比较,网络参数、训练参数、数据增强和预处理与CapeFormer保持相同。该模型建立在MMPose框架上,使用Adam优化器进行200次训练,批处理大小为16,学习率为10−5,在第160和180次迭代时衰减10倍。更多的设计选择和评估在补充。
增强的骨干。在最终特征层上应用直接的双线性上采样,在保持简单性的同时产生了类似的结果。此外,我们通过使用具有较低方差的高斯内核掩码来优化支持关键点特征的提取。这些简单的调整导致了3.2%的改善。
禁用Support Keypoint Identifie。CapeFormer引入了关键点位置编码,称为“Support Keypoint Identifie”。本文认为,类别无关的姿态估计(CAPE)不应该依赖于这种假设,应该在不强制规定特定顺序的情况下容纳支持关键点。因此,我们选择从基线中删除该编码。
结果
本文与之前的CAPE方法CapeFormer、POMNet以及三个基线ProtoNet、MAML和Fine-tuned进行了比较。在表1中展示了1-shot和5-shot设置下MP-100数据集的结果。可以看出,增强的基线模型优于之前的方法,在1-shot的设置下,平均PCK提高了0.94%,在5-shot的设置下提高了1.60%。所提出的基于图的方法进一步提高了性能,在1-shot设置下将增强基线提高了1.22%,在5-shot设置下提高了0.22%,在两种设置下都实现了新的最先进的结果。
我们还展示了设计的可扩展性。与基于detr的模型类似,采用更大的骨干可以提高性能。图解码器设计还提高了较大的增强基线的性能,在1-shot和5-shot设置下分别将结果提高了1.02%和0.34%。
Out-of-Distribution性能。为了评估模型的鲁棒性,我们使用来自不同域的图像评估了网络的小型版本。结果如图6所示。该模型仅在真实图像上进行训练,证明了其在不同数据源中的适应性和有效性。此外,即使支持图像和查询图像来自不同的领域,该模型也表现出令人满意的性能。
消融分析
我们在MP-100数据集上进行了一系列消融研究。首先,我们使用不同的骨干网络评估了我们的方法,展示了Swin Transformer架构在定位任务中的优势。然后,通过使用错误的骨架关系评估我们的模型,展示了几何结构先验的贡献。最后,通过使用掩码输入评估性能,展示了图结构的强大能力。我们在MP-100 split1的测试集上进行了所有消融实验,遵循1-shot设置。不同的骨干网络方面,我们评估了使用不同预训练骨干网络的性能,包括基于CNN的骨干网络(ResNet-50)和两个不同的预训练Transformer骨干网络,即Dino和Swin V2。通过表2可以看出,SwinV2在效率与CNN骨干网络相当的情况下,提供了更好的结果。此外,使用更大的骨干网络可以提高性能,但代价是效率和大小。关于图结构的贡献方面,我们通过使用随机图输入来评估我们的方法,即为每个实例随机选择边连接。结果显示,这导致性能下降了9.57%,验证了图解码器和结构知识的贡献。
图结构的贡献。实验结果表明,该模型在支持图像部分遮挡的情况下仍能准确预测关键点,证明了该模型已经学会了每个类别的关键点,并能根据结构将其匹配到支持图像的特征上。同时,当查询图像的大部分区域被遮挡时,模型的性能会迅速下降,但仍能保留结构。
总结
本文介绍了一种新颖的无类别姿势估计方法(CAPE),通过识别对象内部的几何结构的重要性来提高关键点定位的准确性。作者引入了一个强大的图形转换解码器,通过捕捉和整合结构信息,从而利用关键点之间的关系和依赖性。此外,作者还提供了MP-100数据集的更新版本,该数据集现在包括所有类别的骨架注释,进一步推动了CAPE研究。实验结果表明,该方法在1-shot和5-shot设置下比之前的最先进方法CapeFormer具有显著优势。该方法的改进展示了其可扩展性和效率,为计算机视觉中更多多样化和适应性应用打开了大门。
评论0