FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estimation from a Single Image

ゝ一纸荒年。 2022-02-15 10:54 336阅读 0赞

本文来源于2019A类会议CVPR的论文FSA-Net,对其中一部分进行翻译

摘要:

本文提出了一种基于单个图像的头部姿态估计方法。以往的方法往往是通过landmark或depth估计来预测头部姿态,计算量大。我们的方法是基于回归和特征聚集。为了得到一个紧凑的模型,我们采用了soft stagewise regression方案。现有的特征聚集方法将输入视为一组特征,从而忽略它们在特征图中的空间关系(我觉得在这里可以使用胶囊模型)。我们建议在聚合之前学习空间分组特性的细粒度结构映射。细粒度结构(fine-grained structure)提供基于部件的信息和集合值。通过在空间位置上利用可学习和不可学习的重要性,可以生成不同的模型变量并形成互补的整体。实验表明,该方法既能实现无标志点方法,又能实现基于标志点或深度估计的无标志点方法。在只有一个RGB帧作为输入的情况下,我们的方法甚至优于利用多模态信息(RGB-D,RGB时间)估计横摆角的方法。此外,我们的模型的内存开销比以前的方法小100倍。

介绍:

头部姿态研究很重要,其他的不多说了。

单幅图像的头部姿态估计是一个具有挑战性的问题。头部姿态是一个包含偏航角、俯仰角和横滚角的三维矢量。从图像估计头部姿势基本上需要学习二维和三维空间之间的映射。有些方法使用更多的方式,如深度图像中的三维信息或视频序列中的时间信息。深度图像提供二维图像中缺失的三维信息。视频捕捉人类头部的连续运动,并提供额外信息以帮助姿势估计。然而,时间信息的学习通常是通过具有高计算成本的循环结构来实现的,而捕捉深度信息通常需要一些不总是可用的特殊摄像机。大多数单帧姿态估计方法都利用面部标志点检测来估计头部姿态。然

发表评论

表情:
评论列表 (有 0 条评论,336人围观)

还没有评论,来说两句吧...

相关阅读