Efficient Object Localization Using Convolutional Networks 论文解读
paper title: Efficient Object Localization Using Convolutional Networks
paper link: https://arxiv.org/pdf/1411.4280.pdf
oral or demo video:-
project: -
github: -
conf & anthor: CVPR15, Jonathan Tompson et al.
arXiv submit v1: 2014.11 google citation:405(2019.07.12)
姿态估计系列:
- DeepPose - human pose estimation via deep nerual networks
- Efficient Object Localization Using Convolutional Networks
- Convolutional Pose Machines
- Human Pose Estimation with Iterative Error Feedback
- Hourglass Network - stacked hourglass network for human pose estimation
- OpenPose - Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
- RMPE: Regional Multi-person Pose Estimation
- Pose flow: Efficient Online Pose Tracking
- CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark
主要内容:
这篇文章主要使用coarse和fine两个级联网络来回归人体关节点的heat-map,并使用shared-feature的架构联合训练这两个网络,提升模型的泛化能力。这篇文章的可以看做是文章Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation的拓展,可参考。
网络结构:
文章提出的网络结构是一个级联的heat-map回归网络,分为coarse和fine回归两部分,coarse部分回归一个粗略的heat-map关节点位置,然后使用coarse网络得到的结果在coarse得到的feature map上截取一块区域,然后输入fine网络得到fine回归的结果,最后将coarse和fine回归网络得到的结果整合后得到最终的结果。
级联网络的整体架构如下:
(1) coarse heat-map regression model
coarse网络是一个多分辨率输入网络,输入三层高斯金字塔图像,经过各自的卷积操作之后得到的feature map进行concat,然后进行一个SpatialDropout的操作(即feature map层面的dropout,原因是作者发现使用常规的dropout会使训练时间变长,并仍会导致over-training),最后经过卷积操作之后输出14x32x32的heat maps。
(2) fine heat-map regression model
fine网络是一个Siamese network,单个关节的网络结构图如下,由于coarse网络的输入有多个尺度,所以在feature map截取输入到fine网络也有多个尺度,所以这里的fine网络也有多个分支,对不同的尺度的输入进行处理,最后所有的feature map变换到同一尺度(对尺寸较小的feature map进行上采样)再concat,然后再进行后续的卷积操作。
损失函数:
(1) coarse model
coarse模型使用MSE作为损失函数:
L c o a r s e = 1 / N ∗ ∑ j = 1 N ∑ x y ∣ ∣ H j ′ ( x , y ) − H j ( x , y ) ∣ ∣ 2 L_{coarse}=1/N*\sum_{j=1}^N\sum_{xy}||H’_j(x,y)-Hj(x,y)||^2 Lcoarse=1/N∗j=1∑Nxy∑∣∣Hj′(x,y)−Hj(x,y)∣∣2
其中 H j ′ H’_j Hj′和 H j H_j Hj分别表示预测和ground truth的第j个关节的heat map。
(2) fine model
fine模型也使用MSE作为损失函数:
L f i n e = 1 / N ∗ ∑ j = 1 N ∑ x y ∣ ∣ G j ′ ( x , y ) − G j ( x , y ) ∣ ∣ 2 L_{fine}=1/N*\sum_{j=1}^N\sum_{xy}||G’_j(x,y)-G_j(x,y)||^2 Lfine=1/N∗j=1∑Nxy∑∣∣Gj′(x,y)−Gj(x,y)∣∣2
其中 G j ′ G’_j Gj′和 G j G_j Gj分别表示预测和ground truth的第j个关节的heat map。
(3)联合训练时优化:
L = L c o a r s e + λ ∗ L f i n e L=L_{coarse}+\lambda*L_{fine} L=Lcoarse+λ∗Lfine
论文结果:
检测的人体关节点数目:FLIC-7 upper joints, MPII-14 joints
数据集:(1)Frames Labeled In Cinema,(2)MPII dataset
评价指标:
- Percentage of Correct Keypoints(PCK): 在PCK中认为一个关节点被正确检测到的标准是,预测的关节点和ground truth关节点的归一化距离小于一个设定阈值的比例。
- Percentage of Correct Keypoints head(PCKh):以head segment length作为基准设定比例的PCK。
在MPII数据集上全身关节平均的PCKh@0.5为82.0。
还没有评论,来说两句吧...