人群密度估计--ADCrowdNet: An Attention-injective Deformable Convolutional Network for Crowd Understanding
http://muyaan.com/2019/03/26/CVPR-2019%E4%BA%BA%E7%BE%A4%E5%88%86%E6%9E%90-ADCrowdNet-An-Attention-injective-Deformable-Convolutional-Network-for-Crowd-Understanding/
Figure 2 网络整体结构
第一阶段网络称为AMG(Attention Map Generator),为输入的图像生成注意力图Attention Map。再用AM点乘输入图片,送入第二个网络,称为DME(Density Map Estimator)。
AMG为DME网络提供了两类先验:
(i)人群区域候选;
(ii)人群区域拥挤度。
前一个先验信息使多尺度deformable卷积scheme能让DME将注意力集中于有人群的A区域,从而提升了对不同噪音的抵抗能力。
后一个先验信息 用拥挤度指示了每个人群区域,从而为后续的DME提供了精细的拥挤上下文先验,提升了在不同人群分布下的性能。
Figure 4
Attention Map Generator
front end是VGG16前10层
back end 是类似于inception-net的结构,并用多个空洞卷积层扩大感受野来定位群人。
back end 输出2 通道的feature maps。一层指背景一层指人群。再为两层赋予confidence scores,做加权和得到attention map
Density Map Estimator具体结构 如 Figure 5
front end 跟之前一样
back end 是 multi-scale deformable convolutional layers [7]
front end 负责提取low level 的特征
back end 结构类似于inceptionnet 能够cope with various occlusion,diversified crowd distribution, and the distortion caused by perspective view.
然后是介绍数据集,之后写论文可以学这篇文章写数据集的结构。
再然后是属于实验部分,做了很多对比实验,消融实验以及修改一些网络结构的探索。
[7] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In Proc. IEEE ICCV
还没有评论,来说两句吧...