细粒度论文笔记《Fully convolutional attention localization networks for FGVC》
X. Liu, T. Xia, J. Wang, Y. Q. Lin. Fully convolutional attention localization networks: Efficient attention localization for f-ine-grained recognition. arXiv:1603.06765, 2016
文中作者提出一种基于强化学习的全卷积定位网络,去自适应地选择多个任务驱动的视觉注意力区域。表明将选择的注意力区域方法能显著地提高细粒度识别的性能。相比于之前的基于强化学习模型,由于作者采用了全卷积网络这种架构,作者的这种方法大大提高了在测试和训练期间的计算机效率,因为它能同时定位多个视觉注意力区域。并且这种方法也取得了不错的分类准确率,作者在Stanford Dogs,Stanford Cars和CUB200-2011这三种数据集下做了实验。 下面是全卷积定位网络的模型架构。
整个模型分为part定位和分类两个部分(上图用虚线隔开的左右两部分)。
part定位部分使用一个在ImageNet上预训练过的并在目标细粒度分类数据库上微调过的VGG-16网络来进行特征提取。注意力定位网络通过使用这个基础卷积特征图来生成每个part的得分图,从而定位多个part。每个得分图(score map)是通过两个堆叠的卷积层和一个softmax层生成的,第一个卷积层使用64个3*3的卷积核,第二个使用一个3*3的卷积核,来输出一个单通道的置信图(confidence map),然后通过softmax层将置信图上的得分转化成概率,从而判断那个区域是需要的注意力区域。概率最高的区域作为part的位置。对于固定的时间步采用同样的处理过程,每个时间步生成一个特定的part位置。
分类部分对于每一个part以及全图都给定一个深度CNN分类器,不同的part具有不同的大小,局部的图像区域根据其大小以及part的位置进行crop操作,为每个局部图像区域和全图分别训练一个分类器,最终预测结果是所有独立的分类器预测结果的平均值。为了判别出具有细微视觉不同的地方,每一个局部图像区域被resize成高分辨率的。每一个part都单独的训练一个CNN网络。
训练注意力定位网络:由于并没有人工标注信息来辅助进行定位 注意力区域,因此作者采用强化学习的方法来学习注意力定位网络。整个注意力定位问题被描述成 马尔科夫决策过程(MDPs)。在MDP的每一步中,注意力定位网络作为agent 来基于观察,执行一个action,并且得到一个reward。其中,action为定位的注意力区域的位置,observation为输入图像和裁剪的注意力区域,使用注意力区域进行分类的好坏作为reward,要学习的目标就是:学习一个最优的决策来根据观测产生动作,具体表现为通过注意力定位网络的参数来最大化所有时间步的期望奖励的总和。作者额外又训练了一个分类网络来衡量分类的质量。每一步的分类网络是一个全卷积网络紧跟着一个softmax layer,将最后一个timestep的所有part的attention maps 以及整幅图像的卷积特征作为输入。
还没有评论,来说两句吧...