第六周作业：视频学习与论文泛读

拼搏现实的明天。 2022-09-15 15:55 74阅读 0赞

### 文章目录 ###

*   *  Part1: 视频学习
     *   *  一、《语义分割中的自注意力机制和低秩重建》
         *  二、《图像语义分割前沿进展》
         *   *  1.Res2Net: A New Multi-scale Backbone
             *  2.Learning Dynamic Routing for Semantic Segmentation （面向语义分割的动态路由学习）
             *  3.Spatial Pyramid Based Graph Reasoning for Semantic Segmentation（面向语义分割的基于空间金字塔的图推理算法）
             *  BlendMask：Top-Down Meets Bottom-Up for InstanceSeg
         *  二、《跨模态学习》
         *   *  1.IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval（基于循环注意力记忆的迭代匹配算法-跨模式检索）
             *  2.Cross-modality Person re-identification with Shared-Specific Feature Transfer（基于共享特殊性特征转移的跨模态行人重识别）
             *  3.Universal Weighting Metric Learning for Cross-Modal Matching（基于通用权重度量学习的跨模态匹配）
             *  4.Cross-domain Correspondence Learning for Exemplar-based Image Translation（针对示例图像的跨域对应性学习）
     *  Part2：论文泛读
     *   *  1.CVPR 2019 《Selective Kernel Networks》
         *  2.CVPR 2020 《Strip Pooling: Rethinking Spatial Pooling for Scene Parsing》
         *  3.CVPR 2019 《HRNet：Deep High-Resolution Representation Learning for Human Pose Estimation》

## Part1: 视频学习 ##

### 一、《语义分割中的自注意力机制和低秩重建》 ###

[详细内容查看论文作者知乎讲解][Link 1]

分析non-local相关因子的工作，分为以下四类：  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16]  
注：©GCNet (d)只和距离 有关的（均值滤波，高斯滤波等）

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 1]  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 2]

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 3]  
注：non-local是对全图建模，另一种是邻域内建模，但是具体建模哪个点，并未清楚。  
采用多路并行，每路采用不同的点。

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 4]

non-local跟DAN比较  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 5]  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 6]  
注：HW->K压缩操作。K->HW反压缩

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 7]

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 8]

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 9]

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 10]  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 11]  
注：降至三维，进行可视化，发现火车内部，依然不连续，有各式各样的feature，然后经过重构后，发现火车内部像素都非常相似了，减小了类内方差，并且类内和类间还保持了方差。（一种很好减小类内方差的操作）

RstNet建议使用pytorch encoding中的库。

### 二、《图像语义分割前沿进展》 ###

#### 1.Res2Net: A New Multi-scale Backbone ####

在单个残差块内构造分层的残差连接，构建了新的CNN结构。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 12]  
层内多尺度，多尺度信息更强。输出包含不一样多尺度信息，降低计算量，运行速度更快。

之所以分组。想要在层内增强多尺度，组内之间进行残差连接，这样才会具有多种组合。

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 13]  
应用：语义分割，实例分割，关键点估计，交互式分割，全景分割等。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 14]

#### 2.Learning Dynamic Routing for Semantic Segmentation （面向语义分割的动态路由学习） ####

[论文链接：https://arxiv.org/pdf/2003.10401.pdf][https_arxiv.org_pdf_2003.10401.pdf]

[代码链接：https://github.com/yanwei-li/DynamicRouting][https_github.com_yanwei-li_DynamicRouting]

本文所提出的框架会生成与数据相关的路由，以适应每个图像的尺度分布 。为此，我们提出了一个可差分的门函数，称为软条件门（上采样，下采样，保持scale三种操作），用于动态选择尺度变换路径。

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 15]  
不同尺度分布，所需要特征不同，小尺度可能需要细节，大尺度可能需要更加丰富语义信息，进行整体分类。

根据不同输入，自适应结构。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 16]  
多尺度路径传播和跨层连接。前向传播的时候，可以多条路径同时走。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 17]  
Gate门控制，来保证走哪条路径，有三种选择，上采样，下采样，保持scale。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 18]  
Common通用网络，每次输入大约有95%经过。

NAS-based根据数据从空间中，搜索出适合该数据集的结构，是静态结构。

#### 3.Spatial Pyramid Based Graph Reasoning for Semantic Segmentation（面向语义分割的基于空间金字塔的图推理算法） ####

[论文链接： https://arxiv.org/pdf/2003.10211.pd][https_arxiv.org_pdf_2003.10211.pd]f

本文中，将**图卷积**应用到语义分割任务中，并提出了一种改进的**Laplacian**。图推理算法直接在组织为空间金字塔的原始特征空间中进行。与现有的方法不同，我们的Laplacian是依赖数据的，并且我们引入了一个**注意力对角线矩阵**来学习一个更好的距离度量。它摆脱了映射和再映射的过程，使得我们提出的方法成为一个轻量级模块，可以很容易地插入到当前的计算机视觉网络架构中。更重要的是，**直接在特征空间中执行图推理可以保持空间关**系，使得空间金字塔可以从不同尺度上**探索多种远距离的上下文模式**。

GCN应用到语义分割中，大体思路，feature map映射成语义节点，然后语义节点映射成图卷积。

本篇论文将GCN直接应用到feature map上  
难点和优点  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 19]  
因为本文是直接在feature map上直接进行的gcn操作，所以可以引用spatial pyramid进行上采样和下采样

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 20]

GCN理解  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 21]  
[请问全连接的图卷积网络(GCN)和self-attention这些机制有什么区别联系吗？][GCN_self-attention]

#### BlendMask：Top-Down Meets Bottom-Up for InstanceSeg ####

BlendMask是典型的先做目标检测再做实例分割的文章，它做目标检测完全照搬的FCOS\[1\]的方法，然后在检测出来的proposal的基础上做实力分割。

[BlendMask知识点记录][BlendMask]

### 二、《跨模态学习》 ###

#### 1.IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval（基于循环注意力记忆的迭代匹配算法-跨模式检索） ####

**图像输入**是**fast-rcnn**抽取区域特征，然后本文会使用一层fc将每个区域特征映射到d维空间。**文本输入**是使用**Bi-GRU**作为编码器，在训练中获取每个词的向量表示。模型框架是一个多步迭代的过程，每次迭代主要包含两个部分：**CAU(Cross-modal Attention Unit)用来对齐对齐不同模态的片段信息**和**MDU(Memory distillation unit)用来从前期的匹配步骤动态地整合信息到后期的匹配步骤**。

IMRAM方法总体上分为三步：

*  1）分别提取图像和文本的原始特征；
 *  2）用RAM模块探索二者之间细粒度上的对齐关系；
 *  3）相似性度量以及损失函数迭代优化。

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 22]  
CAU(Cross-modal Attention Unit)：对跨模态信息进行对齐  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 23]

基于门控网络的记忆蒸馏单元，受LSTM，GRU等网络启发。![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 24]  
[跨模态检索|Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval][Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval]

#### 2.Cross-modality Person re-identification with Shared-Specific Feature Transfer（基于共享特殊性特征转移的跨模态行人重识别） ####

论文链接：https://arxiv.org/pdf/2002.12489.pdf

在这篇文章中，提出了一种新型的跨模态共享特征转移算法来解决上述局限性，**探索模态共享信息**和**模态特异性特征**对提高重识别性能的潜力。我们根据共享特征对不同模态样本的亲和性进行建模，然后在模态之间和跨模态之间转移共享和特定的特征。我们还提出了一种**互补特征学习**策略，包括**模态自适应、对抗性学习和重构增强**，分别学习各模态的判别性和互补共享特征和特定特征。

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 25]

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 26]  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 27]  
**创新点1**：SSTN，其实是self-attention的一种，也就是一个GCN。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 28]  
绿色，RGB样本会加权RGB的特异特征，和它近邻空间内其他样本。对于Shared-Specific 也就是蓝色，会加权两个样本。对于白色，RGB样本是会加权对面近邻的特征。最后将三者融合，变成新特征。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 29]

**创新点2：互补学习**  
蓝色不携带模态相关信息  
绿色和黄色要求和蓝色不同，并且通过黄色和绿色可以重建出原图使得模态相关学习，放在两个特异特征中。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 30]  
[图像行人重识别：Cross-modality Person re-identification with Shared-Specific Feature Transfer][Cross-modality Person re-identification with Shared-Specific Feature Transfer]

[CVPR 2020之ReID：Cross-modality Person re-identification with Shared-Specific Feature Transfer][CVPR 2020_ReID_Cross-modality Person re-identification with Shared-Specific Feature Transfer]

#### 3.Universal Weighting Metric Learning for Cross-Modal Matching（基于通用权重度量学习的跨模态匹配） ####

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 31]

*  为跨模态匹配，提出了一个通用的加权框架，分别为positive sample和negative sample提出了两个计算多项式权重的函数。
 *  介绍了一种新的多项式损失函数，该函数可以有效的从冗余对中选择信息对

参考：  
[《Universal Weighting Metric Learning for Cross-Modal Matching》—CVPR2020 论文阅读][Universal Weighting Metric Learning for Cross-Modal Matching_CVPR2020]

[\[论文阅读\] Universal Weighting Metric Learning for Cross-Modal Matching][Universal Weighting Metric Learning for Cross-Modal Matching]

#### 4.Cross-domain Correspondence Learning for Exemplar-based Image Translation（针对示例图像的跨域对应性学习） ####

本文提出的模型先将输入**语义图像**和输入**参考风格图像**分别通过**编码器进行领域对齐**，并使用特征计算两者每个像素点之间的相似度，并根据该**相似度得到变形的参考图像**，再将其使用positional normalization和spatially-variant denormalizaiton（类似于AdaIN）的方法，在从**固定噪声生成最终图像的过程中将该风格注入图像**。

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 32]  
本文提出的CoCosNet同时学习跨领域对应和图像转换，CoCosNet包含两个子网络：

*  1、跨领域网络将输入从不同的领域转换成一个中间特征领域，从这个领域可以建立可靠的稠密对应关系；
 *  2、转化网络，利用一系列转换模块，从一个warp的examplar（语义上和mask是对齐的）提取风格细节信息，根据估计的对应关系进行渲染。

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 33]

生成的图，满足两个条件，定义相关loss函数。  
与input在相同坐标保持相同语义信息  
与exemplars样例图保持style一样。![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 34]

注：1. 伪参考图像对损失，2. 语义约束损失，3. 风格约束损失，4. 生成对抗损失，5. 领域对齐损失，6. 相似度矩阵正则化损失

[【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation][Cross-domain Correspondence Learning for Exemplar-based Image Translation]

## Part2：论文泛读 ##

### 1.CVPR 2019 《Selective Kernel Networks》 ###

[论文地址:https://arxiv.org/pdf/1903.06586.pdf][https_arxiv.org_pdf_1903.06586.pdf]  
[代码源自：https://github.com/implus/SKNet][https_github.com_implus_SKNet]

作者提出了一种可以实现适应性变化感受野的网络模块，根据输入信息自动调整感受野大小，Selective Kernel，这个模块分为三个部分：

*  Split 将输入信息使用不同size的Kernel进行卷积
 *  Fuse 将多个卷积结果进行聚合，类似SENet操作。
 *  Select 根据聚合后的feature map判断各个支路组合时的权重

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 35]  
在该模块中，作者使用了**多分支卷积网络、组卷积、空洞卷积以及注意力机制**。

参考：  
[【论文阅读】Selective Kernel Networks][Selective Kernel Networks]  
[如何理解空洞卷积（dilated convolution）？][dilated convolution]  
[SKNet解读][SKNet]  
[【CV中的Attention机制】Selective-Kernel-Networks-SE进化版][CV_Attention_Selective-Kernel-Networks-SE]  
[作者讲解：SKNet——SENet孪生兄弟篇][SKNet_SENet]

### 2.CVPR 2020 《Strip Pooling: Rethinking Spatial Pooling for Scene Parsing》 ###

[论文地址：https://arxiv.org/pdf/2003.13328.pdf][https_arxiv.org_pdf_2003.13328.pdf]

[Github：https://github.com/Andrew-Qibin/SPNet][Github_https_github.com_Andrew-Qibin_SPNet]

1.strip pooling模块（SPM），以有效地扩大骨干网络的感受野范围。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 36]

*  使用这种长条形的kernel可以极大增大感受野，从而可以使得那些相距较远的部分也能被网络捕获到；
 *  由于使用了长条形的kernel可以使得池化操作更加关注一片区域，从而避免常规kernel带来的无关信息引入；

2.Mixed Pooling Module混合池化模块（MPM）  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_16_color_FFFFFF_t_70_g_se_x_16]

*  如上图（a），为原始的金字塔池化模型PPM-Pyramid pooling module，由多到少的池化，可以有效增大感受野，增大全局信息的利用效率，可以用于捕获特征位置的**短距离**依赖关系。
 *  如上图（b），使用strip pooling的方式，可以捕获更**长距离**特征之间的依赖关系。

参考：  
[\[论文笔记\] Strip Pooling（SPNet）][Strip Pooling_SPNet]  
[CVPR2020-Strip Pooling-优于空间池化 | Strip Pooling: Rethinking Spatial Pooling for Scene Parsing][CVPR2020-Strip Pooling-_ _ Strip Pooling_ Rethinking Spatial Pooling for Scene Parsing]  
[《Strip Pooling：Rethinking Spatial Pooling for Scene Parsing》论文笔记][Strip Pooling_Rethinking Spatial Pooling for Scene Parsing]

### 3.CVPR 2019 《HRNet：Deep High-Resolution Representation Learning for Human Pose Estimation》 ###

[论文地址：http://cn.arxiv.org/pdf/1902.09212.pdf][http_cn.arxiv.org_pdf_1902.09212.pdf]  
[代码地址：https://github.com/leoxiaobin/deep-high-resolution-net.pytorch][https_github.com_leoxiaobin_deep-high-resolution-net.pytorch]

High-Resolution Net（HRNet），它能在整个处理过程中**保持高分辨率表达**。

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 37]

在第一阶段，我们从一个高分辨率的子网开始，随着每个阶段，**逐渐附加分辨率从高到低的子网络，并将各个子网并行连接起来**。

我们通过在整个过程中在并行的多分辨率子网间反复**交互信息**，实现了**反复的多尺度的融合**。我们通过高分辨率的输出估计关键点。  
![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 38]

**较高的空间分辨率有利于特征点精确定位，低分辨率具有更多的语义信息**。

参考：  
[HRNet论文复现(PaddlePaddle版)][HRNet_PaddlePaddle]  
[论文解读：《Deep High-Resolution Representation Learning for Visual Recognition》(HRNet)][Deep High-Resolution Representation Learning for Visual Recognition_HRNet]  
[学习CVPR 2019 论文《用于人体姿态估计的深度高分辨率表示学习》（HRNets）][CVPR 2019 _HRNets]  
[高分辨率姿态估计与追踪 HRNet: Deep High-Resolution Representation Learning for Human Pose Estimation][HRNet_ Deep High-Resolution Representation Learning for Human Pose Estimation]

[Link 1]: https://zhuanlan.zhihu.com/p/77834369
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16]: /images/20220828/80b2a7a84c0c4ecd9c1765621ca7f67c.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 1]: /images/20220828/d78057aa40094fc697da5b3dfacb7bdb.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 2]: /images/20220828/52ecd868fdf240f48993c13defb314cc.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 3]: /images/20220828/bab7527a295d40adba2083e57b5364a7.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 4]: /images/20220828/04ea5a2951314fd98febd1ba01985548.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 5]: /images/20220828/786b186654b8440792e0b120d118e3d8.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 6]: /images/20220828/9f4292ef5c9b47ffb1b52728cece404b.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 7]: /images/20220828/23737f9514974e819c311ea0cf7dfd65.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 8]: /images/20220828/65d22d03e4ce4f60bdea30e235e658c5.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 9]: /images/20220828/217d8a62416a47ed910fd1f57e698ce3.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 10]: /images/20220828/6d35ec4c3ae84bba883ec51a057b8288.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 11]: /images/20220828/a57079f6e6f346e6a202afa7c718c0ec.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 12]: /images/20220828/1a860ea99e2441d78289ab3cb06003eb.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 13]: /images/20220828/fd9b49b95a474474aa65b0a446778686.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 14]: /images/20220828/99d8cbef1bac4dc0b510bff4c44ee8f8.png
[https_arxiv.org_pdf_2003.10401.pdf]: https://arxiv.org/pdf/2003.10401.pdf
[https_github.com_yanwei-li_DynamicRouting]: https://github.com/yanwei-li/DynamicRouting
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 15]: /images/20220828/2e1f407ecea94a689b16ea09e7f89e44.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 16]: /images/20220828/69d039c7a28a4f339e45fdb6a2e46f7f.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 17]: /images/20220828/efdc27d852fe4ad8850797e78d7e119c.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 18]: /images/20220828/86be55b358c3491f893d4f5fdb3dc2e0.png
[https_arxiv.org_pdf_2003.10211.pd]: https://arxiv.org/pdf/2003.10211.pdf
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 19]: /images/20220828/7b2b6d9a7c564f1c815b85f8d2abcc05.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 20]: /images/20220828/278b62fe4b73417aad5e19a2ce13e0e0.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 21]: /images/20220828/9fef912d436843d98ea7b4048c8d2810.png
[GCN_self-attention]: https://www.zhihu.com/question/366088445#!
[BlendMask]: https://blog.csdn.net/qq_44666320/article/details/108112310
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 22]: /images/20220828/e9030a42b9124d78a1159fb4a1ed1f16.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 23]: /images/20220828/d21e545435d6498faae4599aa1cc0bcc.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 24]: /images/20220828/35018d25094b4948832c350cf13a59ac.png
[Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval]: https://zhuanlan.zhihu.com/p/398898919
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 25]: /images/20220828/f83ec1ce24bb4412a279ed3958929334.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 26]: /images/20220828/3a318a3b59bc48b48b4ef901aeebe59b.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 27]: /images/20220828/b5e3e37ac9fb40f29b3bd21f00a88b7a.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 28]: /images/20220828/42e3b768f3904a55abf0f760957c3a6f.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 29]: /images/20220828/9a2e034948c2408fbce780e6b9752575.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 30]: /images/20220828/f7d93216ab2f4bc5b5ec6d217323c04c.png
[Cross-modality Person re-identification with Shared-Specific Feature Transfer]: https://zhuanlan.zhihu.com/p/399929994
[CVPR 2020_ReID_Cross-modality Person re-identification with Shared-Specific Feature Transfer]: https://blog.csdn.net/qq_41967539/article/details/104740692
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 31]: /images/20220828/4bc5153f4bec4f858a97df55805a1f7a.png
[Universal Weighting Metric Learning for Cross-Modal Matching_CVPR2020]: https://blog.csdn.net/qq_38990652/article/details/120228268
[Universal Weighting Metric Learning for Cross-Modal Matching]: https://blog.csdn.net/yyhaohaoxuexi/article/details/112554048?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_title~default-0.no_search_link&spm=1001.2101.3001.4242
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 32]: /images/20220828/bd73806be052469d9aed6a563d71dac0.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 33]: /images/20220828/0ec5b959517f443ab4390eabe57a2a04.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 34]: /images/20220828/4c361e20a17b43ffb1d085d819ec7fca.png
[Cross-domain Correspondence Learning for Exemplar-based Image Translation]: https://blog.csdn.net/jiaixnyu0618/article/details/111151998
[https_arxiv.org_pdf_1903.06586.pdf]: https://arxiv.org/pdf/1903.06586.pdf
[https_github.com_implus_SKNet]: https://github.com/implus/SKNet
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 35]: /images/20220828/54abad3c7e2342e38daafaf57e0299b0.png
[Selective Kernel Networks]: https://blog.csdn.net/olivertai/article/details/103061684
[dilated convolution]: https://www.zhihu.com/question/54149221
[SKNet]: https://blog.csdn.net/luxinfeng666/article/details/102070894
[CV_Attention_Selective-Kernel-Networks-SE]: https://cloud.tencent.com/developer/article/1582023
[SKNet_SENet]: https://zhuanlan.zhihu.com/p/59690223
[https_arxiv.org_pdf_2003.13328.pdf]: https://arxiv.org/pdf/2003.13328.pdf
[Github_https_github.com_Andrew-Qibin_SPNet]: https://github.com/Andrew-Qibin/SPNet
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 36]: /images/20220828/65eb3f5bf9634bf9b90e3d82e4f2f50c.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_16_color_FFFFFF_t_70_g_se_x_16]: /images/20220828/2df72e0ace9d46e99b032ae88889e52e.png
[Strip Pooling_SPNet]: https://zhuanlan.zhihu.com/p/132532190
[CVPR2020-Strip Pooling-_ _ Strip Pooling_ Rethinking Spatial Pooling for Scene Parsing]: https://blog.csdn.net/weixin_42096202/article/details/106259934
[Strip Pooling_Rethinking Spatial Pooling for Scene Parsing]: https://www.pianshen.com/article/65311429581/
[http_cn.arxiv.org_pdf_1902.09212.pdf]: http://cn.arxiv.org/pdf/1902.09212.pdf
[https_github.com_leoxiaobin_deep-high-resolution-net.pytorch]: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 37]: /images/20220828/07a287c667634a7290df5132dbeffad4.png
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 38]: /images/20220828/fc5f73ea533b4ccf96aa1b4627294dae.png
[HRNet_PaddlePaddle]: https://www.bilibili.com/video/BV1vL411H78u?p=4&spm_id_from=pageDriver
[Deep High-Resolution Representation Learning for Visual Recognition_HRNet]: https://aistudio.baidu.com/aistudio/projectdetail/2204920
[CVPR 2019 _HRNets]: https://zhuanlan.zhihu.com/p/65442640
[HRNet_ Deep High-Resolution Representation Learning for Human Pose Estimation]: http://muyaan.com/2019/03/11/%E9%AB%98%E5%88%86%E8%BE%A8%E7%8E%87%E5%A7%BF%E6%80%81%E4%BC%B0%E8%AE%A1%E4%B8%8E%E8%BF%BD%E8%B8%AA-HRNet-Deep-High-Resolution-Representation-Learning-for-Human-Pose-Estimation/