第六周作业:视频学习与论文泛读 拼搏现实的明天。 2022-09-15 15:55 33阅读 0赞 ### 文章目录 ### * * Part1: 视频学习 * * 一、《语义分割中的自注意力机制和低秩重建》 * 二、《图像语义分割前沿进展》 * * 1.Res2Net: A New Multi-scale Backbone * 2.Learning Dynamic Routing for Semantic Segmentation (面向语义分割的动态路由学习) * 3.Spatial Pyramid Based Graph Reasoning for Semantic Segmentation(面向语义分割的基于空间金字塔的图推理算法) * BlendMask:Top-Down Meets Bottom-Up for InstanceSeg * 二、《跨模态学习》 * * 1.IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval(基于循环注意力记忆的迭代匹配算法-跨模式检索) * 2.Cross-modality Person re-identification with Shared-Specific Feature Transfer(基于共享特殊性特征转移的跨模态行人重识别) * 3.Universal Weighting Metric Learning for Cross-Modal Matching(基于通用权重度量学习的跨模态匹配) * 4.Cross-domain Correspondence Learning for Exemplar-based Image Translation(针对示例图像的跨域对应性学习) * Part2:论文泛读 * * 1.CVPR 2019 《Selective Kernel Networks》 * 2.CVPR 2020 《Strip Pooling: Rethinking Spatial Pooling for Scene Parsing》 * 3.CVPR 2019 《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》 ## Part1: 视频学习 ## ### 一、《语义分割中的自注意力机制和低秩重建》 ### [详细内容查看论文作者知乎讲解][Link 1] 分析non-local相关因子的工作,分为以下四类: ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16] 注:©GCNet (d)只和距离 有关的(均值滤波,高斯滤波等) ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 1] ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 2] ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 3] 注:non-local是对全图建模,另一种是邻域内建模,但是具体建模哪个点,并未清楚。 采用多路并行,每路采用不同的点。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 4] non-local跟DAN比较 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 5] ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 6] 注:HW->K压缩操作。K->HW反压缩 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 7] ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 8] ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 9] ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 10] ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 11] 注:降至三维,进行可视化,发现火车内部,依然不连续,有各式各样的feature,然后经过重构后,发现火车内部像素都非常相似了,减小了类内方差,并且类内和类间还保持了方差。(一种很好减小类内方差的操作) RstNet建议使用pytorch encoding中的库。 ### 二、《图像语义分割前沿进展》 ### #### 1.Res2Net: A New Multi-scale Backbone #### 在单个残差块内构造分层的残差连接,构建了新的CNN结构。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 12] 层内多尺度,多尺度信息更强。输出包含不一样多尺度信息,降低计算量,运行速度更快。 之所以分组。想要在层内增强多尺度,组内之间进行残差连接,这样才会具有多种组合。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 13] 应用:语义分割,实例分割,关键点估计,交互式分割,全景分割等。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 14] #### 2.Learning Dynamic Routing for Semantic Segmentation (面向语义分割的动态路由学习) #### [论文链接:https://arxiv.org/pdf/2003.10401.pdf][https_arxiv.org_pdf_2003.10401.pdf] [代码链接:https://github.com/yanwei-li/DynamicRouting][https_github.com_yanwei-li_DynamicRouting] 本文所提出的框架会生成与数据相关的路由,以适应每个图像的尺度分布 。为此,我们提出了一个可差分的门函数,称为软条件门(上采样,下采样,保持scale三种操作),用于动态选择尺度变换路径。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 15] 不同尺度分布,所需要特征不同,小尺度可能需要细节,大尺度可能需要更加丰富语义信息,进行整体分类。 根据不同输入,自适应结构。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 16] 多尺度路径传播和跨层连接。前向传播的时候,可以多条路径同时走。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 17] Gate门控制,来保证走哪条路径,有三种选择,上采样,下采样,保持scale。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 18] Common通用网络,每次输入大约有95%经过。 NAS-based根据数据从空间中,搜索出适合该数据集的结构,是静态结构。 #### 3.Spatial Pyramid Based Graph Reasoning for Semantic Segmentation(面向语义分割的基于空间金字塔的图推理算法) #### [论文链接: https://arxiv.org/pdf/2003.10211.pd][https_arxiv.org_pdf_2003.10211.pd]f 本文中,将**图卷积**应用到语义分割任务中,并提出了一种改进的**Laplacian**。图推理算法直接在组织为空间金字塔的原始特征空间中进行。与现有的方法不同,我们的Laplacian是依赖数据的,并且我们引入了一个**注意力对角线矩阵**来学习一个更好的距离度量。它摆脱了映射和再映射的过程,使得我们提出的方法成为一个轻量级模块,可以很容易地插入到当前的计算机视觉网络架构中。更重要的是,**直接在特征空间中执行图推理可以保持空间关**系,使得空间金字塔可以从不同尺度上**探索多种远距离的上下文模式**。 GCN应用到语义分割中,大体思路,feature map映射成语义节点,然后语义节点映射成图卷积。 本篇论文将GCN直接应用到feature map上 难点和优点 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 19] 因为本文是直接在feature map上直接进行的gcn操作,所以可以引用spatial pyramid进行上采样和下采样 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 20] GCN理解 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 21] [请问全连接的图卷积网络(GCN)和self-attention这些机制有什么区别联系吗?][GCN_self-attention] #### BlendMask:Top-Down Meets Bottom-Up for InstanceSeg #### BlendMask是典型的先做目标检测再做实例分割的文章,它做目标检测完全照搬的FCOS\[1\]的方法,然后在检测出来的proposal的基础上做实力分割。 [BlendMask知识点记录][BlendMask] ### 二、《跨模态学习》 ### #### 1.IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval(基于循环注意力记忆的迭代匹配算法-跨模式检索) #### **图像输入**是**fast-rcnn**抽取区域特征,然后本文会使用一层fc将每个区域特征映射到d维空间。**文本输入**是使用**Bi-GRU**作为编码器,在训练中获取每个词的向量表示。模型框架是一个多步迭代的过程,每次迭代主要包含两个部分:**CAU(Cross-modal Attention Unit)用来对齐对齐不同模态的片段信息**和**MDU(Memory distillation unit)用来从前期的匹配步骤动态地整合信息到后期的匹配步骤**。 IMRAM方法总体上分为三步: * 1)分别提取图像和文本的原始特征; * 2)用RAM模块探索二者之间细粒度上的对齐关系; * 3)相似性度量以及损失函数迭代优化。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 22] CAU(Cross-modal Attention Unit):对跨模态信息进行对齐 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 23] 基于门控网络的记忆蒸馏单元,受LSTM,GRU等网络启发。![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 24] [跨模态检索|Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval][Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval] #### 2.Cross-modality Person re-identification with Shared-Specific Feature Transfer(基于共享特殊性特征转移的跨模态行人重识别) #### 论文链接:https://arxiv.org/pdf/2002.12489.pdf 在这篇文章中,提出了一种新型的跨模态共享特征转移算法来解决上述局限性,**探索模态共享信息**和**模态特异性特征**对提高重识别性能的潜力。我们根据共享特征对不同模态样本的亲和性进行建模,然后在模态之间和跨模态之间转移共享和特定的特征。我们还提出了一种**互补特征学习**策略,包括**模态自适应、对抗性学习和重构增强**,分别学习各模态的判别性和互补共享特征和特定特征。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 25] ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 26] ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 27] **创新点1**:SSTN,其实是self-attention的一种,也就是一个GCN。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 28] 绿色,RGB样本会加权RGB的特异特征,和它近邻空间内其他样本。对于Shared-Specific 也就是蓝色,会加权两个样本。对于白色,RGB样本是会加权对面近邻的特征。最后将三者融合,变成新特征。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 29] **创新点2:互补学习** 蓝色不携带模态相关信息 绿色和黄色要求和蓝色不同,并且通过黄色和绿色可以重建出原图使得模态相关学习,放在两个特异特征中。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 30] [图像行人重识别:Cross-modality Person re-identification with Shared-Specific Feature Transfer][Cross-modality Person re-identification with Shared-Specific Feature Transfer] [CVPR 2020之ReID:Cross-modality Person re-identification with Shared-Specific Feature Transfer][CVPR 2020_ReID_Cross-modality Person re-identification with Shared-Specific Feature Transfer] #### 3.Universal Weighting Metric Learning for Cross-Modal Matching(基于通用权重度量学习的跨模态匹配) #### ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 31] * 为跨模态匹配,提出了一个通用的加权框架,分别为positive sample和negative sample提出了两个计算多项式权重的函数。 * 介绍了一种新的多项式损失函数,该函数可以有效的从冗余对中选择信息对 参考: [《Universal Weighting Metric Learning for Cross-Modal Matching》—CVPR2020 论文阅读][Universal Weighting Metric Learning for Cross-Modal Matching_CVPR2020] [\[论文阅读\] Universal Weighting Metric Learning for Cross-Modal Matching][Universal Weighting Metric Learning for Cross-Modal Matching] #### 4.Cross-domain Correspondence Learning for Exemplar-based Image Translation(针对示例图像的跨域对应性学习) #### 本文提出的模型先将输入**语义图像**和输入**参考风格图像**分别通过**编码器进行领域对齐**,并使用特征计算两者每个像素点之间的相似度,并根据该**相似度得到变形的参考图像**,再将其使用positional normalization和spatially-variant denormalizaiton(类似于AdaIN)的方法,在从**固定噪声生成最终图像的过程中将该风格注入图像**。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 32] 本文提出的CoCosNet同时学习跨领域对应和图像转换,CoCosNet包含两个子网络: * 1、跨领域网络将输入从不同的领域转换成一个中间特征领域,从这个领域可以建立可靠的稠密对应关系; * 2、转化网络,利用一系列转换模块,从一个warp的examplar(语义上和mask是对齐的)提取风格细节信息,根据估计的对应关系进行渲染。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 33] 生成的图,满足两个条件,定义相关loss函数。 与input在相同坐标保持相同语义信息 与exemplars样例图保持style一样。![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 34] 注:1. 伪参考图像对损失,2. 语义约束损失,3. 风格约束损失,4. 生成对抗损失,5. 领域对齐损失,6. 相似度矩阵正则化损失 [【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation][Cross-domain Correspondence Learning for Exemplar-based Image Translation] ## Part2:论文泛读 ## ### 1.CVPR 2019 《Selective Kernel Networks》 ### [论文地址:https://arxiv.org/pdf/1903.06586.pdf][https_arxiv.org_pdf_1903.06586.pdf] [代码源自:https://github.com/implus/SKNet][https_github.com_implus_SKNet] 作者提出了一种可以实现适应性变化感受野的网络模块,根据输入信息自动调整感受野大小,Selective Kernel,这个模块分为三个部分: * Split 将输入信息使用不同size的Kernel进行卷积 * Fuse 将多个卷积结果进行聚合,类似SENet操作。 * Select 根据聚合后的feature map判断各个支路组合时的权重 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 35] 在该模块中,作者使用了**多分支卷积网络、组卷积、空洞卷积以及注意力机制**。 参考: [【论文阅读】Selective Kernel Networks][Selective Kernel Networks] [如何理解空洞卷积(dilated convolution)?][dilated convolution] [SKNet解读][SKNet] [【CV中的Attention机制】Selective-Kernel-Networks-SE进化版][CV_Attention_Selective-Kernel-Networks-SE] [作者讲解:SKNet——SENet孪生兄弟篇][SKNet_SENet] ### 2.CVPR 2020 《Strip Pooling: Rethinking Spatial Pooling for Scene Parsing》 ### [论文地址:https://arxiv.org/pdf/2003.13328.pdf][https_arxiv.org_pdf_2003.13328.pdf] [Github:https://github.com/Andrew-Qibin/SPNet][Github_https_github.com_Andrew-Qibin_SPNet] 1.strip pooling模块(SPM),以有效地扩大骨干网络的感受野范围。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 36] * 使用这种长条形的kernel可以极大增大感受野,从而可以使得那些相距较远的部分也能被网络捕获到; * 由于使用了长条形的kernel可以使得池化操作更加关注一片区域,从而避免常规kernel带来的无关信息引入; 2.Mixed Pooling Module混合池化模块(MPM) ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_16_color_FFFFFF_t_70_g_se_x_16] * 如上图(a),为原始的金字塔池化模型PPM-Pyramid pooling module,由多到少的池化,可以有效增大感受野,增大全局信息的利用效率,可以用于捕获特征位置的**短距离**依赖关系。 * 如上图(b),使用strip pooling的方式,可以捕获更**长距离**特征之间的依赖关系。 参考: [\[论文笔记\] Strip Pooling(SPNet)][Strip Pooling_SPNet] [CVPR2020-Strip Pooling-优于空间池化 | Strip Pooling: Rethinking Spatial Pooling for Scene Parsing][CVPR2020-Strip Pooling-_ _ Strip Pooling_ Rethinking Spatial Pooling for Scene Parsing] [《Strip Pooling:Rethinking Spatial Pooling for Scene Parsing》论文笔记][Strip Pooling_Rethinking Spatial Pooling for Scene Parsing] ### 3.CVPR 2019 《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》 ### [论文地址:http://cn.arxiv.org/pdf/1902.09212.pdf][http_cn.arxiv.org_pdf_1902.09212.pdf] [代码地址:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch][https_github.com_leoxiaobin_deep-high-resolution-net.pytorch] High-Resolution Net(HRNet),它能在整个处理过程中**保持高分辨率表达**。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 37] 在第一阶段,我们从一个高分辨率的子网开始,随着每个阶段,**逐渐附加分辨率从高到低的子网络,并将各个子网并行连接起来**。 我们通过在整个过程中在并行的多分辨率子网间反复**交互信息**,实现了**反复的多尺度的融合**。我们通过高分辨率的输出估计关键点。 ![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 38] **较高的空间分辨率有利于特征点精确定位,低分辨率具有更多的语义信息**。 参考: [HRNet论文复现(PaddlePaddle版)][HRNet_PaddlePaddle] [论文解读:《Deep High-Resolution Representation Learning for Visual Recognition》(HRNet)][Deep High-Resolution Representation Learning for Visual Recognition_HRNet] [学习CVPR 2019 论文《用于人体姿态估计的深度高分辨率表示学习》(HRNets)][CVPR 2019 _HRNets] [高分辨率姿态估计与追踪 HRNet: Deep High-Resolution Representation Learning for Human Pose Estimation][HRNet_ Deep High-Resolution Representation Learning for Human Pose Estimation] [Link 1]: https://zhuanlan.zhihu.com/p/77834369 [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16]: /images/20220828/80b2a7a84c0c4ecd9c1765621ca7f67c.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 1]: /images/20220828/d78057aa40094fc697da5b3dfacb7bdb.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 2]: /images/20220828/52ecd868fdf240f48993c13defb314cc.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 3]: /images/20220828/bab7527a295d40adba2083e57b5364a7.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 4]: /images/20220828/04ea5a2951314fd98febd1ba01985548.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 5]: /images/20220828/786b186654b8440792e0b120d118e3d8.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 6]: /images/20220828/9f4292ef5c9b47ffb1b52728cece404b.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 7]: /images/20220828/23737f9514974e819c311ea0cf7dfd65.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 8]: /images/20220828/65d22d03e4ce4f60bdea30e235e658c5.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 9]: /images/20220828/217d8a62416a47ed910fd1f57e698ce3.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 10]: /images/20220828/6d35ec4c3ae84bba883ec51a057b8288.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 11]: /images/20220828/a57079f6e6f346e6a202afa7c718c0ec.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 12]: /images/20220828/1a860ea99e2441d78289ab3cb06003eb.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 13]: /images/20220828/fd9b49b95a474474aa65b0a446778686.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 14]: /images/20220828/99d8cbef1bac4dc0b510bff4c44ee8f8.png [https_arxiv.org_pdf_2003.10401.pdf]: https://arxiv.org/pdf/2003.10401.pdf [https_github.com_yanwei-li_DynamicRouting]: https://github.com/yanwei-li/DynamicRouting [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 15]: /images/20220828/2e1f407ecea94a689b16ea09e7f89e44.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 16]: /images/20220828/69d039c7a28a4f339e45fdb6a2e46f7f.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 17]: /images/20220828/efdc27d852fe4ad8850797e78d7e119c.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 18]: /images/20220828/86be55b358c3491f893d4f5fdb3dc2e0.png [https_arxiv.org_pdf_2003.10211.pd]: https://arxiv.org/pdf/2003.10211.pdf [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 19]: /images/20220828/7b2b6d9a7c564f1c815b85f8d2abcc05.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 20]: /images/20220828/278b62fe4b73417aad5e19a2ce13e0e0.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 21]: /images/20220828/9fef912d436843d98ea7b4048c8d2810.png [GCN_self-attention]: https://www.zhihu.com/question/366088445#! [BlendMask]: https://blog.csdn.net/qq_44666320/article/details/108112310 [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 22]: /images/20220828/e9030a42b9124d78a1159fb4a1ed1f16.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 23]: /images/20220828/d21e545435d6498faae4599aa1cc0bcc.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 24]: /images/20220828/35018d25094b4948832c350cf13a59ac.png [Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval]: https://zhuanlan.zhihu.com/p/398898919 [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 25]: /images/20220828/f83ec1ce24bb4412a279ed3958929334.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 26]: /images/20220828/3a318a3b59bc48b48b4ef901aeebe59b.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 27]: /images/20220828/b5e3e37ac9fb40f29b3bd21f00a88b7a.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 28]: /images/20220828/42e3b768f3904a55abf0f760957c3a6f.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 29]: /images/20220828/9a2e034948c2408fbce780e6b9752575.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 30]: /images/20220828/f7d93216ab2f4bc5b5ec6d217323c04c.png [Cross-modality Person re-identification with Shared-Specific Feature Transfer]: https://zhuanlan.zhihu.com/p/399929994 [CVPR 2020_ReID_Cross-modality Person re-identification with Shared-Specific Feature Transfer]: https://blog.csdn.net/qq_41967539/article/details/104740692 [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 31]: /images/20220828/4bc5153f4bec4f858a97df55805a1f7a.png [Universal Weighting Metric Learning for Cross-Modal Matching_CVPR2020]: https://blog.csdn.net/qq_38990652/article/details/120228268 [Universal Weighting Metric Learning for Cross-Modal Matching]: https://blog.csdn.net/yyhaohaoxuexi/article/details/112554048?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_title~default-0.no_search_link&spm=1001.2101.3001.4242 [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 32]: /images/20220828/bd73806be052469d9aed6a563d71dac0.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 33]: /images/20220828/0ec5b959517f443ab4390eabe57a2a04.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 34]: /images/20220828/4c361e20a17b43ffb1d085d819ec7fca.png [Cross-domain Correspondence Learning for Exemplar-based Image Translation]: https://blog.csdn.net/jiaixnyu0618/article/details/111151998 [https_arxiv.org_pdf_1903.06586.pdf]: https://arxiv.org/pdf/1903.06586.pdf [https_github.com_implus_SKNet]: https://github.com/implus/SKNet [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 35]: /images/20220828/54abad3c7e2342e38daafaf57e0299b0.png [Selective Kernel Networks]: https://blog.csdn.net/olivertai/article/details/103061684 [dilated convolution]: https://www.zhihu.com/question/54149221 [SKNet]: https://blog.csdn.net/luxinfeng666/article/details/102070894 [CV_Attention_Selective-Kernel-Networks-SE]: https://cloud.tencent.com/developer/article/1582023 [SKNet_SENet]: https://zhuanlan.zhihu.com/p/59690223 [https_arxiv.org_pdf_2003.13328.pdf]: https://arxiv.org/pdf/2003.13328.pdf [Github_https_github.com_Andrew-Qibin_SPNet]: https://github.com/Andrew-Qibin/SPNet [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 36]: /images/20220828/65eb3f5bf9634bf9b90e3d82e4f2f50c.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_16_color_FFFFFF_t_70_g_se_x_16]: /images/20220828/2df72e0ace9d46e99b032ae88889e52e.png [Strip Pooling_SPNet]: https://zhuanlan.zhihu.com/p/132532190 [CVPR2020-Strip Pooling-_ _ Strip Pooling_ Rethinking Spatial Pooling for Scene Parsing]: https://blog.csdn.net/weixin_42096202/article/details/106259934 [Strip Pooling_Rethinking Spatial Pooling for Scene Parsing]: https://www.pianshen.com/article/65311429581/ [http_cn.arxiv.org_pdf_1902.09212.pdf]: http://cn.arxiv.org/pdf/1902.09212.pdf [https_github.com_leoxiaobin_deep-high-resolution-net.pytorch]: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 37]: /images/20220828/07a287c667634a7290df5132dbeffad4.png [watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBAUXh3MTAxMg_size_20_color_FFFFFF_t_70_g_se_x_16 38]: /images/20220828/fc5f73ea533b4ccf96aa1b4627294dae.png [HRNet_PaddlePaddle]: https://www.bilibili.com/video/BV1vL411H78u?p=4&spm_id_from=pageDriver [Deep High-Resolution Representation Learning for Visual Recognition_HRNet]: https://aistudio.baidu.com/aistudio/projectdetail/2204920 [CVPR 2019 _HRNets]: https://zhuanlan.zhihu.com/p/65442640 [HRNet_ Deep High-Resolution Representation Learning for Human Pose Estimation]: http://muyaan.com/2019/03/11/%E9%AB%98%E5%88%86%E8%BE%A8%E7%8E%87%E5%A7%BF%E6%80%81%E4%BC%B0%E8%AE%A1%E4%B8%8E%E8%BF%BD%E8%B8%AA-HRNet-Deep-High-Resolution-Representation-Learning-for-Human-Pose-Estimation/
还没有评论,来说两句吧...