动作识别《SlowFast Networks for Video Recognition》

短命女 2023-01-23 11:54 271阅读 0赞

核心思想:

Slow Path:低帧率采样,用于识别空间信息。空间语音信息变化缓慢,可以很容易通过空间信息完成类别判断,所以使用低帧率采样就可以。

Fast Path:高帧率采样,用于识别运动信息。时间维度运动信息变化较快,为了捕获更强的运动上下文信息,需要使用高帧率采样。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2N4eDY1NA_size_16_color_FFFFFF_t_70

生物学启发:

论文受到视觉系统的视网膜神经细胞启发,视网膜神经细胞中有80%左右的P-cells用于识别细粒度的空间信息和颜色等,同时在时间维度上具有较低的分辨率,主要致力于变换缓慢的数据信息(对应于论文中的Slow子网络)。有15%-20%左右的M-cells致力于快速的时间维度变换,比如快速运动,但是M-cells对空间信息或者颜色等不敏感(对应于论文中的Fast子网络)。

视频帧采样频率:

Slow分支:Slow分支的采样间隔为t,总共采样T帧

Fast分支:Fast分支的采样帧率是Slow分支的alpha倍,采样频率更高,采样粒度更细,总共采样alpha * T帧。

网络特性:


watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2N4eDY1NA_size_16_color_FFFFFF_t_70 1

Slow子网络:

  1. Slow子网络可以是任何卷积模块,可以是2D或者3D卷积,用于提取图片的空间特征。
  2. **Fast****子网络:**
  3. 为了能得到更高分辨率的时间维度特征,Fast网络不在时间维度上进行降采样操作(包括时间维度上的pooling或者stride > 1的卷积),所以Fast子网络的时间维度大小一直保持alpha \* T
  4. 在保留了高维的时间维度特征之后,为了降低Fast网络的计算量,通过降低Fast网络输出层的channel数量来降低参数量和计算量。Fast网络与Slow网络的结构类似,但是每层的输出通道数只有Slow层的betabeta=8)分支一,这样就大大降低了Fast网络的参数量和计算量,Fast网络的计算量(floating number operations, or FLOPs)占总计算量的20%左右,这也和之前的生物学启发相对应。降低了输出通道数之后,也降低了Fast网络对于空间特征的学习能力。

Slow**、Fast特征融合:**

  1. SlowFast网络的每个阶段都进行一次特征的横向连接融合,将Fast网络的特征单向融合进入Slow网络。由于SlowFast网络具有不同的时间维度,所以横向连接要对Fast的特征进行转换之后再进行融合。

横向连接特征融合:

假设Slow分支的输出特征图形状是20210714192754533.png,Fast分支的输出特征图形状是20210714192603149.png,由于Slow和Fast具有不同的时间维度采样频率,Fast特征的时间维度更大,在特征融合前需要保持特征具有相同的时间维度、相同的空间维度。以下是几种将Fast特征融合到Slow特征的方式:

Time-to-Channel: 把20210714192603151.png形状的特征变换为20210714192845575.png形状的特征。

Time-strided sampling: 从20210714192603154.png帧特征中采样20210714192907225.png帧,将20210714192603153.png形状的特征转换为20210714192603148.png形状的特征。

Time-strided-convolution: 使用卷积核大小为5x1x1的3D卷积,卷积核输出通道数为20210714192939263.png,时间维度的卷积步长为20210714192959338.png,从而将20210714192603152.png形状的特征转换为20210714192603150.png形状的特征。实验证明这种融合方式效果最好。

论文实验中使用的20210714192603177.png,所以Time-to-Channel之后的特征维度是20210714192603147.png,与Slow分支的特征维度相等。Time-strided sampling之后的特征维度是20210714192603176.png,与Slow分支的特征维度不相等。Time-strided-convolution之后的特征维度是20210714192603146.png,与Slow分支的特征维度不相等。所以在进行特征融合实验时,Time-to_Channel与Slow特征形状相同可以使用sum和concat两种融合方式,而Time-to_Channel和Time-strided-convolution由于通道数和Slow不相等,只能进行concat特征融合。

在网络模型的最后,Slow和Fast子网络分别进行pooling,然后将pooling之后的特征进行concat叠加用于最终的模型预测。

对比实验:

对比消融实验得到最优的20210714193344507.png以及Slow、Fast特征融合方式。

发表评论

表情:
评论列表 (有 0 条评论,271人围观)

还没有评论,来说两句吧...

相关阅读