动作识别《X3D: Expanding Architectures for Efficient Video Recognition》

傷城~ 2022-10-04 12:54 210阅读 0赞

开源代码：https://github.com/facebookresearch/SlowFast

核心思想：

论文的核心思想是在考虑计算量和准确率的折中前提下，只沿着时间维度进行扩展并不一定比沿着其他维度扩展模型效果更好，尤其在低计算量的限制下，沿着其他维度进行扩展可能准确率提升更快。

X3D方法尝试从不从的维度对2D卷积进行扩展，使其适用于3D时空数据处理，扩展的维度包括时间维度大小、采样帧率、输入的分辨率大小、卷积核的数量、时间维度的卷积设置以及网络的深度。

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2N4eDY1NA_size_16_color_FFFFFF_t_70

坐标下降方法参考：https://zhuanlan.zhihu.com/p/129279351

借鉴机器学习中的特征选择方法：

1、前向特征选择：不断加入新特征直至性能不在提升

2、后向特征选择：不断移除无关特征直至性能出现明显下降

对于将2D网络扩展到3D网络，作者提出以下问题：

1、3D网络的最佳采样策略是什么？是长视频的稀疏采样，还是短视频的密集采样？

2、对于视频分类任务，是否需要细粒度的空间分辨率特征？当空间分辨率达到一定条件时，视频分类的性能会不会达到饱和？

3、是采用高帧率（时间维度长）低通道数（width小）还是采用低帧率（时间维度短）高通道数（width大）的模型性能更好？

4、当增加网络宽度时，是增加ResBlock的宽度还是增加ResBlock的bottleneck层的宽度？

5、为了保证具有足够的感受野大小，在增加网络深度的同时要不要增加输入的图像分辨率大小？

X2D**网络：**

各个维度的扩展参数、、、、、全都为1.

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2N4eDY1NA_size_16_color_FFFFFF_t_70 1

X2D**网络特性：**

残差模块中的3D卷积模块3x3x3采用了与MobileNetV1使用的深度可分离卷积来降低卷积模块的参数量和计算量pytorch卷积操作nn.Conv中的groups参数用法解释
上图中的第一个卷积层conv1是对RGB图像进行逐个通道卷积，那么对于RGB三通道图像，卷积之后输出24个通道，是不是只需要8组3x1的卷积核就可以，这点没太理解？？？
X2D在时间维度上与SlowFast网络保持一致，网络的每一步中不会改变时间维度的大小，也就是说不会在时间维度上使用pooling池化或者conv卷积操作

X3D**网络（对X2D进行维度扩充）：**

各个扩展维度解释：

X-Fast：在保证采样视频片段长度的情况下，增加采样频率，从而增加时间维度的分辨率，也就是增加输入到网络的时间维度大小。

X-Temporal：同时增加采样的视频片段长度和采样频率，从而增加输入到网络的时间维度大小。

X-Spatial：增加输入到网络的图像分辨率大小

X-Depth：通过增加ResNet每个ResBlock层数来增加网络深度

X-Width：统一的增加各卷积层的输出通道数，来增加网络的宽度

X-Bottleneck：增加每个残差模块bottleneck卷积层的输出通道数

模型扩展后的评价指标：

J指标度量网络性能，如准确率

C指标度量网络的计算量，如浮点运算次数

前向扩展：每次只改变一个参数，保持其余参数不变，逐步增加模型的计算量和模型复杂度

后向压缩：如果模型正向扩展之后的计算量超过了限制，则反向压缩再次对扩展的参数进行修正以降低模型的计算量

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2N4eDY1NA_size_16_color_FFFFFF_t_70 2

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2N4eDY1NA_size_16_color_FFFFFF_t_70 3

扩展网络参数实验结果：

1、扩展任何维度和X2D对比都能带来性能的提升

2、首先带来性能提升的并不是直觉上以为的temporal时间维度，而是扩展ResBlock残差模块的输出通道数带来的提升更大

3、之后才是扩展输入网络的帧数，也就是扩展时间维度大小带来的提升更大

4、然后是扩展输入网络的图像分辨率大小

5、X3D和SlowFast网络的Fast分支类似，采用了更高的时间维度分辨率（输入的时间维度大小）和更低的网络宽度（输出通道数）

发表评论取消回复

表情：

评论列表（有 0 条评论，210人围观）

还没有评论，来说两句吧...

相关阅读

相关动作识别《SlowFast Networks for Video Recognition》

核心思想： Slow Path:低帧率采样，用于识别空间信息。空间语音信息变化缓慢，可以很容易通过空间信息完成类别判断，所以使用低帧率采样就可以。 Fast Path:高帧

短命女/ 2023年01月23日 11:54/ 0 赞/ 276 阅读

相关 python动作识别库_用于动作识别的3D ResNets

3D ResNets for Action Recognition Update (2020/4/13) We published a paper on arXiv. W

怼烎@/ 2022年10月25日 14:27/ 0 赞/ 261 阅读

相关动作识别《X3D: Expanding Architectures for Efficient Video Recognition》

开源代码：[https://github.com/facebookresearch/SlowFast][https_github.com_facebookresearch_Sl

傷城~/ 2022年10月04日 12:54/ 0 赞/ 211 阅读

相关三维人脸识别预处理,3D face recognition preprocess

[http://blog.csdn.net/smartempire/article/details/31373817][http_blog.csdn.net_smartempi

约定不等于承诺〃/ 2022年08月24日 00:42/ 0 赞/ 302 阅读

相关 Cocos2d-js 3.x 动作

`Action` 对象就像它看起来的一样, 让 `Node` 执行一个对属性的变化. `Action` 对象允许及时地转化`Node` 属性。继承自 `Node` 的对都可以

r囧r小猫/ 2022年08月02日 21:28/ 0 赞/ 298 阅读

相关 Cocos2d-x学习笔记（3） - 动作

对于一个游戏来说，动作是非常重要的，好的动作可以使游戏的可玩性大大提高，在cocos2d-x引擎中有一个动作类，CCAction是动作类的基类，动作是定义在节点（CCN

╰半橙微兮°/ 2022年06月12日 07:12/ 0 赞/ 242 阅读

相关 [骨架动作识别]A New Representation of Skeleton Sequences for 3D Action Recognition

A New Representation of Skeleton Sequences for 3D Action Recognition CVPR 2017 本文的主要

小灰灰/ 2022年06月04日 07:18/ 0 赞/ 284 阅读

相关 Two-Stream RNN/CNN for Action Recognition in 3D Videos－阅读笔记

在youtube上看到这篇论文的视频，做的效果还不错，简单阅读一下： \- 视频链接：[https://www.youtube.com/watch?v=G0PXKCEgIo

╰半夏微凉°/ 2022年06月04日 02:35/ 0 赞/ 219 阅读

相关基于深度学习的３D骨架动作识别

关于２Ｄ视频动作识别，请移步这两篇[博客1][1],[博客2][2] ３Ｄ骨架动作识别，现在主要有两种方法，一是用LSTM进行时序上的记忆，二是将骨架坐标转换成特殊的图片，用

梦里梦外;/ 2022年05月20日 09:41/ 0 赞/ 570 阅读

相关 Action Recognition——基于表示的动作识别综述

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ub

谁借莪１个温暖的怀抱￠/ 2022年04月05日 14:47/ 0 赞/ 310 阅读