当前位置:网站首页>论文阅读【Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset】
论文阅读【Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset】
2022-06-23 08:05:00 【hei_hei_hei_】
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
- 发表:2017 CVPR
- 主要贡献:(1)公开了一个大型的视频数据集,可以用于迁移学习和网络训练。(2)提出了一个新的视频动作分类模型I3D。
之前的模型
a. ConvNet+LSTM
先用CNN提取图像的空间特征,然后顺序输入LSTM中提取时序特征,最后的隐层用于动作分类。
ps:但是效果并不是很好,因此并不普及
b. 3D-ConvNet
将一段视频输入,用3D卷积直接学习视频的的时空特征。将二维的Conv和Pooling都换成3D的
ps:参数量巨大,对于小数据集难以训练,但是效果还行
c. Two-Strean
用光流信息(光的流动,即视频中目标的运动轨迹)对时序特征进行建模。左边的卷积网络的输入是一帧或多帧图像,用于学习图像的场景信息;右边的卷积网络输入是视频的光流图,用于学习物体的运动信息
ps:模型较简单,且容易训练,只需要提取视频的光流图然后学习到分类动作的映射即可,使用较为广泛
d. 3D-Fused Two-Stream
b和c的结合版,将c中的加权平均换成了3D ConvNet
总结:在数据充足的条件下,3DConv比2DConv要好很多,但是仍然会有一些东西学习得不好(可能需要额外的信息如光流图进行补充)
模型框架

(1)inflating
将2D的网络“膨胀”成3D,保持架构不变。网络架构统统不变,仅仅是将2D Conv换成3D Conv,2D Pooling换成3D Pooling。这样就可以直接使用之前的2D网络
(2)Bootstrapping
如何将训练好的2D模型的参数对3D模型进行初始化。基本想法是对于同样的输入,两个模型的输出应该是一致的。具体是将一张图像复制n次形成一段视频,2D的参数在时间纬度上复制n次,然后参数除以n(rescaling,用于保证输入和输出一致)
(3)模型细节

ps:不过现在基本上用的是Resnet
边栏推荐
- GTEST death test
- View the file once a second and send the result of the last line of the file to the syslog server
- After easynvr video is enabled, no video file is generated. How to solve this problem?
- C# richTextBox控制最大行数
- Active Directory之AD对象
- transform的结构及用法
- 坑爹的“敬业福”:支付宝春晚红包技术大爆发
- Basic use of check boxes and implementation of select all and invert selection functions
- After reading five books, I summarized these theories of wealth freedom
- C Advanced Learning -- extended method (this)
猜你喜欢

vtk.js鼠标左键滑动改变窗位和窗宽

RTSP/ONVIF协议视频平台EasyNVR启动服务报错“service not found”,该如何解决?

PHP serialization and deserialization CTF

实战监听Eureka client的缓存更新

Observer mode

如何在conda虚拟环境开启jupyter-notebook

建立一有序的顺序表,并实现下列操作: 1.把元素x插入表中并保持有序; 2.查找值为x的元素,若找到将其删除; 3.输出表中各元素的值。

vtk. JS left mouse button sliding to change window level and window width
![Vulnhub | DC: 4 | [combat]](/img/33/b7422bdb18f39e9eb55855dbf1d584.png)
Vulnhub | DC: 4 | [combat]

VTK. Le bouton gauche de la souris JS glisse pour changer le niveau et la largeur de la fenêtre
随机推荐
Leetcode 173 Binary search tree iterator (2022.06.22)
jmeter压测结果分析
How to mine keywords and improve user experience before website construction?
Location of firewalld configuration file
Vulnhub | DC: 4 |【实战】
【论文笔记】Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection*
“方脸老师”董宇辉再回应热度下降:把农产品直播做好让农民受益 考虑去支教
Create an orderly sequence table and perform the following operations: 1 Insert element x into the table and keep it in order; 2. find the element with the value of X, and delete it if found; 3. outpu
vtk.js鼠標左鍵滑動改變窗比特和窗寬
Huawei ECS EIP cannot be pinged
domain controller
INT 104_LEC 06
11 string function
Generate code 39 extension code in batch through Excel file
Vulnhub | DC: 4 | [combat]
Rotary table visual screening machine and its image recognition system
vtk.js鼠标左键滑动改变窗位和窗宽
How can easycvr access the Dahua CVS video recorder and download a video file with an empty name?
训练后的随机森林模型导出和加载
Implementation principle and source code analysis of ThreadPoolExecutor thread pool