当前位置:网站首页>Towhee 每周模型
Towhee 每周模型
2022-07-23 09:12:00 【Zilliz】
周报出品人:Towhee 技术团队
本周我们分享 5 个视频相关的 AI 模型:
轻便好用的视频动作识别模型系列 MoViNets、实现文本与视频跨模态搜索的 CLIP4Clip、比 CLIP4Clip 更好的视频检索模型 DRL、挣脱视频数据局限的 Frozen in Time、对冠军模型 MMT 再次升级的 MDMMT。
如果你觉得我们分享的内容还不错,请不要吝啬给我们一些免费的鼓励:点赞、喜欢、或者分享给你的小伙伴。
MoViNets系列模型,手机端实时分类视频的好帮手
需要视频理解,但是嫌模型太重、耗时太久?轻量动作识别模型再次升级,由谷歌研究院在2021年提出的 MoViNets 系列能够更加高效地在现推理流媒体视 频,并支持实施分类移动设备端捕获的视频流。MoViNets 在视频动作识别的通用数据集 Kinetics、Moments in Tme 和 Charades 上均获得了先进的精度和效率,证明了其高效性和广泛适用性。

MoViNets: Streaming Evaluation vs. Multi-Clip Evaluation
MoViNets 是一个卷积神经网络系列,对 2D 视频分类器和 3D 视频分类器取长补短,兼容它们的关键优势,并减轻各自的局限性。该系列模型通过神经结构搜索获得丰富的高效视频网络结构,引用流缓冲技术使得3D卷积能够接受任意长度的流视频序列,再简单地集成多个模型用于提高精度,最终有效地平衡计算量、内存开销、精度。
相关资料:
- 模型用例:action-classification/movinet
- 论文:MoViNets: Mobile Video Networks for Efficient Video Recognition
- 更多资料:MoViNets:让实时视频理解成为现实
多模态模型 CLIP4Clip 带你实现文本与视频互搜
CLIP4Clip 以跨模态图文模型 CLIP 为基础,成功地实现了文字/视频检索任务。**无论是由文字寻找相关内容视频,还是自动为视频匹配最合适的描述,CLIP4Clip 都能帮你做到。**通过大量的消融实验,CLIP4Clip 证明了自己的有效性,并在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 等文本-视频数据集上实现了 SoTA 结果。

CLIP4Clip: Main Structure
CLIP4Clip 基于预训练好的图文模型,通过迁移学习或者微调完成视频检索的任务。它使用预训练的 CLIP 模型作为主干网络,解决了从帧级输入的视频片段检索任务,并使用了无参数类型 、序列类型和紧密类型相似性计算器来获得最终结果。
相关资料:
- 模型用例: video-text-embedding/clip4clip
- 论文: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
- 更多资料: CLIP4Clip: CLIP 再下一城,利用CLIP实现视频检索
拥有更好的文本视频交互,DRL 分离框架改进 CLIP4Clip
尽管 CLIP4Clip 实现了跨模态文本/视频检索,但该网络结构依然存在一些局限性或改进空间。于是2022年初,便有 DRL(Disentangled Representation Learning)跨模态匹配不同粒度的内容。 在视频检索任务中,改良后的模型大幅提升了在各大文本视频数据集上的精度。

Overview of DRL for Text-Video Retrieval
CLIP4Clip 在计算文本和视频的相似度时,只考虑了两个模态的总体表征,缺少细粒度的交互。比如,当文字描述只对应了视频的一部分帧时,如果抽取视频的整体特征,那么模型可能会被其它视频帧的信息干扰与误导。DRL对 CLIP4Clip 提出两个重要改进,一个是 Weighted Token-wise Interaction,进行相似度的稠密预测,通过 max 操作找到潜在的激活的 token。另一个是Channel Decorrelation Regularization,通道去相关正则可以减少通道间信息的冗余和竞争,使用协方差矩阵度量通道上的冗余。
相关资料:
- 模型用例: video-text-embedding/drl
- 论文: Disentangled Representation Learning for Text-Video Retrieval
- 更多资料: 视频多模态预训练/检索模型
将图像视作视频快照,Frozen in Time 挣脱多模态视频检索的数据局限
牛津大学在 ICCV2021 发表了 Frozen in Time,灵活地利用文本/图像和文本/视频数据集,提供了端到端的视频图像联合编码器。该模型是对最近的 ViT 和 Timesformer 结构的修改和扩展,并且包括在空间和时间上的注意力。

Frozen in Time: Joint Image and Video Training
Frozen in Time 可以单独或者结合使用文本图像和文本视频数据集进行训练。使用图像训练时,模型将其视为视频的冻结快照,在训练中逐渐学习到时间层面的上下文。此外,作者还提供了一个新的视频文本预训练数据集 WebVid-2M ,包含200万多个视频。尽管训练量相比其他通用数据集要小一个数量级,但实验表明,使用该数据集预训练的模型在标准的下游视频检索基准 (包括 MSR-VTT、MSVD、DiDeMo、LSMDC) 上均能产生SOTA的结果。
相关资料:
- 模型用例: video-text-embedding/frozen-in-time
- 论文: Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval
- 更多资料: ICCV2021-《Frozen in Time》-牛津大学新的预训练视频文本数据集WebVid-2M,设计用于端到端检索的联合视频和图像编码器!代码已开源!
从 MMT 到 MDMMT,全面优化文本视频检索
MDMMT 发表于 2021 年,是对前年 cvpr 视频五项全能挑战赛冠军 MMT (发表于 ECCV 2020) 的一项扩展研究。该研究在训练数据集上进行了尝试和优化,持续领跑文本视频检索赛道。

MMT: Cross-modal Framework
MMT 用于提取、融合视频特征,包括图像特征、语音特征和语音对应的文字特征等。首先对于三个模态的处理分别采用了预训练的专家网络提取特征,之后对于每一个模态特征,还会使用 maxpool 生成一个整合特征。将整合特征和对应的模态特征序列拼接,再把不同模态组特征拼接。还会对每个模态学习一个对应的模态标志特征插入,以及对应的不同帧特征插入。即对每个特征附加上属于的模态信息和帧序号信息。MDMMT 使用与 MMT 相同的损失函数以及相近的结构,但在超参上有所优化。
相关资料:
- 模型用例: video-text-embedding/mdmmt
- 论文: MDMMT: Multidomain Multimodal Transformer for Video RetrievalMulti-modal Transformer for Video Retrieval
- 更多资料: 视频多模态预训练/检索模型
更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/towhee/blob/main/towhee/models/README_CN.md) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :) 
边栏推荐
- 【我可以做你的第一个项目吗?】GZIP的细节简介和模拟实现
- Optimisation du serveur Cloud Huawei avec connexion clé
- Surrounded Regions
- 关于flex布局justify-content:space-around最后一个不对齐的解决方法和为什么这样子解决是讨论
- Chapitre 2 requête de base et tri
- C language implements StrCmp, strstr, strcat, strcpy
- webstrom ERROR in [eslint] ESLint is not a constructor
- [WinForm] desktop program implementation scheme for screenshot recognition and calculation
- After using vscode to format the code, save and find that the code is messy again. What should I do? Vs remove formatting
- C语言入门实战(11):输入一组正整数,求逆序数的和
猜你喜欢

Tensor, numpy, PIL format conversion and image display

【附下载】值得收藏的几款渗透测试常用的脚本

Pagehepler lost the pit of the original SQL order by condition

ValidationError: Invalid options object. Dev Server has been initialized using an options object th

右键新建txt,新建文本文件不见了,通过添加注册表就可以解决,找来找去办法解决不了的终极办法

扁平样式反馈表单页面

【FLink】FLink Hash collision on user-specified ID “opt“. Most likely cause is a non-unique ID

对象使用过程中背后调用了哪些方法

利用js自动解析执行xss

【面试高频】cookie、session、token?看完再也不担心被问了
随机推荐
云呐|怎样管理固定资产?如何进行固定资产管理?
链下数据互操作
JS software unloading prompt expression changes with the mouse JS special effect
requests库大型爬虫开发经验
webstrom ERROR in [eslint] ESLint is not a constructor
CPU, memory, disk speed comparison
Chapter 2 basic query and sorting
手机股票开户风险性大吗,安全吗?
【C语言】猜数字小游戏+关机小程序
C language implementation of classroom random roll call system
Sword finger offer19 regular expression
Chapter 4 set operation
【测试平台开发】21. 完成发送接口请求显示响应头信息
C语言实现memcpy、memmove
Okrk3399 Development Board reserves i2c4 to mount EEPROM
Ffmpeg 1 - Overview / installation
[download attached] several scripts commonly used in penetration testing that are worth collecting
[paper notes] mobile robot navigation method based on hierarchical depth reinforcement learning
扁平样式反馈表单页面
Some libraries that can perform 2D or 3D triangulation