当前位置：网站首页>Towhee 每周模型

Towhee 每周模型

2022-07-23 09:12:00 【Zilliz】

周报出品人：Towhee 技术团队

本周我们分享 5 个视频相关的 AI 模型：

轻便好用的视频动作识别模型系列 MoViNets、实现文本与视频跨模态搜索的 CLIP4Clip、比 CLIP4Clip 更好的视频检索模型 DRL、挣脱视频数据局限的 Frozen in Time、对冠军模型 MMT 再次升级的 MDMMT。

如果你觉得我们分享的内容还不错，请不要吝啬给我们一些免费的鼓励：点赞、喜欢、或者分享给你的小伙伴。

MoViNets系列模型，手机端实时分类视频的好帮手

需要视频理解，但是嫌模型太重、耗时太久？轻量动作识别模型再次升级，由谷歌研究院在2021年提出的 MoViNets 系列能够更加高效地在现推理流媒体视频，并支持实施分类移动设备端捕获的视频流。MoViNets 在视频动作识别的通用数据集 Kinetics、Moments in Tme 和 Charades 上均获得了先进的精度和效率，证明了其高效性和广泛适用性。

MoViNets: Streaming Evaluation vs. Multi-Clip Evaluation

MoViNets 是一个卷积神经网络系列，对 2D 视频分类器和 3D 视频分类器取长补短，兼容它们的关键优势，并减轻各自的局限性。该系列模型通过神经结构搜索获得丰富的高效视频网络结构，引用流缓冲技术使得3D卷积能够接受任意长度的流视频序列，再简单地集成多个模型用于提高精度，最终有效地平衡计算量、内存开销、精度。

相关资料：

模型用例：action-classification/movinet
论文：MoViNets: Mobile Video Networks for Efficient Video Recognition
更多资料：MoViNets：让实时视频理解成为现实

多模态模型 CLIP4Clip 带你实现文本与视频互搜

CLIP4Clip 以跨模态图文模型 CLIP 为基础，成功地实现了文字/视频检索任务。**无论是由文字寻找相关内容视频，还是自动为视频匹配最合适的描述，CLIP4Clip 都能帮你做到。**通过大量的消融实验，CLIP4Clip 证明了自己的有效性，并在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 等文本-视频数据集上实现了 SoTA 结果。

CLIP4Clip: Main Structure

CLIP4Clip 基于预训练好的图文模型，通过迁移学习或者微调完成视频检索的任务。它使用预训练的 CLIP 模型作为主干网络，解决了从帧级输入的视频片段检索任务，并使用了无参数类型、序列类型和紧密类型相似性计算器来获得最终结果。

相关资料：

模型用例: video-text-embedding/clip4clip
论文: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
更多资料： CLIP4Clip: CLIP 再下一城，利用CLIP实现视频检索

拥有更好的文本视频交互，DRL 分离框架改进 CLIP4Clip

尽管 CLIP4Clip 实现了跨模态文本/视频检索，但该网络结构依然存在一些局限性或改进空间。于是2022年初，便有 DRL（Disentangled Representation Learning）跨模态匹配不同粒度的内容。在视频检索任务中，改良后的模型大幅提升了在各大文本视频数据集上的精度。

Overview of DRL for Text-Video Retrieval

CLIP4Clip 在计算文本和视频的相似度时，只考虑了两个模态的总体表征，缺少细粒度的交互。比如，当文字描述只对应了视频的一部分帧时，如果抽取视频的整体特征，那么模型可能会被其它视频帧的信息干扰与误导。DRL对 CLIP4Clip 提出两个重要改进，一个是 Weighted Token-wise Interaction，进行相似度的稠密预测，通过 max 操作找到潜在的激活的 token。另一个是Channel Decorrelation Regularization，通道去相关正则可以减少通道间信息的冗余和竞争，使用协方差矩阵度量通道上的冗余。

相关资料:

模型用例: video-text-embedding/drl
论文: Disentangled Representation Learning for Text-Video Retrieval
更多资料：视频多模态预训练/检索模型

将图像视作视频快照，Frozen in Time 挣脱多模态视频检索的数据局限

牛津大学在 ICCV2021 发表了 Frozen in Time，灵活地利用文本/图像和文本/视频数据集，提供了端到端的视频图像联合编码器。该模型是对最近的 ViT 和 Timesformer 结构的修改和扩展，并且包括在空间和时间上的注意力。

Frozen in Time: Joint Image and Video Training

Frozen in Time 可以单独或者结合使用文本图像和文本视频数据集进行训练。使用图像训练时，模型将其视为视频的冻结快照，在训练中逐渐学习到时间层面的上下文。此外，作者还提供了一个新的视频文本预训练数据集 WebVid-2M ，包含200万多个视频。尽管训练量相比其他通用数据集要小一个数量级，但实验表明，使用该数据集预训练的模型在标准的下游视频检索基准 (包括 MSR-VTT、MSVD、DiDeMo、LSMDC) 上均能产生SOTA的结果。

相关资料：

模型用例: video-text-embedding/frozen-in-time
论文: Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval
更多资料： ICCV2021-《Frozen in Time》-牛津大学新的预训练视频文本数据集WebVid-2M，设计用于端到端检索的联合视频和图像编码器！代码已开源！

从 MMT 到 MDMMT，全面优化文本视频检索

MDMMT 发表于 2021 年，是对前年 cvpr 视频五项全能挑战赛冠军 MMT (发表于 ECCV 2020) 的一项扩展研究。该研究在训练数据集上进行了尝试和优化，持续领跑文本视频检索赛道。

MMT: Cross-modal Framework

MMT 用于提取、融合视频特征，包括图像特征、语音特征和语音对应的文字特征等。首先对于三个模态的处理分别采用了预训练的专家网络提取特征，之后对于每一个模态特征，还会使用 maxpool 生成一个整合特征。将整合特征和对应的模态特征序列拼接，再把不同模态组特征拼接。还会对每个模态学习一个对应的模态标志特征插入，以及对应的不同帧特征插入。即对每个特征附加上属于的模态信息和帧序号信息。MDMMT 使用与 MMT 相同的损失函数以及相近的结构，但在超参上有所优化。

相关资料: