当前位置：网站首页>【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021

【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021

2022-07-25 11:11:00 【chad_lee】

快手和北大的工作，视频文本检索任务，即让视频和文本对齐，已经用于快手的各个场景中。

在这里插入图片描述

现有的视频-文本对齐的方法有三类：

Two-stream，文本和视觉信息分别通过独立的 Vision Transformer 和 Text Transformer，然后在多模态 Transformer 中融合，代表方法例如 ViLBERT、LXMERT等。
Single-stream，文本和视觉信息只通过一个多模态 Transformer 进行融合，代表方法例如 VisualBERT、Unicoder-VL等。
Dual-stream，文本和视觉信息仅仅分别通过独立的 Vision Transformer 和 Text Transformer，代表方法例如 COOT、T2VLAD等。

显然第三类双塔类型的时间开销是最小的，本文也是采用双塔结构，以满足大规模视频文本检索需求。

本文主要有两个创新点：1、不仅在最后一层表征对齐，还在第一层表征对齐。2、引入MoCo的动量更新机制到对比学习匹配中。

第二点比较复杂，每个塔还有一个动量更新塔，因此一共用4个模型（四塔模型）存在。再加上两层对比学习loss，一对pair样本会有4个pair loss需要计算。

在这里插入图片描述

首先所有的Encoder都是Transformer。

对于一对video-Text样本，text输入Query Text Encoder和Key Text Encoder，video抽帧，然后拉成序列再输入Query Video Encoder和Key Text Encoder。输出是所有token embedding的pooling。

所以一共有4个Encoder模型获得输入，分别有两个模型（Query-Key）的输入是相同的，Key模型是由Query模型动量更新的。

Key 模型也各自维护一个Text/Video负样本队列。分别有Video作为Query、Text作为Key的对比学习loss；还有Text作为Query、Video作为Key的loss。

在这里插入图片描述

然后又在底层和顶层计算loss，又翻倍，因此一共有4个loss。

版权声明
本文为[chad_lee]所创，转载请带上原文链接，感谢
https://blog.csdn.net/yanguang1470/article/details/125903295