当前位置:网站首页>【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021
【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021
2022-07-25 11:11:00 【chad_lee】
《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021
快手和北大的工作,视频文本检索任务,即让视频和文本对齐,已经用于快手的各个场景中。
视频-文本对齐方法

现有的视频-文本对齐的方法有三类:
- Two-stream,文本和视觉信息分别通过独立的 Vision Transformer 和 Text Transformer,然后在多模态 Transformer 中融合,代表方法例如 ViLBERT、LXMERT等。
- Single-stream,文本和视觉信息只通过一个多模态 Transformer 进行融合,代表方法例如 VisualBERT、Unicoder-VL等。
- Dual-stream,文本和视觉信息仅仅分别通过独立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT、T2VLAD等。
显然第三类双塔类型的时间开销是最小的,本文也是采用双塔结构,以满足大规模视频文本检索需求。
本文主要有两个创新点:1、不仅在最后一层表征对齐,还在第一层表征对齐。2、引入MoCo的动量更新机制到对比学习匹配中。
第二点比较复杂,每个塔还有一个动量更新塔,因此一共用4个模型(四塔模型)存在。再加上两层对比学习loss,一对pair样本会有4个pair loss需要计算。
模型

首先所有的Encoder都是Transformer。
对于一对video-Text样本,text输入Query Text Encoder和Key Text Encoder,video抽帧,然后拉成序列再输入Query Video Encoder和Key Text Encoder。输出是所有token embedding的pooling。
所以一共有4个Encoder模型获得输入,分别有两个模型(Query-Key)的输入是相同的,Key模型是由Query模型动量更新的。
Key 模型也各自维护一个Text/Video负样本队列。分别有Video作为Query、Text作为Key的对比学习loss;还有Text作为Query、Video作为Key的loss。

然后又在底层和顶层计算loss,又翻倍,因此一共有4个loss。

实验

边栏推荐
猜你喜欢
![[MySQL learning 08]](/img/9e/6e5f0c4c956ca8dc31d82560262013.png)
[MySQL learning 08]

Risks in software testing phase

Brpc source code analysis (VII) -- worker bthread scheduling based on parkinglot

Functions in JS

Attendance system based on w5500

W5500在处于TCP_Server模式下,在交换机/路由器网络中无法ping通也无法通讯。

'C:\xampp\php\ext\php_zip.dll' - %1 不是有效的 Win32 应用程序 解决

Differences in usage between tostring() and new string()

Video Caption(跨模态视频摘要/字幕生成)

JS流程控制
随机推荐
JS作用域以及预解析
软件缺陷的管理
30套中国风PPT/创意PPT模板
Dynamic planning problem 03_ Maximum sub segment sum
'C:\xampp\php\ext\php_zip.dll' - %1 不是有效的 Win32 应用程序 解决
Risks in software testing phase
Teach you how to configure S2E as the working mode of TCP client through MCU
Various controls ==pyqt5
JaveScript循环
A beautiful gift for girls from programmers, H5 cube, beautiful, exquisite, HD
[leetcode brush questions]
Brpc source code analysis (VIII) -- detailed explanation of the basic class eventdispatcher
Video Caption(跨模态视频摘要/字幕生成)
教你如何通过MCU将S2E配置为UDP的工作模式
Plot ==pyqt5
11. Reading rumors spread with deep learning
银行理财子公司蓄力布局A股;现金管理类理财产品整改加速
JS scope and pre parsing
[imx6ull notes] - a preliminary exploration of the underlying driver of the kernel
dirReader.readEntries 兼容性问题 。异常错误DOMException