当前位置:网站首页>【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021
【多模态】《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021
2022-07-25 11:11:00 【chad_lee】
《HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval》ICCV 2021
快手和北大的工作,视频文本检索任务,即让视频和文本对齐,已经用于快手的各个场景中。
视频-文本对齐方法

现有的视频-文本对齐的方法有三类:
- Two-stream,文本和视觉信息分别通过独立的 Vision Transformer 和 Text Transformer,然后在多模态 Transformer 中融合,代表方法例如 ViLBERT、LXMERT等。
- Single-stream,文本和视觉信息只通过一个多模态 Transformer 进行融合,代表方法例如 VisualBERT、Unicoder-VL等。
- Dual-stream,文本和视觉信息仅仅分别通过独立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT、T2VLAD等。
显然第三类双塔类型的时间开销是最小的,本文也是采用双塔结构,以满足大规模视频文本检索需求。
本文主要有两个创新点:1、不仅在最后一层表征对齐,还在第一层表征对齐。2、引入MoCo的动量更新机制到对比学习匹配中。
第二点比较复杂,每个塔还有一个动量更新塔,因此一共用4个模型(四塔模型)存在。再加上两层对比学习loss,一对pair样本会有4个pair loss需要计算。
模型

首先所有的Encoder都是Transformer。
对于一对video-Text样本,text输入Query Text Encoder和Key Text Encoder,video抽帧,然后拉成序列再输入Query Video Encoder和Key Text Encoder。输出是所有token embedding的pooling。
所以一共有4个Encoder模型获得输入,分别有两个模型(Query-Key)的输入是相同的,Key模型是由Query模型动量更新的。
Key 模型也各自维护一个Text/Video负样本队列。分别有Video作为Query、Text作为Key的对比学习loss;还有Text作为Query、Video作为Key的loss。

然后又在底层和顶层计算loss,又翻倍,因此一共有4个loss。

实验

边栏推荐
- JaveScript循环
- Greedy problem 01_ Activity arrangement code analysis
- W5500通过上位机控制实现调节LED灯带的亮度
- dirReader.readEntries 兼容性问题 。异常错误DOMException
- Learning to Pre-train Graph Neural Networks(图预训练与微调差异)
- 图神经网络用于推荐系统问题(IMP-GCN,LR-GCN)
- 基于TCP/IP在同一局域网下的数据传输
- 【高并发】我用10张图总结出了这份并发编程最佳学习路线!!(建议收藏)
- JS流程控制
- 30 sets of Chinese style ppt/ creative ppt templates
猜你喜欢

"Mqtt protocol explanation and Practice (access to onenet)" of wiznet w5500 series training activities

Small program of vegetable distribution in community

What is the global event bus?

JS process control

Video Caption(跨模态视频摘要/字幕生成)

brpc源码解析(八)—— 基础类EventDispatcher详解

相似矩阵,可对角化条件

The principle analysis of filter to solve the request parameter garbled code

Onenet platform control w5500 development board LED light

【USB设备设计】--复合设备,双HID高速(64Byte 和 1024Byte)
随机推荐
信号与槽机制==PYQT5
[electronic device notes 5] diode parameters and selection
LeetCode第303场周赛(20220724)
[MySQL learning 08]
Similarity matrix, diagonalization condition
11. Reading rumors spread with deep learning
什么是全局事件总线?
brpc源码解析(三)—— 请求其他服务器以及往socket写数据的机制
return 和 finally的执行顺序 ?各位大佬请看过来,
The first C language program (starting from Hello World)
已解决 Files‘ name is invalid or does not exist (1205)
教你如何通过MCU配置S2E为TCP Client的工作模式
Greedy problem 01_ Activity arrangement code analysis
There is no sound output problem in the headphone jack on the front panel of MSI motherboard [solved]
基于TCP/IP在同一局域网下的数据传输
Small program of vegetable distribution in community
Web APIs (get element event basic operation element)
JS数据类型以及相互转换
Layout management ==pyqt5
W5500 is in TCP_ In server mode, you cannot Ping or communicate in the switch / router network.