当前位置:网站首页>BERT为何无法彻底干掉BM25??
BERT为何无法彻底干掉BM25??
2022-06-28 13:27:00 【智源社区】
近些年来,相比传统检索模型,大规模预训练式transformers结构的引入在各类任务上都有显著的提升。而这种提升在不同的数据集上有着特殊的模型设置,而当前依旧无法充分理解这些模型为什么以及如何可以更好的工作。
古人云:知己知彼,方能百战不殆。而现在的NN模型尚不能做到知己,又怎么进行下一步的升级迭代呢?今天让我们来看一下信息检索任务上,基于Bert的交叉编码器相比传统的BM25排序算法的异同有哪些呢?
论文题目:
How Different are Pre-trained Transformers for Text Ranking?
论文链接:
https://arxiv.org/abs/2204.07233
与传统的基于词的方法(如BM25或Query-Likelihood)相比,神经信息检索最近经历了令人印象深刻的性能提升。
由于诸如BERT这类模型具有大量参数,所以它能处理具有长范围依赖和复杂的句子结构。
当将BERT应用于排序时,它可以在query和doc之间构建深度交互,从而允许揭示复杂的关联模式,而不仅仅是简单的term匹配。
到目前为止,BERT交叉编码器所取得的巨大性能增益并没有被很好地解释。
我们对BERT模型到底是基于何种特征来用于计算句子相关性的匹配原则以及使用该模型的排序结果与BM25等传统稀疏排序算法的关系知之甚少。
BERT通过query和doc之间的术语交互直接捕获相关性信号,本文对BERT的交叉编码器(Cross-Encode,下文简称CE)与BM25的排序算法有何联系做一些研究。
首先提出以下几个问题:
RQ1: CE和BM25到底有和不同?
RQ1.2: CE是否对BM25检索到的相同结果进行了更好的排序?
RQ1.3: CE能更好地召回被BM25遗漏的结果吗?
其次,分别量化精确匹配和软匹配对整体效果的贡献,因为它们构成了传统稀疏检索和神经检索匹配范式之间最直接的对比。更具体地说,需要明确以下问题:
RQ2: CE是否能体现term完全匹配?
RQ3: CE能找到“不可能相关”的结果吗?
边栏推荐
- Mobile web training -flex layout test question 1
- 弹性盒子自动换行小Demo
- From PDB source code to frame frame object
- 再谈exception——异常抛出时会发生什么?
- 电驴怎么显示服务器列表,(转)如何更新电驴服务器列表(eMule Server List)
- CodeBlocks MinGW installation configuration problem
- PCB understand Wang, are you? I am not
- Hubble database x a joint-stock commercial bank: upgrade the number management system of Guanzi, so that every RMB has an "ID card"
- 程序员坐牢了,会被安排去写代码吗?
- 移动Web实训-flex布局测试题1
猜你喜欢
Align content attribute in flex layout
初识exception
Commonly used "redmine" for # test bug
Arduino-ESP32闪存文件插件程序搭建和上传
Mysql database literacy, do you really know what a database is
公司领导说,个人代码超10个Bug就开除,是什么体验?
为什么越来越多的用户放弃 Swagger,选择Apifox
5A同步整流芯片 20V转12V2A/5V4.5A大电流 24W大功率同步整流芯片 大电流降压IC FS2462
设计人工智能产品:技术可能性、用户合意性、商业可行性
To be the Italian Islander? Liuqiangdong cashed out 6.6 billion yuan in two months and made a one-time 560million "emergency transfer" to buy the European maritime Palace
随机推荐
The difference between align items and align content
Kubernetes 深入理解Kubernetes(二) 声明组织对象
Data analysis - promoter evolution analysis
thinkphp6 多级控制器目录访问解决方法
华泰证券开户怎么开 怎么办理开户最安全
First knowledge of exception
全志V853芯片 如何在Tina V85x平台切换sensor?
Fh511+tp4333 form an outdoor mobile power lighting camping lamp scheme.
From PDB source code to frame frame object
求职简历的书写技巧
China Radio and television 5g package is coming, lower than the three major operators, but not as low as expected
单元测试 CI/CD
The English translation of heartless sword Zhu Xi's two impressions of reading
PCB懂王,你是吗?我不是
1015. picking flowers
移动Web实训DAY-1
Tiantian mathematics serial 53: February 22
Fs7022 scheme series fs4059a dual two lithium battery series charging IC and protection IC
Centos7 - installing mysql5.7
Unit test ci/cd