当前位置:网站首页>《Attentional Encoder Network for Targeted Sentiment Classification》论文阅读
《Attentional Encoder Network for Targeted Sentiment Classification》论文阅读
2022-07-13 19:34:00 【jst100】
文章地址:https://arxiv.org/pdf/1902.09314.pdf
文章内容
之前处理基于特定方面实体的情感分类大多使用RNN和注意力机制进行建模,然而RNN河南并行化,而且句子过长时也给长期记忆带来困难。因此该问提出了一种注意力编码网络AEN(Attentional Encoder Network),来对上下文和目标实体进行建模。并且该文还提出了标签不可靠性问题,从而引入了标签平滑正则化。
文章方法

嵌入层
这里作者采用了两种方式来实现,一个是静态词嵌入Glove,也就是已经训练好的,另一个是BERT模型,作者的构建的方式有2种,对于上下文为“[CLS] + context + [SEP]”,对于目标实体为“[CLS] + target
- [SEP]”。除此之外作者还做了一个只有BERT的对比模型叫BERT-SPC,其构造方式为“[CLS] + context + [SEP] + target + [SEP]”。
注意力层
作者这里是借鉴了多头注意里机制设计了2种方式:
Intra-MHA,这里注意力机制的k和v都为context也就是上下文,就是内部注意力机制,公式如下:
Inter-MHA即交互注意力机制,q为context而k为目标实体,也就是要学习目标实体和上下文的交互关系,公式如下:
Point-wise Convolution Transformation
在MHA的输出后面作者接了一个逐点卷积变换(PCT),从而进一步提取注意力机制的信息,其中逐点的含义为内核为1的CNN,具体公式如下所示:
目标特定注意力层
除了将内部和交互注意力机制各自通过PCT以外,作者还对这二者又应用了一个MHA来获得目标特定的上下文表示(说实话,不太理解物理意义是啥)公式如下所示:
输出层
最后的输出就是三者的拼接起来然后接一个平均池化,具体公式如下:
标签平滑
标签平滑的思想就是让模型最后的比较结果不是0或1这种硬标签,而是0.1,0.9这样的标签,从而实现一个正则化的目的:
这里作者设计的平滑分数就是类别数目的倒数,最终损失计算如下:
边栏推荐
猜你喜欢
随机推荐
音视频学习(六)——PCM音频基础
冒泡排序法
[untitled]
C语言开发环境搭建:VSCode+GCC
Anonymous pipeline principle and detailed explanation (very practical)
Odoo 的安全性
odoo manifest. Py file details
odoo多公司
用 AnimatedBuilder 分离组件和动画,实现动效复用
Shutter renderflex overflowed by pixels on the bottom keyboard pop-up warning exception
Selected multiple choice questions of spark final exam
成员函数之构造函数
Hcip second experiment
2,jvm对象创建与内存分配
The computer regularly clears wechat data
The use of lambda function in odoo
建立自己的网站(21)
X书关键词搜索
Séquence de traversée de l'ordre initial et de l'ordre moyen pour déterminer un arbre binaire (restauration de l'arbre binaire)
内存映射原理及详解(非常实用)







