当前位置:网站首页>word2vec介绍及CNN在自然语言中的应用
word2vec介绍及CNN在自然语言中的应用
2022-07-13 18:20:00 【booze-J】
Word2vec
当我们分析图片或者语音的时候,我们通常都是在分析密集的,高纬度的数据集。我们所需的全部信息都储存在原始数据中。
- 当我们处理自然语言问题的时候,我们通常会做分词,然后给每一个词一个编号,比如猫的编号是120,狗的编号是343。比如女生的编号是1232,女王的编号是2329。这些编号是没有规律,没有联系的,我们从编号中不能得到词与词之间的相关性。
- 例如:How are you?
How 234
Are:7
you:987
从one-hot编码中就可以看到这样就会浪费很多的空间,大多数都是0,真正有用的数据就是一个1,所以当词料库很大的时候整体直接进行one-hot编码是不可取的。
Word2vec的两种模型
连续词袋模型(CBOW)
根据词的上下文词汇来预测目标词汇,例如上下文词汇是“今天早餐吃_”,要预测的目标词汇可能是“面包"
Skip-Gram模型
Skip-Gram模型刚好和CBOW相反,它是通过目标词汇来预测上下文词汇。例如目标词汇是“早餐”,上下文词汇可能是“今天”和“吃面包”
CBOW和Skip-Gram
- 对于这两种模型的训练,我们可能容易想到,使用softmax作为输出层来训练网络。这个方法是可行的,只不过使用softmax作为输出层计算量将会是巨大的。假如我们已知上下文,需要训练模型预测目标词汇,假设总共有50000个词汇,那么每一次训练都需要计算输出层的50000个概率值。
- 所以训练Word2vec模型我们通常可以选择使用噪声对比估计(Noise Contrastive Estimation)NCE使用的方法是把上下文h对应地正确的目标词汇标记为正样本(D=1),然后再抽取一些错误的词汇作为负样本(D=0)。然后最大化目标函数的值。

- 当真实的目标单词被分配到较高的概率,同时噪声单词的概率很低时,目标函数也就达到最大值了。计算这个函数时,只需要计算挑选出来的k个噪声单词,而不是整个语料库。所以训练速度会很快。
Word2vec图形化


CNN在自然语言处理的应用
- 说到CNN我们首先可能会想到CNN在计算机视觉中的应用。近几年CNN也开始应用于自然语言处理,并取得了一些引人注目的成绩。
- CNN应用于NLP的任务,处理的往往是以矩阵形式表达的句子或文本。矩阵中的每一行对应于一个分词元素,一般是一个单词,也可以是一个字符。也就是说每一行都是一个词或者字符的向量(比如前面说到的word2vec)。假设我们一共有10个词,每个词都用128维的向量来表示,那么我们就可以得到一个10x128维的矩阵。这个矩阵就相当于是一副“图像”。

把自然语言中的句子转换成矩阵的形式,然后对其进行卷积和池化,池化后拼起来,用个全连接层连接到最后的分类。
边栏推荐
- RT_ Use of thread event set
- 研发中台拆分过程的一些心得总结
- 小程序毕设作品之微信企业公司小程序毕业设计(6)开题答辩PPT
- Force buckle 719 Find the distance of the number pair with the smallest K
- C restated value type
- Last CSDN blog
- Remember that the app did not respond to UI automation once
- How to continue to improve after software testing?
- [daily question 1] find the nearest common ancestor of two nodes in the binary tree
- CVPR | 基于密度与深度分解的自增强非成对图像去雾
猜你喜欢

Flutter:环境搭建、项目创建

一位 sealer maintainer 的心路历程

Mallbook: how to promote the rapid implementation of supply chain finance through the supply chain settlement management system?

"Telecom grade" has been running for many years, and CICA technology has launched the core transaction database antdb7.0

微信小程序页面的跳转和导航的配置和vant组件

JMeter 常用的几种断言方法,你会了吗?

小白必学的现货黄金知识(24个术语)

EasyCVR视频广场快照添加设备通道离线原因显示

51单片机智能家居环境检测 烟雾温度GSM短信提示报警器(原理图+程序+仿真+PCB)

MallBook:如何通过供应链结算管理系统推动供应链金融快速落地?
随机推荐
The source code is compiled according to mongoc
How to disable shutter raisedbutton
Spot gold knowledge that Xiaobai must learn (24 terms)
2022 云原生编程挑战赛启动!导师解析服务网格赛题
一位 sealer maintainer 的心路历程
51单片机智能家居环境检测 烟雾温度GSM短信提示报警器(原理图+程序+仿真+PCB)
Last CSDN blog
Cocoscreator animation and particles move according to the painting path
功能测试如何快速转向自动化测试
测试的核心价值到底是什么?
第54章 业务逻辑之折扣、商品类别实体定义实现
Common regular expressions
Quick sorting · example 2
【u-boot】u-boot Sandbox编译构建和使用总结
Tc397 lmuram use
The latest trend of London Silver depends on the K line
解决GD32F20X支持包安装后打开官方例程无法识别芯片问题
记一次UI自动化导致APP未响应问题
AI移动端优化之Im2Col+Pack+Sgemm
Im2col+pack+sgemm optimized for AI mobile terminal