当前位置:网站首页>自然语言处理之命名实体识别-tanfordcorenlp-NER(一)
自然语言处理之命名实体识别-tanfordcorenlp-NER(一)
2020-11-06 01:28:00 【IT界的小小小学生】
转载请注明出处:https://blog.csdn.net/HHTNAN
简介
CoreNLP 项目是Stanford开发的一套开源的NLP系统。包括tokenize, pos , parse 等功能,与SpaCy类似。SpaCy号称是目前最快的NLP系统, 并且提供现成的python接口,但不足之处就是目前还不支持中文处理, CoreNLP则包含了中文模型,可以直接用于处理中文, 但CoreNLP使用Java开发,python调用稍微麻烦一点。
Stanford CoreNLP是一个比较厉害的自然语言处理工具,很多模型都是基于深度学习方法训练得到的。
先附上其官网链接:
https://stanfordnlp.github.io/CoreNLP/index.html
https://nlp.stanford.edu/nlp/javadoc/javanlp/
https://github.com/stanfordnlp/CoreNLP
安装Installation
windows 10 环境
安装依赖
1.首先需要配置JDK,安装JDK 1.8及以上版本。。
2.之后到 https://stanfordnlp.github.io/CoreNLP/history.html 下载对应的jar包。
将压缩包解压得到目录,再将语言的jar包放到这个目录下即可。
3.下载Stanford CoreNLP文件:http://stanfordnlp.github.io/CoreNLP/download.html

4.下载中文模型jar包(注意一定要下载这个文件,否则它默认是按英文来处理的)。

5.接下来py安装 stanfordcorenlp

6. 解压配置
下载完成后两个文件加起来1G+下载完成后两个文件加起来1G+

把解压后的Stanford CoreNLP文件夹下载的Stanford-chinese-corenlp-2018—models.jar放在同一目录下(注意:一定要在同一目录下,否则执行会报错)

7. 在Python中引用模型,执行下面语句:
from stanfordcorenlp import StanfordCoreNLP
nlp=StanfordCoreNLP(r’D:\D:\stanford_nlp\stanford-corenlp-full-2018-10-05’,lang=‘zh’)
应用
#encoding="utf-8"
from stanfordcorenlp import StanfordCoreNLP
import os
if os.path.exists('D:\\stanford_nlp\\stanford-corenlp-full-2018-10-05'):
print("corenlp exists")
else:
print("corenlp not exists")
nlp=StanfordCoreNLP('D:\\stanford_nlp\\stanford-corenlp-full-2018-10-05',lang='zh')
sentence = '王明是清华大学的一个研究生'
print(nlp.ner(sentence))
输出:
corenlp exists
[(‘王明’, ‘PERSON’), (‘是’, ‘O’), (‘清华’, ‘ORGANIZATION’), (‘大学’, ‘ORGANIZATION’), (‘的’, ‘O’), (‘一’, ‘NUMBER’), (‘个’, ‘O’), (‘研究生’, ‘O’)]
三、查看词性标注
在浏览器中访问:http://localhost:9000/

转载请注明出处:https://blog.csdn.net/HHTNAN
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/85061523
边栏推荐
- TF flags的简介
- 50+开源项目正式集结完毕,百万开发者正在投票
- 刚刚,给学妹普及了登录的两大绝学
- 7.2.2 compressing static resources through gzipresourceresolver
- 结构化数据中的存在判断问题
- 基于 Flink SQL CDC 的实时数据同步方案
- Skywalking系列博客5-apm-customize-enhance-plugin插件使用教程
- VUEJS开发规范
- 6.9.2 session flashmapmanager redirection management
- Pattern matching: The gestalt approach一种序列的文本相似度方法
猜你喜欢

mac 安装hanlp,以及win下安装与使用

神经网络简史

Using tensorflow to forecast the rental price of airbnb in New York City

windows10 tensorflow(二)原理实战之回归分析,深度学习框架(梯度下降法求解回归参数)

免费的专利下载教程(知网、espacenet强强联合)

Pattern matching: The gestalt approach一种序列的文本相似度方法

【jmeter】實現介面關聯的兩種方式:正則表示式提取器和json提取器

iptables基础原理和使用简介

词嵌入教程

为了省钱,我用1天时间把PHP学了!
随机推荐
Gradient understanding decline
python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库
对pandas 数据进行数据打乱并选取训练机与测试机集
OPTIMIZER_TRACE详解
htmlcss
一场关于FLV是否要支持HEVC的争论
用Keras LSTM构建编码器-解码器模型
通用的底层埋点都是怎么做的?
适合时间序列数据的计算脚本
TF flags的简介
VUEJS开发规范
Big data real-time calculation of baichenghui Hangzhou station
解決pl/sql developer中資料庫插入資料亂碼問題
微信小程序:防止多次点击跳转(函数节流)
字符串的常见算法总结
API 测试利器 WireMock
计组-字长
Working principle of gradient descent algorithm in machine learning
非常规聚合问题举例
不能再被问住了!ReentrantLock 源码、画图一起看一看!