当前位置:网站首页>nlp模型-bert从入门到精通(二)
nlp模型-bert从入门到精通(二)
2020-11-06 01:22:00 【IT界的小小小学生】
命名实体识别
首先下载相应bert 模块
pip install bert-base==0.0.9 -i https://pypi.python.org/simple
也可参考官网处理
安装

软件包现在支持的功能
1.命名实体识别的训练
2.命名实体识别的服务C/S
3.继承优秀开源软件:bert_as_service(hanxiao)的BERT所有服务
4.文本分类服务
后续功能会继续增加
基于命名行训练命名实体识别模型:
安装完bert-base后,会生成两个基于命名行的工具,其中bert-base-ner-train支持命名实体识别模型的训练,你只需要指定训练数据的目录,BERT相关参数的目录即可。可以使用下面的命令查看帮助

训练的事例命名如下:
bert-base-ner-train \
-data_dir {your dataset dir}\
-output_dir {training output dir}\
-init_checkpoint {Google BERT model dir}\
-bert_config_file {bert_config.json under the Google BERT model dir} \
-vocab_file {vocab.txt under the Google BERT model dir}
参数说明
其中data_dir是你的数据所在的目录,训练数据,验证数据和测试数据命名格式为:train.txt, dev.txt,test.txt,请按照这个格式命名文件,否则会报错。
训练数据的格式如下:
海 O
钓 O
比 O
赛 O
地 O
点 O
在 O
厦 B-LOC
门 I-LOC
与 O
金 B-LOC
门 I-LOC
之 O
间 O
的 O
海 O
域 O
。 O
每行得第一个是字,第二个是它的标签,使用空格’ '分隔,请一定要使用空格。句与句之间使用空行划分。程序会自动读取你的数据。
output_dir: 训练模型输出的文件路径,模型的checkpoint以及一些标签映射表都会存储在这里,这个路径在作为服务的时候,可以指定为-ner_model_dir
init_checkpoint: 下载的谷歌BERT模型
bert_config_file : 谷歌BERT模型下面的bert_config.json
vocab_file: 谷歌BERT模型下面的vocab.txt
训练完成后,你可以在你指定的output_dir中查看训练结果。
更多操作:
https://blog.csdn.net/macanv/article/details/85684284
还有一个bert模型的封装
https://www.jianshu.com/p/1d6689851622
https://cloud.tencent.com/developer/article/1470051
https://www.h3399.cn/201908/714454.html
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/100739168
边栏推荐
- Listening to silent words: hand in hand teaching you sign language recognition with modelarts
- mac 下常用快捷键,mac启动ftp
- GDB除錯基礎使用方法
- 对pandas 数据进行数据打乱并选取训练机与测试机集
- After brushing leetcode's linked list topic, I found a secret!
- 阿里云Q2营收破纪录背后,云的打开方式正在重塑
- 从海外进军中国,Rancher要执容器云市场牛耳 | 爱分析调研
- 100元扫货阿里云是怎样的体验?
- Flink的DataSource三部曲之二:内置connector
- 制造和新的自动化技术是什么?
猜你喜欢
随机推荐
Asp.Net Core學習筆記:入門篇
向北京集结!OpenI/O 2020启智开发者大会进入倒计时
TensorFlow2.0 问世,Pytorch还能否撼动老大哥地位?
tensorflow之tf.tile\tf.slice等函数的基本用法解读
解決pl/sql developer中資料庫插入資料亂碼問題
对pandas 数据进行数据打乱并选取训练机与测试机集
神经网络简史
文本去重的技术方案讨论(一)
GDB除錯基礎使用方法
6.8 multipartresolver file upload parser (in-depth analysis of SSM and project practice)
连肝三个通宵,JVM77道高频面试题详细分析,就这?
制造和新的自动化技术是什么?
PLC模拟量输入和数字量输入是什么
7.3.1 file upload and zero XML registration interceptor
Swagger 3.0 天天刷屏,真的香嗎?
Chainlink将美国选举结果带入区块链 - Everipedia
(1)ASP.NET Core3.1 Ocelot介紹
Asp.Net Core learning notes: Introduction
drf JWT認證模組與自定製
【效能優化】納尼?記憶體又溢位了?!是時候總結一波了!!




