当前位置:网站首页>利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
2020-11-06 01:22:00 【InfoQ】
背景
文本分类(Text Classification) 属于自然语言处理领域,是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。然而在现实问题中,经常会遇到数据样本的类别不平衡 (class imbalance) 现象,严重影响了文本分类的最终结果。所谓样本不均衡指的是给定数据集中有的类别数据多,有的数据类别少,且数据占比多的数据类别样本与占比小的数据类别样本两者之间达到较大的比例。
BlazingText 是 AWS SageMaker 的一个内置算法,提供了 Word2vec 和文本分类算法的高度优化的实现。本文使用了 Sagemaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。
本文使用基于 DBpedia 的公开数据集处理生成的含有14个类别的不均衡文本数据,并进行了不做任何样本不均衡处理的 Baseline 实验和包含回译和 EDA 两个方法的过采样实验。
原文链接:【https://www.infoq.cn/article/xbSAYuJcQrm048GHl5dJ】。未经作者许可,禁止转载。
版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://www.infoq.cn/article/xbSAYuJcQrm048GHl5dJ?utm_source=rss&utm_medium=article
边栏推荐
- 加速「全民直播」洪流,如何攻克延时、卡顿、高并发难题?
- “颜值经济”的野望:华熙生物净利率六连降,收购案遭上交所问询
- Network programming NiO: Bio and NiO
- GBDT与xgb区别,以及梯度下降法和牛顿法的数学推导
- 阿里云Q2营收破纪录背后,云的打开方式正在重塑
- 微服務 - 如何解決鏈路追蹤問題
- 技術總監,送給剛畢業的程式設計師們一句話——做好小事,才能成就大事
- 直播预告 | 微服务架构学习系列直播第三期
- 熬夜总结了报表自动化、数据可视化和挖掘的要点,和你想的不一样
- 7.2.2 compressing static resources through gzipresourceresolver
猜你喜欢
数据产品不就是报表吗?大错特错!这分类里有大学问
How to select the evaluation index of classification model
DRF JWT authentication module and self customization
如何对Pandas DataFrame进行自定义排序
业内首发车道级导航背后——详解高精定位技术演进与场景应用
Grouping operation aligned with specified datum
01 . Go语言的SSH远程终端及WebSocket
hadoop 命令总结
人工智能学什么课程?它将替代人类工作?
简直骚操作,ThreadLocal还能当缓存用
随机推荐
幽默:黑客式编程其实类似机器学习!
How to demote a domain controller in Windows Server 2012 and later
GUI 引擎评价指标
快快使用ModelArts,零基础小白也能玩转AI!
容联完成1.25亿美元F轮融资
In depth understanding of the construction of Intelligent Recommendation System
关于Kubernetes 与 OAM 构建统一、标准化的应用管理平台知识!(附网盘链接)
03_ Detailed explanation and test of installation and configuration of Ubuntu Samba
条码生成软件如何隐藏部分条码文字
免费的专利下载教程(知网、espacenet强强联合)
文本去重的技术方案讨论(一)
《Google軟體測試之道》 第一章google軟體測試介紹
Kitty中的动态线程池支持Nacos,Apollo多配置中心了
A debate on whether flv should support hevc
用Keras LSTM构建编码器-解码器模型
DTU连接经常遇到的问题有哪些
Existence judgment in structured data
How long does it take you to work out an object-oriented programming interview question from Ali school?
【新閣教育】窮學上位機系列——搭建STEP7模擬環境
前端模組化簡單總結