当前位置:网站首页>【机器学习】实验3布置:贝叶斯垃圾邮件识别
【机器学习】实验3布置:贝叶斯垃圾邮件识别
2022-08-02 06:36:00 【Can__er】
ML_class
学堂在线《机器学习》实验课代码+报告(其中实验1和实验6有配套PPT),授课老师为张敏老师。课程链接:https://www.xuetangx.com/training/ML080910036802/1048372?channel=i.area.page_course_ad。
持续更新中。
所有代码为作者所写,并非最后的“标准答案”,只有课程设计被扣了1分,其余皆是满分。仓库链接:https://github.com/W-caner/ML_class。 此外,欢迎关注我的CSDN:https://blog.csdn.net/Can__er?type=blog。
部分数据集由于过大无法上传,我会在博客中给出下载链接。如果对代码有疑问,有更好的思路等,也非常欢迎在评论区与我交流~
EXP3 贝叶斯垃圾邮件识别
本次作业以垃圾邮件分类任务为基础,要求提取文本特征并使用朴素贝叶斯算法进行垃圾邮件识别(调用已有工具包或自行实现)。
任务介绍
电子邮件是互联网的一项重要服务,在大家的学习、工作和生活中会广泛使用。但是大家的邮箱常常被各种各样的垃圾邮件填充了。有统计显示,每天互联网上产生的垃圾邮件有几百亿近千亿的量级。因此,对电子邮件服务提供商来说,垃圾邮件过滤是一项重要功能。而朴素贝叶斯算法在垃圾邮件识别任务上一直表现非常好,至今仍然有很多系统在使用朴素贝叶斯算法作为基本的垃圾邮件识别算法。
本次实验数据集来自Trec06的中文垃圾邮件数据集,目录解压后包含三个文件夹,其中data目录下是所有的邮件(未分词),已分词好的邮件在data_cut目录下。邮件分为邮件头部分和正文部分,两部分之间一般有空行隔开。标签数据在label文件夹下,文件中每行是标签和对应的邮件路径。‘spam’表示垃圾邮件,‘ham’表示正常邮件。
基本要求:
- 提取正文部分的文本特征;
- 划分训练集和测试集(可以借助工具包。一般笔记本就足够运行所有数据,认为实现困难或算力不够的同学可以采样一部分数据进行实验。);
- 使用朴素贝叶斯算法完成垃圾邮件的分类与预测,要求测试集准确率Accuracy、精准率Precision、召回率Recall均高于0.9(本次实验可以使用已有的一些工具包完成如sklearn);
- 对比特征数目(词表大小)对模型效果的影响;
- 提交代码和实验报告。
扩展要求:
- 邮件头信息有时也可以协助判断垃圾邮件,欢迎学有余力的同学们尝试;
- 尝试自行实现朴素贝叶斯算法细节;
- 尝试对比不同的概率计算方法。
边栏推荐
- Pagoda+FastAdmin 404 Not Found
- Submit code process
- “蔚来杯“2022牛客暑期多校训练营5,签到题KBGHFCD
- 【红队】ATT&CK - 创建或修改系统进程实现持久化(更新ing)
- 实例031:字母识词
- HCIP day one
- yml字符串读取时转成数字了怎么解决
- Ue after video tutorial first
- Py's mlxtend: a detailed guide to the introduction, installation, and usage of the mlxtend library
- Facebook社媒营销的5大技巧,迅速提高独立站转化率!
猜你喜欢

The second day HCIP

聊天机器人如何提升独立站的营销水平?

2020美亚团队赛复盘

See the picture to understand | How to choose sales indicators to measure the health of business growth

武汉高性能计算大会2022举办,高性能计算生态发展再添新动力

MPLS的相关技术
![[Dataset][VOC] Eyewear dataset 6000 in VOC format](/img/66/37f76d9ce5d5f68d6ea0e18710fa04.png)
[Dataset][VOC] Eyewear dataset 6000 in VOC format
![[Dataset][VOC] Male and female dataset voc format 6188 sheets](/img/72/d3e46a820796a48b458cd2d0a18f8f.png)
[Dataset][VOC] Male and female dataset voc format 6188 sheets

jvm 二之 栈帧内部结构

解决:- SPY: No data found for this date range, symbol may be delisted报错
随机推荐
Go inside the basic knowledge
第06章 索引的数据结构【2.索引及调优篇】【MySQL高级】
[npm install error report collection] - npm ERR! code ENOTEMPTY npm ERR! syscall rmdir
ASP.NET Core Web API 幂等性
Reverse resolve dns server
Detailed explanation of 9 common reasons for MySQL index failure
Vscode连接远程服务器出现‘Acquiring lock on/home/~’问题
项目开发规范
每周推荐短视频:为什么产品开发需要数字化?如何做到数字化?
C# FileInfo class
In-depth analysis of the initialization of member variables and local variables
海缆探测仪TSS350(二)
Specified URL is not reachable,caused by :‘Read timed out
love
yml字符串读取时转成数字了怎么解决
实验8 VLAN综合实验
How does abaqus quickly import the assembly of other cae files?
PHP Warning: putenv() has been disabled for security reasons in phar
Unity Shader学习(七)纹理图像的简单使用
专家见解|经济低迷期把握创新机会的 3 大方法