当前位置:网站首页>【数据挖掘】期末复习 第五章
【数据挖掘】期末复习 第五章
2022-06-21 05:55:00 【一个很菜的小猪】
第五章 关联分析
1、关联分析的定义
关联分析(Association Analysis)用于发现隐藏在大型数据集中的令人感兴趣的联系。联系的表示方式一般为关联规则或频繁项集,例:{尿布}→{啤酒}。
2、关联分析的应用
挖掘商场销售数据,发现商品间的联系,帮助商场进行促销及货架的摆放;挖掘医疗诊断数据,可以发现某些症状与某种病之间的关联,为医生进行疾病诊断和治疗提供线索;网页挖掘——揭示不同浏览网页之间的有趣联系。
3、关联分析的基本概念
项集:一个包含 k 个数据项的项集就称为 k−项集
支持度计数:包含该项集的事务数
频繁项集:满足minsupport的n项集
关联规则:形如 X –> Y 的蕴涵式,{可乐,尿布}->{啤酒}
支持度: 该项集出现次数/总事务数
置信度: c(X->Y)=σ(XUY)/σ(X)
4、关联分析的任务
找出数据集中隐藏的强规则,通常分为两个步骤,首先在数据集中找出频繁项集,然后从频繁项集中,提取所有高置信度的规则。
5、Apriori 算法
Apriori 算法具有一个 Apriori 性质,即先验原理来控制候选项集的指数增长。
Apriori 性质(先验原理):如果一个项集是频繁的,则它的所有子集也是频繁的,相反:如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。
例如:
{X,Y,Z}频繁→{X,Y},{X,Z},{Y,Z}也频繁
{X,Y}不频繁→所有超集都不频繁
6、关联规则的生成
前面介绍的 Apriori 算法和 FP-growth 算法都是频繁项集提取算法。在提取出频繁项集的基础上,就可以生成强关联规则,方法如下:
给定频繁项集 X,取 X 的每个非空真子集 S,如果规则 S→X-S 满足置信度阈值,则该规则为强关联规则。
7、关联规则的评估
关联规则的评估通常有 2 种方式:一种通过统计论据来评估, 支持度、置信度、提升度;另一种通过主观论据来评估。
统计论据评估:
== 其实就是算概率==
其中:
| lift值 | Value |
|---|---|
| lift>1 | 强关联 |
| lift<1 | 弱关联 |
例题



边栏推荐
- SSH copy ID batch password free script
- 平衡二叉树详解 通俗易懂
- 【Prometheus】Prometheus联邦的一次优化记录
- Huashao, founder of Kechuang · kuxuan Technology: make products with win-win thinking, connect ecology, and realize large-scale development
- Use of mysqldump in MySQL
- 应用在电视触摸屏中的十四通道智能触摸芯片
- Laravel
- Error running code generator file: the server time zone value ' й ��� ʱ ��‘ is unrecognized or represents more than one time
- 基于注意力的seq2seq模型
- sqli-labs26
猜你喜欢

【JVM】 类加载器(ClassLoader)

Capacitive touch chip used in touch screen of mobile phone

Memorizing Normality to Detect Anomaly: Memory-augmented Deep Autoencoder for Unsupervised Anomaly D

kali快捷键和设置方式

The time plug-in is used for the establishment time, but when modifying parameters on the web page, if the time is not modified, an error will be reported when saving it for the first time, and it can

Metasploit入侵win7

These classic software, which was once very popular, are still fresh in my memory now

应用在洗衣机触摸屏中的触摸芯片
![[SQL injection 16] read / write file for SQL vulnerability exploitation](/img/83/1c4680d4ea6980e0777b8ea4eeaba5.jpg)
[SQL injection 16] read / write file for SQL vulnerability exploitation

应用在电子产品背光显示中的模拟环境光传感芯片
随机推荐
el-table表格循环升级版
TF. Auto Fonction de réserve
lambda-stream
Canvas制作经典贪吃蛇
Research and Analysis on the current situation of wireless Internet of things sensor market in China and forecast report on its development prospect (2022)
C#常用Chart组件
【JVM】方法区
Memorizing Normality to Detect Anomaly: Memory-augmented Deep Autoencoder for Unsupervised Anomaly D
萤石云应用
一次Namenode的RPC延迟故障排查引发的深入思考
tf.compat.v1.get_default_graph
sqli-labs23
tf.compat.v1.pad
【Grafana】Grafana Mimir在海量时间序列指标中的优化
398 hash table (242. valid alphabetic words & 349. intersection of two arrays & 202. happy numbers)
R统计绘图-环境因子相关性+mantel检验组合图(linkET包介绍1)
Laravel
Capacitive touch chip used in touch screen of mobile phone
Leetcode刷题 ——— (4)字符串中的第一个唯一字符
[grafana] optimization of grafana MIMIR in massive time series indicators