当前位置:网站首页>余弦距离介绍
余弦距离介绍
2022-08-03 19:08:00 【xiaozheng123121】
目录
作者:CSDN博主「深度学习视觉」
原文链接:https://blog.csdn.net/lucky_kai/article/details/89514868
————————————————
概述: 在机器学习领域中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,常用余弦相似度表示。
例如将两篇文章向量化,余弦距离可以避免因为文章的长度不同而导致距离偏大,余弦距离只考虑两篇文章生成的向量的夹角。
余弦相似度的取值范围是[-1,1],相同两个向量的之间的相似度为1。
余弦距离的取值范围是[0,2]。
余弦相似度的定义公式为 c o s ( A , B ) = A ⋅ B ∥ A ∥ 2 ∥ B ∥ 2 cos(A,B)=\frac{A\cdot B}{\left\|A \right\|_2\left\|B \right\|_2} cos(A,B)=∥A∥2∥B∥2A⋅B
归一化后: ∥ A ∥ 2 = 1 , ∥ B ∥ 2 = 1 , ∥ A ∥ 2 ∥ B ∥ 2 = 1 \left\|A\right\|_2=1, \left\|B\right\|_2=1, \left\|A\right\|_2\left\|B\right\|_2=1 ∥A∥2=1,∥B∥2=1,∥A∥2∥B∥2=1
余弦距离: d i s t ( A , B ) = 1 − c o s ( A , B ) = ∥ A ∥ 2 ∥ B ∥ 2 − A ⋅ B ∥ A ∥ 2 ∥ B ∥ 2 dist(A,B)=1-cos(A,B)=\frac{\left\|A \right\|_2\left\|B \right\|_2-A\cdot B}{\left\|A \right\|_2\left\|B \right\|_2} dist(A,B)=1−cos(A,B)=∥A∥2∥B∥2∥A∥2∥B∥2−A⋅B,距离恒大于0
欧式距离:
由公式可以看出归一化后,欧式距离与余弦距离存在单调性关系。此时两种距离的值域都为[0,2]。
欧式距离与余弦距离的对比:
1.欧式距离的数值受到维度的影响,余弦相似度在高维的情况下也依然保持低维完全相同时相似度为1等性质。
2.欧式距离体现的是距离上的绝对差异,余弦距离体现的是方向上的相对差异。
边栏推荐
- 基于DMS的数仓智能运维服务,知多少?
- ScrollView嵌套RV,滑动有阻力不顺滑怎么办?
- 【WPS-OFFICE-Word】 WPS中样式的运作原理?样式自动更新、自动改变如何处理?样式的管理方法?
- 手把手教你定位线上MySQL慢查询问题,包教包会
- 基于ck+redash构建MySQL慢日志+审计日志展示平台
- Climbing Stairs (7/30)
- POJ 1465 Multiple(用BFS求能组成的n的最小倍数)
- Brush the topic of mobile zero power button
- APT级全面免杀与企业纵深防御体系的红蓝对抗
- 普通用户如何利用小红书赚钱呢?小红书的流量是真的吗?
猜你喜欢
随机推荐
online 方式创建索引触发trigger怎么办?
Compose原理-compose中是如何实现事件分法的
LeetCode 622. 设计循环队列
Bytes to beat three sides take offer: network + GC + + IO + redis + JVM red-black tree + data structure, to help you quickly into the giant!!!!!
pg_memory_barrier_impl in Postgresql and C's volatile
【ORACLE】什么时候ROWNUM等于0和ROWNUM小于0,两个条件不等价?
七夕之前,终于整出了带AI的美丽秘笈
Postgresql source code (65) analysis of the working principle of the new snapshot system Globalvis
【C语言学习笔记(五)】while循环与for循环
WEB 渗透之RCE
【C语言学习笔记(六)】分支与跳转(if、else、continue、break、switch)
丙二醇二乙酸酯(Propylene Glycol Diacetate)
Postgresql中的pg_memory_barrier_impl和C的volatile
读取 resources 目录下的文件路径的九种方式,你知道多少?
【C语言学习笔记(七)】C语言重定向输入与输出
选出表中的中位数记录[构造左右边界 || 问题转换]
go语言实现导出string字符串到文件中
网络协议-TCP、UDP区别及TCP三次握手、四次挥手
基于ck+redash构建MySQL慢日志+审计日志展示平台
ctfshow php特性









