简单易懂的余弦相似度与欧式距离
1、余弦相似度
给定两个属性向量,A和B,其余弦相似性θ由点积和向量长度给出,如下所示:
符号表示:
其中:分别代表向量A和B的各分量
数值表示:
(二维)
(高维)
给出的相似性范围从-1到1:
-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。
余弦距离:
2、欧式距离
N维欧氏空间中两点,
间的距离公式:
3、二者关系
标准化之后的欧式距离近似于余弦距离
证明如下:
证法一:
假设二维空间两个点,
然后归一化为单位向量
那么余弦相似度为:
欧式距离为:
化简后结果:
作图如下:
可以从图像上看到二者的值比较接近
对于高维空间与二维类似
证法二:
余弦相似度的定义公式为
,
归一化后
余弦距离:
欧式距离:
由公式可以看出归一化后,欧式距离与余弦距离存在单调性关系,此时两种距离的值域都为[0,2]。
欧式距离与余弦距离的对比:
1.欧式距离的数值受到维度的影响,余弦相似度在高维的情况下也依然保持低维完全相同时相似度为1等性质。
2.欧式距离体现的是距离上的绝对差异,余弦距离体现的是方向上的相对差异。
参考:
https://www.zhihu.com/question/19640394