机器学习算法面试题——聚类算法

【1】当数据缺失时怎么处理，除了直接舍去还有什么方法。如何使用聚类算法去填补缺失值。

答：

对于如何使用聚类算法去填补缺失值，我想到的是用KNN方法去预测，也就是 KNeighborsRegressor 把非缺失值当作特征，把缺失值当作label，然后通过KNN算法去预测。也就是上面图片中的KNN插值。

k-means有三个基本步骤：

k-means++¹:
设 $D(x)$ 为数据集中的一点到我们已经选定的最近的中心点的最断距离。然后进行下面的计算：
1a:从数据集 $X$ 中均匀随机选取一个中心点 $c_1$
1b.选择新的中心点 $c_i$ ,但是选择的 $x$ 的概率为 $\frac{D(x)^2}{\sum_{x\in X D(x)^2}}$
1c.重复1b的步骤，直到选出 $k$ 个中心点。
random:随机的从数据集中选出 $k$ 个点选出数据。
自己定义的中心点，但是narray的大小要一致，为（n_clusters, n_features）.

我们要去定义一个评价的标准，在kmeans中我们定义这样一个标准
$\sum_{i = 0}^n min_{\mu_j \in C}(||x_i -\mu_j||^2)$
在每次重复的时候我们都去计算这个值，然后存储起来最后就可以得到哪次是最优的。

（1）距离定义为 $||x_i - \mu_j||^2$ ，其中， $x_i$ 是样本点， $\mu_j$ 是中心点。
（2）权重均匀，或者基于距离的
（3）首先年龄进行归一化处理，然后对性别进行热编码，然后使用kmeans算法。

kmeans一定收敛：
机器学习算法面试题——聚类算法

AP聚类算法，Mean Shift等

余弦相似度²：通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0角度的余弦值是1，而其它任何角度的余弦值都不大于1，并且其最小值为-1，从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。另外外，它通常用于文本挖掘中的文件比较。此外，在数据挖掘领域中，会用到它来度量集群内部的凝聚力。
两个向量之间的余弦值可用通过使用欧几里得点积公式求出：
$a ·b = ||a|| ·||b||·cos \theta$
给定两个属性向量， $A$ 和 $B$ ，其余弦相似性 $\theta$ 为：
$similarity = cos(\theta) = \frac{A ·B}{||A||·||B||} = \frac{\sum_{i = 1}^nA_i*B_i}{\sqrt{\sum_{i=1}^n(A_i)^2} * \sqrt{\sum_{i =1}^n(B_i)^2}}$
欧式距离³：
$similary = distance(A, B) = \sqrt{||A-B||^2} = \sqrt{\sum_{i = 1}^n||A_i - B_i||^2}$

1: The Advantages of Careful Seeding http://ilpubs.stanford.edu:8090/778/1/2006-13.pdf ↩︎
2: 余弦相似性:https://en.wikipedia.org/wiki/Cosine_similarity ↩︎
3: 欧式距离:https://en.wikipedia.org/wiki/Euclidean_distance ↩︎