【机器学习笔记】K-Nearest Neighbors Algorithm(最近邻算法,KNN)

要点


 

KNN是对数据进行分类的一种超级简单的算法。

第一步:准备已知类别的数据集(比如不同类型的肠道肿瘤细胞),使用PCA进行简化。这些数据集被称为训练数据(Training Data)。

【机器学习笔记】K-Nearest Neighbors Algorithm(最近邻算法,KNN)

第二步:寻找合适的K值。K-Nearest Neighbors中的“K”表示***/数目。

第四步显示了如何使用K值。

寻找K值需要训练与测试,因此我们要将训练数据划分出一部分作为测试数据(Testing Data)。

K值较小时,容易受附近的异常值影响;K值较大时,数据较少的类别容易被覆盖。

可以顺便尝试交叉验证法:https://blog.csdn.net/Ha1f_Awake/article/details/102900491

第三步:从另一个肠道提取类别未知的新细胞加到PCA图中。

  【机器学习笔记】K-Nearest Neighbors Algorithm(最近邻算法,KNN)

第四步:寻找新细胞的最近邻细胞。

在下面例子中,假如K=11,其中7个最近邻点是红色,3个最近邻点是橙色,1个最近邻点是绿色,则新细胞最终被判定为红色。

 【机器学习笔记】K-Nearest Neighbors Algorithm(最近邻算法,KNN)