【机器学习笔记】K-Nearest Neighbors Algorithm(最近邻算法,KNN)
要点
- 第一步:准备已知类别的数据集(比如不同类型的肠道肿瘤细胞),使用PCA进行简化。这些数据集被称为训练数据(Training Data)。
- 第二步:寻找合适的K值。K-Nearest Neighbors中的“K”表示***/数目。
- 第三步:从另一个肠道提取类别未知的新细胞加到PCA图中。
- 第四步:寻找新细胞的最近邻细胞。
KNN是对数据进行分类的一种超级简单的算法。
第一步:准备已知类别的数据集(比如不同类型的肠道肿瘤细胞),使用PCA进行简化。这些数据集被称为训练数据(Training Data)。
第二步:寻找合适的K值。K-Nearest Neighbors中的“K”表示***/数目。
第四步显示了如何使用K值。
寻找K值需要训练与测试,因此我们要将训练数据划分出一部分作为测试数据(Testing Data)。
K值较小时,容易受附近的异常值影响;K值较大时,数据较少的类别容易被覆盖。
可以顺便尝试交叉验证法:https://blog.****.net/Ha1f_Awake/article/details/102900491
第三步:从另一个肠道提取类别未知的新细胞加到PCA图中。
第四步:寻找新细胞的最近邻细胞。
在下面例子中,假如K=11,其中7个最近邻点是红色,3个最近邻点是橙色,1个最近邻点是绿色,则新细胞最终被判定为红色。