您的位置: 首页 > 文章 > 【机器学习笔记】K-Nearest Neighbors Algorithm（最近邻算法，KNN）

【机器学习笔记】K-Nearest Neighbors Algorithm（最近邻算法，KNN）

分类: 文章 • 2023-04-08 08:30:13

要点

第一步：准备已知类别的数据集（比如不同类型的肠道肿瘤细胞），使用PCA进行简化。这些数据集被称为训练数据（Training Data）。
第二步：寻找合适的K值。K-Nearest Neighbors中的“K”表示***/数目。
第三步：从另一个肠道提取类别未知的新细胞加到PCA图中。
第四步：寻找新细胞的最近邻细胞。

KNN是对数据进行分类的一种超级简单的算法。

第一步：准备已知类别的数据集（比如不同类型的肠道肿瘤细胞），使用PCA进行简化。这些数据集被称为训练数据（Training Data）。

【机器学习笔记】K-Nearest Neighbors Algorithm（最近邻算法，KNN）

第二步：寻找合适的K值。K-Nearest Neighbors中的“K”表示***/数目。

第四步显示了如何使用K值。

寻找K值需要训练与测试，因此我们要将训练数据划分出一部分作为测试数据（Testing Data）。

K值较小时，容易受附近的异常值影响；K值较大时，数据较少的类别容易被覆盖。

可以顺便尝试交叉验证法：https://blog.****.net/Ha1f_Awake/article/details/102900491

第三步：从另一个肠道提取类别未知的新细胞加到PCA图中。

【机器学习笔记】K-Nearest Neighbors Algorithm（最近邻算法，KNN）

第四步：寻找新细胞的最近邻细胞。

在下面例子中，假如K=11，其中7个最近邻点是红色，3个最近邻点是橙色，1个最近邻点是绿色，则新细胞最终被判定为红色。

【机器学习笔记】K-Nearest Neighbors Algorithm（最近邻算法，KNN）