[机器学习] k近邻算法

算是机器学习中最简单的算法了，顾名思义是看k个近邻的类别，测试点的类别判断为k近邻里某一类点最多的，少数服从多数，要点摘录：

1. 关键参数：k值 && 距离计算方式 && 分类决策规则

2. k=1, 即只取最近点，容易过拟合，k取较大值，容易欠拟合。k值越小，模型越复杂。k ＝ 3 or 5 works well.

3. k近邻算法的一个实现：kd树（k－k维空间，二叉树），分两步：构造kd树－－搜索kd树。复杂度O(logN). 下图是一个kd树及对应二叉树：

[机器学习] k近邻算法

4. 优点：方法简单易理解, 构建模型快。缺点：对稀疏矩阵或者特征维度比较高的情况下表现不好。

参考：

a. 《Introduction to Machine Learning with Python》

b. 《统计学习方法》

c. 十五分钟理解kd树 https://www.jianshu.com/p/ffe52db3e12b