详解机器学习中的K近邻算法(上)

详解机器学习中的K近邻算法(上)
在人工智能中,机器学习是一个十分重要的内容,而在机器学习中,k近邻算法是一个十分容易理解的机器学习算法。正因为容易理解,并且k近邻算法也是一个十分重要的内容,所以我们在这几篇文章中给大家介绍一下k近邻算法的具体内容,希望这篇文章能够帮助到大家。

不少朋友问,k近邻算法能够给我们带来什么呢?我们就从几个方面解答一下这个问题。在评估算法好坏的准则中,k 近邻算法可以用于分类问题,一个最容易理解的评价指标就是准确率,也可以说是测试错误率。k近邻算法也可以进行交叉验证,交叉验证用于选择超参数,比起简单地那一部分数据作为测试数据集要靠谱,因为分离数据集带有一定随机性。而在超参数方面中,k 就是一个超参数,这是我们得根据经验,在算法运行之前指定的。在数据集分离,我们不能使用所有的样本训练数据,我们还要评估算法的性能,即使是同一个算法,不同的超参数还须要评估好坏,因此,必须从数据集中分离出一部分数据,进行算法好坏,超参数选择的验证。

在模型复杂度,我们可以这么理解,k的值越小,模型越复杂,k的值越大,模型越简单,因为 k如果和训练数据集一样大的话,其实我们每个预测数据都只能预测为一个类别,即训练数据集中数量最多的那个类别,在决策边界中,k近邻算法是分类问题的一个重要且简单的概念。在网格搜索中可以把我们认为可能合理的超参数和超参数的组合输入算法,而在其中评估算法好坏,超参数的选择也用到了交叉验证的过程。同时k近邻算法可以进行数据标准化,这一步是一开始学习机器学习算法的时候经常被忽略的,后面我们可以看到数据标准化在梯度下降中也发挥很大的作用。

说到这里,大家可能明白k近邻算法的具体作用了吧,但是对于k近邻算法的核心思想不是很了解,k近邻算法的核心思想就是进行分类,也就是所谓的“物以类聚,人以群分。”当然还能够将未标记样本的类别由距离其最近的 k个邻居投票来决定。

我们在这篇文章中给大家简单介绍了k近邻算法的主要内容,具体来说就是k近邻算法的作用以及k近邻算法的核心思想。在后面的文章中我们会为大家介绍更多有关k近邻算法的内容。