深入浅出KNN算法(一) KNN算法原理

阳光穿透心脏的1/2处 2022-12-22 13:29 295阅读 0赞

一、KNN算法概述

KNN可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一，注意KNN算法是有监督学习中的分类算法，它看起来和另一个机器学习算法Kmeans有点像（Kmeans是无监督学习算法），但却是有本质区别的。那么什么是KNN算法呢，接下来我们就来介绍介绍吧。

二、KNN算法介绍

KNN的全称是K Nearest Neighbors,意思是K个最近的邻居，从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居，毫无疑问，K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢？其实啊，KNN的原理就是当预测一个新的值x的时候，根据它距离最近的K个点是什么类型来判断x属于哪个类别。听起来有点绕，还是看看图吧。

KNN原理1

图中绿色的点就是我们要预测的那个点，假设K=3.那么KNN算法就会找到与它距离最近的三个点(这里用圆圈把它圈起来了),看看哪种类别多一些，比如这个例子中是蓝色三角形多一些，新来的绿色点就归类到蓝三角了。

KNN原理2

但是，当K=5的时候，判定就变成不一样了。这次变成红圆多一些，所以新来的绿点被归类成红圆。从这个例子中，我们就能看得出K的取值是很重要的。

明白了大概原理后，我们就来说一说细节的东西吧，主要有两个，K值的选取和点距离的计算。

2.1距离计算

要度量空间中点距离的话，有好几种度量方式，比如常见的曼哈顿距离计算，欧式距离计算等等。不过通常KNN算法中使用的是欧式距离，这里只是简单说一下，拿二维平面为例，二维空间两个点的欧式距离计算公式如下:

二维空间欧式距离

这个高中应该就有接触到了，其实就是计算(x1, y1)和(x2, y2)的距离。扩展到多维空间，则公式变成这样:

多维空间欧式距离

这样我们就明白了如何计算距离，KNN算法最简单粗暴的就是将预测点与所有点距离进行计算，然后保存并排序，选出前面K个值看看哪些类别比较多。但其实也可以通过一些数据结构来辅助，比如最大堆，这里就不多做介绍，有兴趣可以百度最大堆相关数据结构的知识。

2.2 K值选择

通过上面那张图我们知道K的取值比较重要，那么该如何确定K取多少值好呢?答案是通过交叉验证(将样本数据按照一定比例，拆分出训练用的数据和验证用的数据，比如6:4拆分出部分训练数据和验证数据),从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一个比较合适的K值。

通过交叉验证(将样本数据按照一定比例，拆分出训练用的数据和验证用的数据，比如6:4拆分出部分训练数据和验证数据),从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一个比较合适的K值。

通过交叉验证计算方差后你大致会得到下面这样的图:

K值与Error

这个图其实很好理解，当你增大k的时候，一般错误率会先降低，因为有周围更多的样本可以借鉴了，分类效果会变好。但注意，和K-means不一样，当K值更大的时候，错误率会更高。这也很好理解，比如说你一共就35个样本，当你K增大到30的时候，KNN基本上就没意义了。

所以选择K点的时候可以选择一个较大的临界K点，当它继续增大或减小的时候，错误率都会上升，比如图中的K=10,具体如何得出K最佳值的代码，下一节的代码实例中会介绍。

三.KNN特点

KNN是一种非参的，惰性的算法模型。什么是非参，什么是惰性呢？

非参的意思并不是说这个算法不需要参数，而是意味着这个模型不会对数据做出任何的假设，与之相对的是线性回归（我们总会假设线性回归是一条直线）。也就是说KNN建立的模型结构是根据数据来决定的，这也比较符合现实的情况，毕竟在现实中的情况往往与理论上的假设是不相符的。

惰性又是什么意思呢？想想看，同样是分类算法，逻辑回归需要先对数据进行大量训练（tranning），最后才会得到一个算法模型。而KNN算法却不需要，它没有明确的训练数据的过程，或者说这个过程很快。

KNN算法的优势和劣势

了解KNN算法的优势和劣势，可以帮助我们在选择学习算法的时候做出更加明智的决定。那我们就来看看KNN算法都有哪些优势以及其缺陷所在！

KNN算法优点

1.简单易用，相比其他算法，KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。

2.模型训练时间块，上面说到KNN算法是惰性的，这里也就不再过多讲述。

3.预测效果好。

4.对异常值不敏感

KNN算法缺点

对内存要求较高，因为该算法存储了所有训练数据
预测阶段可能很慢
对不相关的功能和数据规模敏感

至于什么时候应该选择使用KNN算法，sklearn的这张图给了我们一个答案。

sklearn算法选择

简单得说，当需要使用分类算法，且数据比较大的时候就可以尝试使用KNN算法进行分类了。

OK，本次先对KNN算法做一个介绍，下一节解析sklearn的参数，以及K值选取。

发表评论取消回复

表情：

评论列表（有 0 条评论，295人围观）

还没有评论，来说两句吧...

相关阅读

相关 KNN算法

记得读研那会，接触过这个算法，算法原理还是比较容易理解，类似机器学习中的预测，在给定的一堆数据，预测当前节点的分类。计算距离，然后排序，计算最相似的分类。 impor

左手的ㄟ右手/ 2023年01月19日 10:57/ 0 赞/ 82 阅读

相关 knn算法概述

数据挖掘算法原理与实践：k-近邻 knn算法概述 201228 > educoder 答案任务描述本关任务：使用python实现方法，找出目标样本最近的k个样

Dear 丶/ 2022年12月31日 02:27/ 0 赞/ 212 阅读

相关深入浅出KNN算法(二) sklearn KNN实践

上次介绍了KNN的基本原理，以及KNN的几个窍门，这次就来用sklearn实践一下KNN算法。一.Skelarn KNN参数概述要使用sklearnKNN算法进行分

港控/mmm°/ 2022年12月22日 14:27/ 0 赞/ 263 阅读

相关深入浅出KNN算法(一) KNN算法原理

一、KNN算法概述 KNN可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一，注意KNN算法是有监督学习中的分类算法，它看起来和另一个机器学习算法Kmeans

阳光穿透心脏的1/2处/ 2022年12月22日 13:29/ 0 赞/ 296 阅读

相关 KNN分类算法

KNN分类算法最简单最初级的分类器，就是将全部的训练数据所对应的类别都记录下来，当测试对象的属性和某个训练对象的属性完全匹配时，便可以对其进行分类 K近邻（k-nea

╰半夏微凉°/ 2022年10月29日 09:09/ 0 赞/ 243 阅读

相关 kNN算法总结

一直接触KNN近邻算法，但是一直没有机会系统的总结一下，现在做一下总结，希望加深一下自己对近邻算法的理解。定义：K-近邻算法采用测量不同特征值之间的距离方法进行分类优缺

雨点打透心脏的1/2处/ 2022年05月16日 14:34/ 0 赞/ 391 阅读

相关 KNN算法思考

学习机器学习时，我们可能接触到KNN算法，这是一中间的算法，是利用距离来表征两者之间的相似度。这一算法最经典的应用就是给相似人群做推荐系统。这里对算法内容不做详细解释，只是引发

拼搏现实的明天。/ 2022年05月09日 09:06/ 0 赞/ 274 阅读

相关 KNN算法

KNN算法即K-近邻算法，KNN的核心思想是通过你的“邻居”来推断出你的类别。 1 K-近邻算法(KNN)原理 k 值取得过小，容易受到异常点的影响

Bertha 。/ 2022年04月23日 01:00/ 0 赞/ 290 阅读

相关 KNN算法

1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器，记住所有的训练数

- 日理万妓/ 2022年01月26日 01:11/ 0 赞/ 351 阅读

相关 kNN算法

from numpy import import operator def createDataSet(): group=a

拼搏现实的明天。/ 2021年09月11日 05:52/ 0 赞/ 461 阅读