kNN算法总结-蒲公英云

一直接触KNN近邻算法，但是一直没有机会系统的总结一下，现在做一下总结，希望加深一下自己对近邻算法的理解。

定义：K-近邻算法采用测量不同特征值之间的距离方法进行分类

优缺点：

优点：精度高、对异常值不敏感（个别的异常值不会影响分析结果）、无数据输入假定

缺点：计算复杂度高（需要计算新的数据点与样本集中每个数据的“距离”，以判断是否是前k个邻居），空间复杂度高（巨大的矩阵）；

使用数据范围：

数值型（目标变量可以从无限的数值集合中取值）

标称型（标称型目标变量的结果只在有限目标集中取值，如真与假(标称型目标变量主要用于分类)）

算法原理：

官方解释：存在一个样本数据集，也称作训练样本集，并且样本中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系，输入没有标签的新数据后，将新数据的每个特征与样本集中的数据对应的特征进行比较，然后算法提取样本集中特征最相似的数据（最近邻）的分类标签。一般来说，我们只选择样本集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数，最后，选择k个最相似的数据中出现次数最多的分类，作为新数据的分类。

我的理解：k-近邻算法就是根据“新数据的分类取决于它的邻居”进行的，比如邻居中大多数都是退伍军人，那么这个人也极有可能是退伍军人。而算法的目的就是先找出它的邻居，然后分析这几位邻居大多数的分类，极有可能就是它本省的分类

KNN算法适用最近邻分类和最近邻回归两种情况。但是实现原理基本上是相通的。

首先运用KNN算法做分类处理：

找到最近邻：

from sklearn.neighbors import NearestNeighbors
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
distances, indices = nbrs.kneighbors(X)
distances
array([[0.        , 1.        ],
       [0.        , 1.        ],
       [0.        , 1.41421356],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.        , 1.41421356]])

分类：

最近邻分类属于 基于实例的学习 或 非泛化学习 ：它不会去构造一个泛化的内部模型，而是简单地存储训练数据的实例。分类是由每个点的最近邻的简单多数投票中计算得到的：一个查询点的数据类型是由它最近邻点中最具代表性的数据类型来决定的。

scikit-learn 实现了两种不同的最近邻分类器：KNeighborsClassifier 基于每个查询点的个最近邻实现，

其中是用户指定的整数值。RadiusNeighborsClassifier 基于每个查询点的固定半径内的邻居数量实现，其中是用户指定的浮点数值。

-邻居分类是 KNeighborsClassifier 下的两种技术中比较常用的一种。值的最佳选择是高度依赖数据的：

通常较大的是会抑制噪声的影响，但是使得分类界限不明显。

如果数据是不均匀采样的，那么 RadiusNeighborsClassifier 中的基于半径的近邻分类可能是更好的选择。

用户指定一个固定半径，使得稀疏邻居中的点使用较少的最近邻来分类。

对于高维参数空间，这个方法会由于所谓的 “维度灾难” 而变得不那么有效。

基本的最近邻分类使用统一的权重：分配给查询点的值是从最近邻的简单多数投票中计算出来的。在某些环境下，最好对邻居进行加权，使得更近邻更有利于拟合。可以通过 weights 关键字来实现。

默认值 weights = 'uniform' 为每个近邻分配统一的权重。而 weights = 'distance' 分配权重与查询点的距离成反比。或者，用户可以自定义一个距离函数用来计算权重。

回归：

最近邻回归是用在数据标签为连续变量，而不是离散变量的情况下。分配给查询点的标签是由它的最近邻标签的均值计算而来的。

scikit-learn 实现了两种不同的最近邻回归：KNeighborsRegressor 基于每个查询点的个最近邻实现，其中是用户指定的整数值。RadiusNeighborsRegressor 基于每个查询点的固定半径内的邻点数量实现，其中是用户指定的浮点数值。

基本的最近邻回归使用统一的权重：即，本地邻域内的每个邻点对查询点的分类贡献一致。在某些环境下，对邻点加权可能是有利的，使得附近点对于回归所作出的贡献多于远处点。这可以通过 weights 关键字来实现。默认值 weights = 'uniform' 为所有点分配同等权重。而 weights = 'distance' 分配的权重与查询点距离呈反比。或者，用户可以自定义一个距离函数用来计算权重。

5. 最近质心分类

该 NearestCentroid 分类器是一个简单的算法, 通过其成员的质心来表示每个类。实际上, 这使得它类似于 sklearn.KMeans 算法的标签更新阶段. 它也没有参数选择, 使其成为良好的基准分类器. 然而，它确实受到非凸类的影响，即当类有显著不同的方差时。所以这个分类器假设所有维度的方差都是相等的。对于没有做出这个假设的更复杂的方法, 请参阅线性判别分析 (sklearn.discriminant_analysis.LinearDiscriminantAnalysis) 和二次判别分析 (sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis). 默认的 NearestCentroid 用法示例如下:

>

from sklearn.neighbors.nearest_centroid import NearestCentroid
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])
clf = NearestCentroid()
clf.fit(X, y)
NearestCentroid(metric=’euclidean’, shrink_threshold=None)
print(clf.predict([[-0.8, -1]]))
[1]

1. 最近缩小质心

该 NearestCentroid 分类器有一个 shrink_threshold参数, 它实现了 nearest shrunken centroid 分类器. 实际上, 每个质心的每个特征的值除以该特征的类中的方差. 然后通过 shrink_threshold 来减小特征值. 最值得注意的是, 如果特定特征值过0, 则将其设置为0. 实际上，这个方法移除了影响分类器的特征。这很有用, 例如, 去除噪声特征.

在以下例子中, 使用一个较小的 shrink 阀值将模型的准确度从 0.81 提高到 0.82.

target:	../auto_examples/neighbors/plot_nearest_centroid.html
scale:	50

target:	../auto_examples/neighbors/plot_nearest_centroid.html
scale:	50

$nearest\_centroid\_1$ $nearest\_centroid\_2$

$../\_images/sphx\_glr\_plot\_regression\_0011.png$

举例说明KNN算法关于分类的简单运用：

鸢尾花的简单分类

from sklearn.datasets import load_iris
li=load_iris()
def claffication(point):
    x=li.data
    y=li.target
    knn=KNeighborsClassifier(n_neighbors=3)
    knn.fit(x,y)
    print(knn.predict(point))
num=np.array([[7.2,3.5,5.7,2.8]])
claffication(num)
import  matplotlib.pyplot as plt
plt.scatter(li.data[:,2],li.data[:,0],c=li.target)