数据挖掘算法原理与实践：k-近邻 knn算法概述 201228

educoder 答案

任务描述

本关任务：使用python实现方法，找出目标样本最近的k个样本。

距离度量

我们已经知道，如何判别一个样本属于哪个类型，主要是看离它最近的几个样本中哪个类型的数量最多，则该样本属于数量最多的类型。这里，有一个问题：何为最近？
关于何为最近，大家应该自然而然就会想到可以用两个样本之间的距离大小来衡量，我们常用的有两种距离：

欧氏距离：欧氏距离是最容易直观理解的距离度量方法，我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。

二维平面上欧式距离计算公式：

n维平面上欧氏距离计算公式：
曼哈顿距离：顾名思义，在曼哈顿街区要从一个十字路口开车到另一个十字路口，驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”。

二维平面上曼哈顿距离计算公式：

n维平面上曼哈顿计算公式：

其中，上标圆括号内数字代表第几个样本，下标数字代表样本的第几个特征。

编程要求

根据提示，在右侧编辑器Begin-End处补充代码，实现topK方法。

测试说明

程序会调用你实现的方法，找出目标样本最近的k个样本的标签。如目标样本最近的5个样本为0，0，1，1，1则返回列表[0,0,1,1,1]。若返回结果与真实结果一致则视为通关。

答案

# encoding=utf8
import numpy as np
def topK(i, k, x, y):
    '''
    input:
        i(int):第i个样本
        k(int):最近邻样本个数
        x(ndarray):数据特征
        y(ndarray):数据标签
    output:
        topK(list):样本i的最近k个样本标签
    '''
    # *********Begin*********#
    # 计算样本到所有样本的距离
    # 除样本本身外的最近的k个样本的索引
    # 除样本本身外的最近的k个样本的标签
    distancee = []
    index = x[i]
    for j in range(len(x)):
        if j == i:
            continue
        distancee.append((
            y[j], sum((index - x[j]) ** 2) ** (1 / 2)
        ))
    # 除样本本身外的最近的k个样本的索引
    distancee = sorted(distancee, key=lambda it: it[1])[:k]
    # 除样本本身外的最近的k个样本的标签
    # *********End*********#
    return [_[0] for _ in distancee]
    # *********End*********#