机器学习——KNN算法实战

原创

已于 2024-04-01 13:50:36 修改 · 2.5k 阅读

56 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #人工智能 #python

于 2024-04-01 13:43:03 首次发布

一、引言

1、简要介绍

本文主要介绍博主学习完机器学习的第一个算法——KNN之后的实验和心得，主要包括对鸢尾花数据集进行分析和运用KNN算法划分鸢尾花种类的过程。因为是第一次实验，所以是根据《机器学习实战》这本书上的代码实现过程作为参考，并没有调用sklearn库来直接运用KNN算法模型。

2、KNN算法的基本概念

KNN算法（K-Nearest Neighbors），也被称为K-最邻近算法，是一种基本的机器学习算法，用于分类和回归任务。其基本概念基于特征相似度来进行分类或回归预测。在KNN算法中，给定一个训练集，其中包含已知分类标签的样本数据。当需要预测一个新样本的类别时，KNN算法会计算该样本与训练集中每个样本的特征距离，并选择距离最近的K个样本（即K个最近邻）。最后，根据这K个最近邻样本的分类标签，通过多数表决或加权表决来确定新样本的类别。

二、KNN算法原理

1、KNN算法的基本原理

对于一个新的未知样本，通过计算该样本与训练集中所有样本之间的距离，找到与之距离最近的K个样本，然后根据这K个最近邻样本的类别或数值属性来判断新样本的类别或预测其数值。

2、距离度量方法

KNN算法中常用的距离度量方法主要包括以下几种：

欧氏距离（Euclidean Distance）：这是最常见的距离度量方式，用于在二维或多维空间中计算两个样本之间的直线距离。在二维空间中，欧氏距离的计算公式为： $eq?d%20%3D%20%5Csqrt%7B%28x_%7B2%7D%20-%20x_%7B1%7D%29%5E2%20+%20%28y_%7B2%7D%20-%20y_%7B1%7D%29%5E2%7D$

其中，(x1, y1)和(x2, y2)分别表示两个样本的坐标。欧氏距离提供了一种直观的相似性度量，特别适用于处理连续的实值特征。

曼哈顿距离（Manhattan Distance）：在二维空间中，曼哈顿距离的计算公式为：

$eq?d%3D%5Cleft%20%7C%20x_%7B2%7D-x_%7B1%7D%20%5Cright%20%7C+%5Cleft%20%7C%20y_%7B2%7D-y_%7B1%7D%20%5Cright%20%7C$

这个距离可以看作是两个样本在坐标轴上的距离之和。

闵可夫斯基距离（Minkowski Distance）：这是一种通用的距离度量方式，可以根据具体的情况调整为欧氏距离、曼哈顿距离或切比雪夫距离。在二维空间中，闵可夫斯基距离的计算公式为：

$eq?d%20%3D%20%28%7Cx_%7B2%7D%20-%20x_%7B1%7D%7C%5Ep%20+%20%7Cy_%7B2%7D%20-%20y_%7B1%7D%7C%5Ep%29%5E%7B%5Cleft%20%28%20%5Cfrac%7B1%7D%7Bp%7D%20%5Cright%20%29%7D$

其中，p是一个可调的参数。