非监督分类-K-means系列（一）算法原理，步骤和python实现

最新推荐文章于 2024-07-14 23:05:10 发布

Lee_Yu_Rui

最新推荐文章于 2024-07-14 23:05:10 发布

阅读量3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 文章标签：聚类算法 python

本文链接：https://blog.csdn.net/Lee_Yu_Rui/article/details/107479395

本文介绍了K-means算法的基本原理，详细阐述了其主要步骤，包括选择初始中心、迭代聚类和确定最优聚类中心。同时，文章讨论了算法的主要缺陷，如初始中心选择和K值确定的问题。通过Python代码展示了算法的实现，并通过结果可视化来展示聚类效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本原理

”物以聚类，点以距离分“的思想。对于给定的样本集，根据样本之间的距离划分为K个族，让族内的点的距离尽量的小，族间的距离尽量大。

主要步骤

1.从数据中选择K个对象作为初始的距离中心

2.计算每个聚类对象到聚类中心的距离，将每个对象划分到距离自己最近的聚类中心的一类

3.在每类中重新计算聚类中心，并重复2的操作，直到到达最大迭代次数或者两次更新的聚类中心距离达到要求

4.确定最优的聚类中心

主要的缺陷

1. K个初始中心的选择：K means++

2. K值得确定，因为没有已知得分类数目，所以无法实现知道K得取值，可以采用手肘法，轮廓系数法或者Calinski-harabasz系数等方式确定K值可以参考 https://blog.csdn.net/qq_15738501/article/details/79036255

python代码

python实现并将结果与python自带得KMeans比较，结果一致

class KMeans():
    def __init__(self,n_clusters: int = 8,max_iter: int = 300,tol:float = 1e-4):
        self.n_clusters = n_clusters
        self.max_iter = max_iter
        self.tol = tol
        self.c_clusters = None
    
    def cluster(self,lo_c,lo_x):
        '''
        根据聚类中心确定每个点得类别
        lo_c:聚类中心位置
        lo_x:数据
        '''
        ## 得到每个点到聚类中心得距离
        op = []