大规模地理参考数据集的鲁棒聚类与高效密度聚类算法
在当今数据爆炸的时代,大规模数据库中的聚类分析变得至关重要。它期望在数据集中找出有意义的模式,同时也面临着一些新的要求,如对大型数据库有良好的效率、易于确定输入参数以及将噪声从聚类中分离出来。然而,传统的聚类算法往往难以满足所有这些要求。下面我们将详细介绍几种聚类算法及其特点。
基于中心点的聚类与分组数量 k 的确定
基于中心点的聚类方法与 k - Means 类似,使用分组数量 k 作为用户提供的参数。与 DBSCAN 和 STING 的密度参数相比,k 通常更容易估计,并且在基于中心点的方法中,稍微高估 k 通常不是问题。当 k 增加 1 时,通常会将一个聚类拆分为两个子聚类,或者将额外的中心点放置在离群点处,而 k - Means 通常会调整多个聚类。
不过,知识发现过程需要为 k 提供一个可靠的建议。最小化 M(C) 的算法不会搜索 k,主要有两个原因:一是解决 p - 中位数问题的动机似乎来自于设施选址应用,即定位 p = k 个给定的设施,而不是寻找聚类;二是随着 k 的增加,M(C) 单调递减,在允许 k 变化的情况下最小化 M(C) 会导致 k = n,即每个点都是一个聚类。
而使用 D(S) 可以快速为 k 提供一个初始值。Delaunay 三角剖分隐式编码了其对偶 Voronoi 图的邻近信息,使其成为空间聚类的有用结构。通过检查 2n - 4 个 Delaunay 三角形的周长长度分布,找到一个区分大周长和小周长的阈值,将三角形分类为大或小。选择所有小周长的三角形,并将共享边界边的选定三角形聚合,连续的“斑块”或聚合的数量就是对 k 的建议。大量的判别值都能将三角形划分为大小两类,从而为分