41、大规模地理参考数据集的鲁棒聚类与高效密度聚类算法-CSDN博客

本文链接：https://blog.csdn.net/sunny/article/details/149389180

大规模地理参考数据集的鲁棒聚类与高效密度聚类算法

在当今数据爆炸的时代，大规模数据库中的聚类分析变得至关重要。它期望在数据集中找出有意义的模式，同时也面临着一些新的要求，如对大型数据库有良好的效率、易于确定输入参数以及将噪声从聚类中分离出来。然而，传统的聚类算法往往难以满足所有这些要求。下面我们将详细介绍几种聚类算法及其特点。

基于中心点的聚类与分组数量 k 的确定

基于中心点的聚类方法与 k - Means 类似，使用分组数量 k 作为用户提供的参数。与 DBSCAN 和 STING 的密度参数相比，k 通常更容易估计，并且在基于中心点的方法中，稍微高估 k 通常不是问题。当 k 增加 1 时，通常会将一个聚类拆分为两个子聚类，或者将额外的中心点放置在离群点处，而 k - Means 通常会调整多个聚类。

不过，知识发现过程需要为 k 提供一个可靠的建议。最小化 M(C) 的算法不会搜索 k，主要有两个原因：一是解决 p - 中位数问题的动机似乎来自于设施选址应用，即定位 p = k 个给定的设施，而不是寻找聚类；二是随着 k 的增加，M(C) 单调递减，在允许 k 变化的情况下最小化 M(C) 会导致 k = n，即每个点都是一个聚类。

而使用 D(S) 可以快速为 k 提供一个初始值。Delaunay 三角剖分隐式编码了其对偶 Voronoi 图的邻近信息，使其成为空间聚类的有用结构。通过检查 2n - 4 个 Delaunay 三角形的周长长度分布，找到一个区分大周长和小周长的阈值，将三角形分类为大或小。选择所有小周长的三角形，并将共享边界边的选定三角形聚合，连续的“斑块”或聚合的数量就是对 k 的建议。大量的判别值都能将三角形划分为大小两类，从而为分