集群

注释

有关更多详细信息，请参阅 “文本和图像 ”选项卡！

聚类分析 是一种无监督机器学习形式，其中观察根据数据值或特征的相似性分组到聚类中。这种机器学习被视为不受监督，因为它不使用以前已知的标签值来训练模型。在聚类分析模型中，标签是群集，仅根据该群集特征向群集分配观察结果。

示例 - 聚类分析

例如，假设植物学家观察一个花卉样本，并记录每个花上的叶子和花瓣的数量：

一些花的示意图。

数据集中没有已知的标签，只有两 个特征。目标是不确定花的不同类型的（物种）：只是根据叶子和花瓣的数量将类似的鲜花组合在一起。

有多种算法可用于聚类分析。最常用的算法之一是 K-Means 聚类分析，其中包括以下步骤：

特征（x）值进行矢量化以定义 n 维坐标（其中 n 是特征数）。在花卉示例中，我们有两个特征：叶数（x₁）和花瓣数（x₂）。因此，特征向量有两个坐标，可用于在概念上绘制二维空间中的数据点（[x_1，x₂]）
决定要用于对花进行分组的群集数 - 调用此值 k。例如，若要创建三个群集，则 k 值为 3。然后，在随机坐标中绘制 k 点。这些点成为每个簇的中心点，因此称为质心。
每个数据点（在本例中为一朵花）都被分配到最近的质心。
每个质心将根据分配给它的数据点之间的平均距离，移动到这些数据点的中心。
移动质心后，数据点现在可能更接近其他质心，因此数据点将根据新的最近的质心重新分配给群集。
质心移动和群集重新分配步骤会重复执行，直到群集变得稳定或达到预定的最大迭代次数为止。

下面的动画展示了此过程：

显示 k 平均值聚类分析过程的动画示意图。

由于没有用于比较预测聚类分配的已知标签，因此对聚类分析模型的评估基于结果分类彼此分离的方式。

可以使用多个指标来评估群集分离，包括：

此页面是否有帮助？