集群

已完成

聚类分析 是一种无监督机器学习形式,其中观察根据数据值或特征的相似性分组到聚类中。 这种机器学习被视为不受监督,因为它不使用以前已知的标签值来训练模型。 在聚类分析模型中,标签是群集,仅根据该群集特征向群集分配观察结果。

示例 - 聚类分析

例如,假设植物学家观察一个花卉样本,并记录每个花上的叶子和花瓣的数量:

一些花的示意图。

数据集中没有已知的 标签 ,只有两 个特征。 目标是不确定花的不同类型的(物种):只是根据叶子和花瓣的数量将类似的鲜花组合在一起。

(x1 花瓣 (x2
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

训练聚类分析模型

有多种算法可用于聚类分析。 最常用的算法之一是 K-Means 聚类分析,其中包括以下步骤:

  1. 特征 (x) 值进行矢量化以定义 n 维坐标(其中 n 是特征数)。 在花卉示例中,我们有两个特征:叶数(x1)和花瓣数(x2)。 因此,特征向量有两个坐标,可用于在概念上绘制二维空间中的数据点([x1,x2]
  2. 决定要用于对花进行分组的群集数 - 调用此值 k。 例如,若要创建三个群集,则 k 值为 3。 然后,在随机坐标中绘制 k 点。 这些点成为每个簇的中心点,因此称为 质心
  3. 每个数据点(在本例中为一朵花)都被分配到最近的质心。
  4. 每个质心将根据分配给它的数据点之间的平均距离,移动到这些数据点的中心。
  5. 移动质心后,数据点现在可能更接近其他质心,因此数据点将根据新的最近的质心重新分配给群集。
  6. 质心移动和群集重新分配步骤会重复执行,直到群集变得稳定或达到预定的最大迭代次数为止。

下面的动画展示了此过程:

显示 k 平均值聚类分析过程的动画示意图。

评估聚类分析模型

由于没有用于比较预测聚类分配的已知标签,因此对聚类分析模型的评估基于结果分类彼此分离的方式。

可以使用多个指标来评估群集分离,包括:

  • 群集中心的平均距离:平均而言,群集中的每个点与群集的质心相近。
  • 与其他中心的平均距离:平均而言,群集中的每个点与所有其他分类的质心相近。
  • 聚类中心的最大距离:聚类中点与其质心之间的最远距离。
  • 剪影:一个介于 -1 和 1 之间的值,用于汇总同一分类中点与不同分类中的点之间的距离比率(越接近 1,分类分离越好)。