クラスタリング

完了

クラスタリング は教師なし機械学習の一種であり、観測値はデータ値または特徴の類似点に基づいてクラスターにグループ化されます。 この種の機械学習は、以前に知られていたラベル値を使用してモデルをトレーニングしないため、教師なしと見なされます。 クラスタリング モデルでは、ラベルは、その特徴のみに基づいて観察が割り当てられるクラスターです。

例 - クラスタリング

たとえば、植物学者が花のサンプルを観察し、各花の葉と花びらの数を記録するとします。

いくつかの花の図。

データセットには既知の ラベル はなく、2 つの 特徴だけです。 目的は、花の異なる種類(種)を識別することです。単に葉と花びらの数に基づいて同様の花をグループ化します。

(x1) 花びら (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

クラスタリング モデルのトレーニング

クラスタリングには複数のアルゴリズムを使用できます。 最も一般的に使用されるアルゴリズムの 1 つは、次の手順で構成される K-Means クラスタリングです。

  1. 特徴 (x) 値は、 n 次元座標 (n は 特徴の数) を定義するためにベクター化されます。 花の例では、葉の数 (x1) と花弁の数 (x2) の 2 つの特徴があります。 したがって、特徴ベクトルには、2 次元空間にデータ ポイントを概念的にプロットするために使用できる 2 つの座標があります ([x1,x2])
  2. 花をグループ化するために使用するクラスターの数を決定します。この値 は k と呼びます。 たとえば、3 つのクラスターを作成するには、k 値に 3 を使用します。 その後、k 個のポイントがランダムな座標にプロットされます。 これらのポイントは各クラスターの中心点になるため、"重心" と呼ばれます。
  3. 各データ ポイント (この例では花) は、最も近い重心に割り当てられます。
  4. 各重心は、ポイントとの間の平均距離に基づいて、割り当てられたデータ ポイントの中心に移動されます。
  5. 重心が移動されると、データ ポイントが異なる重心に近くなる場合があるため、新しい最も近い重心に基づいて、データ ポイントがクラスターに再割り当てされます。
  6. クラスターが安定するまで、または事前に決定されている繰り返しの最大数に達するまで、重心の移動とクラスターの再割り当ての手順が繰り返されます。

次のアニメーションは、このプロセスを示したものです。

k 平均クラスタリング プロセスを示すアニメーションの図。

クラスタリング モデルの評価

予測されたクラスターの割り当てを比較する既知のラベルがないため、クラスタリング モデルの評価は、結果として得られるクラスターが互いにどの程度適切に分離されているかに基づきます。

クラスターの分離を評価するために使用できるメトリックは複数あります。

  • クラスターの中心までの平均距離: クラスター内の各ポイントがクラスターの重心にどの程度近い(平均) か。
  • 他の中心までの平均距離: クラスター内の各ポイントが他のすべてのクラスターの重心にどの程度近い、平均です。
  • クラスターの中心までの最大距離: クラスター内のポイントとその重心の間の最も遠い距離。
  • シルエット: -1 と 1 の間の値。同じクラスター内のポイントと異なるクラスター内のポイント間の距離の比率を要約します (1 に近いほど、クラスターの分離が向上します)。