クラスタリング
クラスタリング は教師なし機械学習の一種であり、観測値はデータ値または特徴の類似点に基づいてクラスターにグループ化されます。 この種の機械学習は、以前に知られていたラベル値を使用してモデルをトレーニングしないため、教師なしと見なされます。 クラスタリング モデルでは、ラベルは、その特徴のみに基づいて観察が割り当てられるクラスターです。
例 - クラスタリング
たとえば、植物学者が花のサンプルを観察し、各花の葉と花びらの数を記録するとします。
データセットには既知の ラベル はなく、2 つの 特徴だけです。 目的は、花の異なる種類(種)を識別することです。単に葉と花びらの数に基づいて同様の花をグループ化します。
葉 (x1) | 花びら (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
クラスタリング モデルのトレーニング
クラスタリングには複数のアルゴリズムを使用できます。 最も一般的に使用されるアルゴリズムの 1 つは、次の手順で構成される K-Means クラスタリングです。
- 特徴 (x) 値は、 n 次元座標 (n は 特徴の数) を定義するためにベクター化されます。 花の例では、葉の数 (x1) と花弁の数 (x2) の 2 つの特徴があります。 したがって、特徴ベクトルには、2 次元空間にデータ ポイントを概念的にプロットするために使用できる 2 つの座標があります ([x1,x2])
- 花をグループ化するために使用するクラスターの数を決定します。この値 は k と呼びます。 たとえば、3 つのクラスターを作成するには、k 値に 3 を使用します。 その後、k 個のポイントがランダムな座標にプロットされます。 これらのポイントは各クラスターの中心点になるため、"重心" と呼ばれます。
- 各データ ポイント (この例では花) は、最も近い重心に割り当てられます。
- 各重心は、ポイントとの間の平均距離に基づいて、割り当てられたデータ ポイントの中心に移動されます。
- 重心が移動されると、データ ポイントが異なる重心に近くなる場合があるため、新しい最も近い重心に基づいて、データ ポイントがクラスターに再割り当てされます。
- クラスターが安定するまで、または事前に決定されている繰り返しの最大数に達するまで、重心の移動とクラスターの再割り当ての手順が繰り返されます。
次のアニメーションは、このプロセスを示したものです。
クラスタリング モデルの評価
予測されたクラスターの割り当てを比較する既知のラベルがないため、クラスタリング モデルの評価は、結果として得られるクラスターが互いにどの程度適切に分離されているかに基づきます。
クラスターの分離を評価するために使用できるメトリックは複数あります。
- クラスターの中心までの平均距離: クラスター内の各ポイントがクラスターの重心にどの程度近い(平均) か。
- 他の中心までの平均距離: クラスター内の各ポイントが他のすべてのクラスターの重心にどの程度近い、平均です。
- クラスターの中心までの最大距離: クラスター内のポイントとその重心の間の最も遠い距離。
- シルエット: -1 と 1 の間の値。同じクラスター内のポイントと異なるクラスター内のポイント間の距離の比率を要約します (1 に近いほど、クラスターの分離が向上します)。