クラスタリング

10 分

クラスタリング は教師なし機械学習の一種であり、観測値はデータ値または特徴の類似点に基づいてクラスターにグループ化されます。この種の機械学習は、以前に知られていたラベル値を使用してモデルをトレーニングしないため、教師なしと見なされます。クラスタリングモデルでは、ラベルは、その特徴のみに基づいて観察が割り当てられるクラスターです。

例 - クラスタリング

たとえば、植物学者が花のサンプルを観察し、各花の葉と花びらの数を記録するとします。

いくつかの花の図。

データセットには既知の ラベル はなく、2 つの特徴だけです。目的は、花の異なる種類(種)を識別することです。単に葉と花びらの数に基づいて同様の花をグループ化します。

葉 (x₁)	花びら (x₂)
0	5
0	6
1	3
1	3
1	6
1	8
2	3
2	7
2	8

クラスタリングモデルのトレーニング

クラスタリングには複数のアルゴリズムを使用できます。最も一般的に使用されるアルゴリズムの 1 つは、次の手順で構成される K-Means クラスタリングです。

特徴 (x) 値は、 n 次元座標 (n は 特徴の数) を定義するためにベクター化されます。花の例では、葉の数 (x₁) と花弁の数 (x₂) の 2 つの特徴があります。したがって、特徴ベクトルには、2 次元空間にデータポイントを概念的にプロットするために使用できる 2 つの座標があります ([x_1,x₂])
花をグループ化するために使用するクラスターの数を決定します。この値 は k と呼びます。たとえば、3 つのクラスターを作成するには、k 値に 3 を使用します。その後、k 個のポイントがランダムな座標にプロットされます。これらのポイントは各クラスターの中心点になるため、"重心" と呼ばれます。
各データポイント (この例では花) は、最も近い重心に割り当てられます。
各重心は、ポイントとの間の平均距離に基づいて、割り当てられたデータポイントの中心に移動されます。
重心が移動されると、データポイントが異なる重心に近くなる場合があるため、新しい最も近い重心に基づいて、データポイントがクラスターに再割り当てされます。
クラスターが安定するまで、または事前に決定されている繰り返しの最大数に達するまで、重心の移動とクラスターの再割り当ての手順が繰り返されます。

次のアニメーションは、このプロセスを示したものです。

k 平均クラスタリングプロセスを示すアニメーションの図。

クラスタリングモデルの評価

予測されたクラスターの割り当てを比較する既知のラベルがないため、クラスタリングモデルの評価は、結果として得られるクラスターが互いにどの程度適切に分離されているかに基づきます。

クラスターの分離を評価するために使用できるメトリックは複数あります。

クラスターの中心までの平均距離: クラスター内の各ポイントがクラスターの重心にどの程度近い(平均) か。
他の中心までの平均距離: クラスター内の各ポイントが他のすべてのクラスターの重心にどの程度近い、平均です。
クラスターの中心までの最大距離: クラスター内のポイントとその重心の間の最も遠い距離。
シルエット: -1 と 1 の間の値。同じクラスター内のポイントと異なるクラスター内のポイント間の距離の比率を要約します (1 に近いほど、クラスターの分離が向上します)。

クラスタリング

例 - クラスタリング

クラスタリング モデルのトレーニング

クラスタリング モデルの評価

フィードバック

クラスタリングモデルのトレーニング

クラスタリングモデルの評価