叢集
叢集 是一種非監督式機器學習形式,其中觀察會根據其數據值或特徵的相似性分組成叢集。 這種機器學習被視為不受監督,因為它不會使用先前已知的標籤來定型模型。 在叢集模型中,可僅根據其功能,將標籤視為指派觀察的目標叢集。
範例 - 叢集
例如,假設植物學家觀察花朵的樣本,並記錄每個花朵上的葉子和花瓣數目:
數據集中沒有已知的 標籤 ,只有兩 個功能。 目標是不識別不同的花卉類型(物種) :只是根據葉子和花瓣的數量將類似的花團在一起。
葉 (x1) | 花瓣 (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
定型叢集模型
您可以使用多個演算法來進行叢集。 其中一個最常用的演算法是 K-Means 叢集,其中包含下列步驟:
- 特徵 (x) 值會向量化,以定義 n 維度座標(其中 n 是特徵數目)。 在花卉範例中,我們有兩個特徵:葉數(x1)和花瓣數目(x2)。 因此,特徵向量有兩個座標,可用來在概念上繪製二維空間中的數據點([x1,x2])
- 您決定要用來分組花朵的叢集數目 - 呼叫此值 k。 例如,若要建立三個叢集,您會使用 k 值 3。 然後以隨機座標繪製 k 點。 這些點會是每個叢集的中心點,因此稱為「形心」。
- 每個資料點 (在此案例中是指花卉) 會指派至其最近的形心。
- 每個形心都會根據點之間的平均距離,移至指派給它的資料點中心。
- 移動形心之後,資料點現在可能更接近不同的形心,因此會根據最近的新形心將資料點重新指派給叢集。
- 形心移動和叢集重新配置步驟會重複,直到叢集變成穩定或達到預先決定的反覆運算次數上限為止。
下圖顯示此流程:
評估叢集模型
由於沒有已知的標籤可比較預測的叢集指派,因此,群集模型的評估是以結果叢集彼此分隔的方式為基礎。
您可以使用多個計量來評估叢集區隔,包括:
- 平均到叢集中心的距離:叢集中每個點到中心點的平均距離。
- 與其他中心的平均距離:平均而言,叢集中的每個點都與所有其他群集的距心相近。
- 叢集中心的最大距離:叢集中某個點與其距心之間的最遠距離。
- 剪影:-1 與 1 之間的值,摘要說明相同叢集中點與不同叢集中點之間的距離比例(越接近 1,群集區隔越好)。