叢集

備註

有關更多詳細信息，請參閱 文本和圖像 選項卡！

叢集是一種非監督式機器學習形式，其中觀察會根據其數據值或特徵的相似性分組成叢集。這種機器學習被視為不受監督，因為它不會使用先前已知的標籤來定型模型。在叢集模型中，可僅根據其功能，將標籤視為指派觀察的目標叢集。

範例 - 叢集

例如，假設植物學家觀察花朵的樣本，並記錄每個花朵上的葉子和花瓣數目：

一些花的圖表。

數據集中沒有已知的標籤，只有兩 個功能。目標是不識別不同的花卉類型（物種）：只是根據葉子和花瓣的數量將類似的花團在一起。

您可以使用多個演算法來進行叢集。其中一個最常用的演算法是 K-Means 叢集，其中包含下列步驟：

特徵（x）值會向量化，以定義 n 維度座標（其中 n 是特徵數目）。在花卉範例中，我們有兩個特徵：葉數（x₁）和花瓣數目（x₂）。因此，特徵向量有兩個座標，可用來在概念上繪製二維空間中的數據點（[x_1，x₂]）
您決定要用來分組花朵的叢集數目 - 呼叫此值 k。例如，若要建立三個叢集，您會使用 k 值 3。然後以隨機座標繪製 k 點。這些點會是每個叢集的中心點，因此稱為「形心」。
每個資料點 (在此案例中是指花卉) 會指派至其最近的形心。
每個形心都會根據點之間的平均距離，移至指派給它的資料點中心。
移動形心之後，資料點現在可能更接近不同的形心，因此會根據最近的新形心將資料點重新指派給叢集。
形心移動和叢集重新配置步驟會重複，直到叢集變成穩定或達到預先決定的反覆運算次數上限為止。

下圖顯示此流程：

顯示 k-means 叢集程序的動畫圖表。

由於沒有已知的標籤可比較預測的叢集指派，因此，群集模型的評估是以結果叢集彼此分隔的方式為基礎。

您可以使用多個計量來評估叢集區隔，包括：

此頁面對您有幫助嗎？