評估不同類型的叢集

定型叢集模型

您可以使用多個演算法來進行叢集。其中一個最常用的演算法是「K-Means」叢集，在其最簡單的格式中包含下列步驟：

特徵值會向量化以定義 n 維座標（其中 n 是特徵數目）。在花朵範例中有兩個特徵：花瓣數目和葉子數目。特徵向量有兩個座標，我們可以使用這兩個座標，在二維空間中繪製資料點的概念圖。
您決定要用來分組花朵的叢集數目 - 呼叫此值 k。例如，若要建立三個叢集，您會使用 k 值 3。然後以隨機座標繪製 k 點。這些點會是每個叢集的中心點，因此稱為「形心」。
每個資料點 (在此案例中是指花卉) 會指派至其最近的形心。
每個形心都會根據點之間的平均距離，移至指派給它的資料點中心。
移動形心之後，資料點現在可能更接近不同的形心，因此會根據最近的新形心將資料點重新指派給叢集。
形心移動和叢集重新配置步驟會重複，直到叢集變成穩定或達到預先決定的反覆運算次數上限為止。

下圖顯示此流程：

圖例顯示花瓣和葉子數量不同之花朵的集合。

階層式叢集是另一種類型的叢集演算法，其中叢集本身屬於更大的群組，該群組又屬於更大的群組，依此類推。結果就是資料點可以是不同的精確程度的叢集：有大量的非常小且精確的群組，或少數的較大群組。

例如，如果將叢集應用於字詞意義，我們可能會得到一組含有專指情緒的形容詞組 (例如「生氣」、「快樂」等)。此群組屬於包含所有人類相關形容詞 (「快樂」、「英俊」、「年輕」) 的群組，其屬於包含所有形容詞 (「快樂」、「生澀」、「英俊」、「困難」等) 的更高群組。

顯示階層式叢集的圖例。

階層式叢集對於不只是將資料分成多個群組，還有了解這些群組之間的關聯性，都很有用。階層式叢集的主要優點，就是不需要事先定義叢集的數目。與非階層式的方法相比，此方法有時能夠提供更具解釋性的結果。最大的缺點是，這些方法所花費的時間比起較為簡單的方法可能更長，有時不適合大型資料集。

此頁面對您有幫助嗎？