何謂叢集?
「叢集」是一種「非監督式」機器學習的形式,其中的觀察值會根據其資料值中的相似性或「特徵」,分組到叢集。 這種機器學習被視為不受監督,因為它不會使用先前已知的 標籤 來定型模型。 在叢集模型中,可僅根據其功能,將標籤視為指派觀察的目標叢集。
例如,假設植物學家觀察花卉樣本,並記錄每種花卉的花瓣和葉片數目。
根據其特徵之間的相似性,將這些花卉分組叢集可能會很有幫助。
有許多方式可以判斷此群組。 例如,如果大部分花卉都有相同的葉子數目,可以再依花瓣多寡進行分組。 或者,如果花瓣和葉子計數有很大的差異,有一個模式可以探索,例如同時有許多葉子和花瓣的花卉。 叢集演算法的目標是找出將資料集分割成群組的最佳方式。 最佳方式取決於所使用的演算法和提供的數據集。
雖然這個花卉範例易於分類,因為它只有幾個樣本,但是隨著資料集成長至上千個樣本或兩個以上的功能,在將資料集快速排序至群組時,叢集演算法會變得有用。