Microsoft叢集演算法是由 Analysis Services 提供的分割演算法。 此演算法會使用反覆技術,將數據集中的案例分組為包含類似特性的叢集。 這些群組適用於探索數據、識別數據中的異常,以及建立預測。
叢集模型可識別數據集中的關聯性,這些關聯性可能不是透過隨性觀察而以邏輯方式衍生的。 例如,您可以以邏輯方式辨識那些騎自行車上下班的人通常不會住在離工作的地方很長的距離。 不過,演算法可以找到自行車通勤者的不易察覺的其他特性。 在下圖中,叢集 A 代表那些傾向於開車上班的人的數據,而叢集 B 則代表那些傾向於騎自行車上班的人的數據。
叢集演算法與其他數據採礦演算法不同,例如Microsoft判定樹演算法,因為您不需要指定可預測的數據行來建立群集模型。 叢集演算法會嚴格從存在於數據中的關聯性,以及從演算法所識別的叢集來定型模型。
範例
請考慮一群共享類似人口統計數據的人員,以及從 Adventure Works 公司購買類似產品的人員。 這個人員群組代表一組數據。 資料庫中可能有數個這類叢集。 藉由觀察組成叢集的數據行,您可以更清楚地了解數據集中的記錄彼此相關的方式。
演算法的運作方式
Microsoft叢集演算法會先識別數據集中的關聯性,並根據這些關聯性產生一系列叢集。 散佈圖是一種用來視覺化呈現演算法如何分組數據的有用方法,如下圖所示。 散佈圖代表數據集中的所有案例,而每個案例都是圖形上的點。 叢集會在圖表上將點群組起來,並展示出演算法所識別的關聯性。
先定義叢集之後,演算法會計算叢集代表點群組的方式,然後嘗試重新定義群組,以建立更能代表數據的叢集。 演算法會反覆執行此過程,直到無法再透過重新定義叢集來改進結果為止。
您可以選擇或指定一種分群技術、限制最大叢集數,或更改創建叢集所需的支持量,來自訂演算法的運作方式。 如需詳細資訊,請參閱 Microsoft叢集演算法技術參考。
叢集模型所需的數據
當您準備數據以用於定型叢集模型時,您應該瞭解特定演算法的需求,包括需要多少數據,以及如何使用數據。
叢集模型的需求如下:
單一索引鍵數據行 每個模型都必須包含一個可唯一識別每個記錄的數值或文字數據行。 不允許使用複合索引鍵。
輸入數據行 每個模型至少必須包含一個輸入數據行,其中包含用來建置叢集的值。 您可以視所需的輸入數據行數目而定,但視每個數據行中的值數目而定,新增額外的數據行會增加定型模型所需的時間。
選擇性可預測數據行 演算法不需要可預測的數據行來建置模型,但您可以新增幾乎任何數據類型的可預測數據行。 可預測數據行的值可以視為叢集模型的輸入,也可以指定它只用於預測。 例如,如果您想通過對區域或年齡等人口統計數據進行叢集分析來預測客戶收入,您可以將收入指定為
PredictOnly,並將區域或年齡等所有其他列新增為輸入。
如需叢集模型所支援內容類型和數據類型的詳細資訊,請參閱 叢集演算法技術參考Microsoft的需求一節。
檢視叢集模型
若要探索模型,您可以使用 Microsoft叢集查看器。 當您檢視叢集模型時,Analysis Services 會在描述叢集關聯性的圖表中顯示叢集,並提供每個叢集的詳細配置檔、區分每個叢集的屬性清單,以及整個定型數據集的特性。 如需詳細資訊,請參閱 使用 Microsoft 叢集查看器流覽模型。
如果您想要深入瞭解詳細數據,您可以在 Microsoft一般內容樹視圖器中流覽模型。 針對模型儲存的內容包含每個節點中所有值的分佈、每個叢集的機率,以及其他資訊。 如需詳細資訊,請參閱叢集模型的採礦模型內容(Analysis Services - 數據採礦)。
建立預測
定型模型之後,結果會儲存為一組模式,您可以探索或使用來進行預測。
您可以建立查詢,以傳回有關新數據是否符合探索到的叢集的預測,或取得叢集的描述性統計數據。
如需如何針對數據採礦模型建立查詢的詳細資訊,請參閱 數據採礦查詢。 如需如何搭配叢集模型使用查詢的範例,請參閱 叢集模型查詢範例。
備註
支援使用預測模型標記語言 (PMML) 來建立採礦模型。
支援鑽取功能。
支援使用 OLAP 採礦模型和建立數據採礦維度。
另請參閱
資料探勘演算法(Analysis Services - 資料探勘)Microsoft 叢集演算法技術參考叢集模型的資料探勘模型內容(Analysis Services - 資料探勘)叢集模型查詢範例