共用方式為


Microsoft叢集演算法

適用於: SQL Server 2019 和舊版 Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

SQL Server 2017 Analysis Services 中已淘汰數據採礦,現在已在 SQL Server 2022 Analysis Services 中停止。 檔不會更新為已淘汰和已停止的功能。 若要深入瞭解,請參閱 Analysis Services 回溯相容性

Microsoft叢集演算法是一種 分割叢集 演算法,可逐一查看數據集中的案例,將它們分組為包含類似特性的叢集。 這些群組適用於探索數據、識別數據中的異常,以及建立預測。

叢集模型可識別數據集中的關聯性,這些關聯性可能不是透過隨性觀察而以邏輯方式衍生的。 例如,您可能很容易猜到騎自行車上班的人通常不會住在離工作的地方很遠的地方。 不過,演算法可以找到自行車通勤者的其他特性,這些特性並不明顯。 在下圖中,叢集 A 代表那些傾向於開車上班的人的數據,而叢集 B 則代表那些傾向於騎自行車上班的人的數據。

通勤趨勢的叢集模式

叢集演算法與其他數據採礦演算法不同,例如Microsoft判定樹演算法,因為您不需要指定可預測的數據行來建立群集模型。 叢集演算法會嚴格從存在於數據中的關聯性,以及從演算法所識別的叢集來定型模型。

請考慮一群共享類似人口統計數據的人員,以及從 Adventure Works 公司購買類似產品的人員。 這個人員群組代表一組數據。 資料庫中可能有數個這類叢集。 藉由觀察組成叢集的數據行,您可以更清楚地了解數據集中的記錄彼此相關的方式。

演算法的運作方式

Microsoft叢集演算法會先識別數據集中的關聯性,並根據這些關聯性產生一系列叢集。 散佈圖是可視化方式來表示演算法如何分組數據,如下圖所示的實用方式。 散佈圖代表數據集中的所有案例,而每個案例都是圖形上的點。 叢集會群組圖形上的點,並說明演算法所識別的關聯性。

數據集中案例的散佈圖,

先定義叢集之後,演算法會計算叢集代表點群組的方式,然後嘗試重新定義群組,以建立更能代表數據的叢集。 演算法會逐一查看此程式,直到無法透過重新定義叢集來改善結果為止。

您可以選取指定叢集技術、限制叢集數目上限,或變更建立叢集所需的支持數量,來自定義演算法的運作方式。 如需詳細資訊,請參閱 Microsoft 叢集演算法技術參考。 此演算法包含兩種熱門的群集方法:K-means 叢集和預期最大化方法。

叢集模型所需的數據

當您準備數據以用於定型叢集模型時,您應該瞭解特定演算法的需求,包括需要多少數據,以及如何使用數據。

叢集模型的需求如下:

  • 單一索引鍵數據行 每個模型必須包含一個可唯一識別每筆記錄的數值或文字數據行。 不允許複合索引鍵。

  • 輸入數據行 每個模型至少必須包含一個輸入數據行,其中包含用來建置叢集的值。 您可以視所需的輸入數據行數目而定,但視每個數據行中的值數目而定,新增額外的數據行會增加定型模型所需的時間。

  • 選擇性可預測數據行 演算法不需要可預測的數據行來建置模型,但您可以新增幾乎任何數據類型的可預測數據行。 可預測數據行的值可以視為叢集模型的輸入,也可以指定它只用於預測。 例如,如果您想要將區域或年齡等人口統計叢集來預測客戶收入,您可以將收入指定為 PredictOnly,並新增所有其他數據行,例如區域或年齡,作為輸入。

如需叢集模型所支援之內容類型和數據類型的詳細資訊,請參閱 Microsoft 叢集演算法技術參考的需求一節。

檢視叢集模型

若要探索模型,您可以使用 Microsoft 叢集檢視器。 當您檢視叢集模型時,SQL Server Analysis Services 會在描述叢集關聯性的圖表中顯示叢集,並提供每個叢集的詳細配置檔、區分每個叢集的屬性清單,以及整個定型數據集的特性。 如需詳細資訊,請參閱 使用 Microsoft 叢集查看器流覽模型

如果您想要深入瞭解,您可以在 Microsoft 一般內容樹視圖中流覽模型。 針對模型儲存的內容包含每個節點中所有值的分佈、每個叢集的機率,以及其他資訊。 如需詳細資訊,請參閱叢集模型 採礦模型內容(Analysis Services - 數據採礦)

建立預測

定型模型之後,結果會儲存為一組模式,您可以探索或使用來進行預測。

您可以建立查詢,以傳回有關新數據是否符合探索到的叢集的預測,或取得叢集的描述性統計數據。

如需如何針對數據採礦模型建立查詢的詳細資訊,請參閱 數據採礦查詢。 如需如何搭配叢集模型使用查詢的範例,請參閱 叢集模型查詢範例

言論

  • 支援使用預測模型標記語言 (PMML) 來建立採礦模型。

  • 支援鑽研。

  • 支援使用 OLAP 採礦模型和建立數據採礦維度。

另請參閱

數據採礦演算法 (Analysis Services - 數據採礦)
Microsoft 叢集演算法技術參考
叢集模型的採礦模型內容 (Analysis Services - 數據採礦)
叢集模型查詢範例