本主題描述使用Microsoft叢集演算法之模型特有的採礦模型內容。 如需所有模型類型的採礦模型內容的一般說明,請參閱採礦模型內容(Analysis Services - 數據採礦)。
瞭解叢集模型的結構
叢集模型具有簡單的結構。 每個模型都有代表模型及其元數據的單一父節點,而每個父節點都有叢集的一般清單(NODE_TYPE = 5)。 下圖顯示此組織。
每個子節點都代表單一叢集,並包含該叢集中案例屬性的詳細統計數據。 這包括叢集中案例數目的計數,以及區分叢集與其他叢集的值分佈。
備註
您不需要逐一查看節點,即可取得叢集的計數或描述;模型父節點也會計算並列出叢集。
父節點包含實用的統計數據,描述所有定型案例的實際分佈。 這些統計數據位於巢狀數據表數據行中,NODE_DISTRIBUTION。 例如,下表顯示NODE_DISTRIBUTION數據表中的數個數據列,這些數據列描述叢集模型的客戶人口統計數據分佈, TM_Clustering而您在 基本數據採礦教學課程中建立:
| 屬性名稱 | ATRIBUTE_VALUE | 支援 | 概率 | 方差 | 值類型 |
|---|---|---|---|---|---|
| 年齡 | 失蹤 | 0 | 0 | 0 | 1 (遺漏) |
| 年齡 | 44.9016152716593 | 12939 | 1 | 125.663453102554 | 3 (連續) |
| 性別 | 失蹤 | 0 | 0 | 0 | 1 (遺漏) |
| 性別 | F | 6350 | 0.490764355823479 | 0 | 4 (離散) |
| 性別 | M | 6,589 | 0.509235644176521 | 0 | 4 (離散) |
從這些結果中,您可以看到有12939例用於建立模型,男性與女性的比例約為50-50,平均年齡為44歲。 描述性統計數據會根據所報告的屬性是連續數值數據類型,例如年齡或離散實值類型,例如性別而有所不同。 統計量值平均值和變異數是針對連續數據類型計算,而離散數據類型則計算機率和支援。
備註
變異數代表叢集的總變異數。 當變異數的值很小時,表示數據行中的大多數值都相當接近平均值。 若要取得標準偏差,請計算變異數的平方根。
請注意,對於每個屬性,都有一個 Missing 實值類型,告訴您有多少案例沒有該屬性的數據。 視數據類型而定,遺漏的數據可能相當重要,而且會以不同的方式影響計算。 如需詳細資訊,請參閱遺漏值(Analysis Services - 數據採礦)。
叢集模型的模型內容
本節僅針對與叢集模型相關的採礦模型內容中的數據行提供詳細數據和範例。
如需架構數據列集中一般用途數據行的相關信息,例如MODEL_CATALOG和MODEL_NAME,請參閱採礦模型內容(Analysis Services - 數據採礦)。
模型目錄
儲存模型的資料庫名稱。
MODEL_NAME
模型的名稱。
屬性名稱
叢集模型中一律為空白,因為模式中沒有可預測的屬性。
節點名稱
始終與NODE_UNIQUE_NAME相同。
節點_唯一名稱
模型內節點的唯一標識符。 這項值不能被改變。
節點類型 (NODE_TYPE)
叢集模型會輸出下列節點類型:
| 節點標識碼和名稱 | 說明 |
|---|---|
| 1 (模型) | 模型的根節點。 |
| 5 (叢集) | 包含叢集中的案例計數、叢集中案例的特性,以及描述叢集中值的統計數據。 |
節點標題
方便顯示之用的易記名稱。 當您建立模型時,會自動使用NODE_UNIQUE_NAME的值作為標題。 不過,您可以變更 NODE_CAPTION 的值,以程序設計方式或使用查看器來更新叢集的顯示名稱。
備註
當您重新處理模型時,新值將會覆寫所有名稱變更。 您無法保存模型中的名稱,或追蹤不同模型版本之間的叢集成員資格變更。
CHILDREN_CARDINALITY (子項目基數)
估計節點擁有的子系數目。
父節點 指出模型中的叢集數目。
叢集節點 一律為 0。
父母唯一名稱
節點父代的唯一名稱。
父節點 一律為 NULL
叢集節點 通常為 000。
節點描述
節點的描述。
父節點 永遠 (全部) 。
叢集節點 區分叢集與其他叢集之主要屬性的逗號分隔清單。
NODE_RULE
不適用於叢集模型。
邊際規則
不適用於叢集模型。
節點_概率
與此節點相關聯的機率。
父節點 一律為 1。
叢集節點 機率代表屬性的複合機率,視用來建立群集模型的演算法而定,有一些調整。
邊際機率
從父節點到達節點的機率。 在群集模型中,臨界機率一律與節點機率相同。
節點分佈
包含節點機率直方圖的數據表。
父節點 請參閱本主題的簡介。
叢集節點 表示這個叢集中包含之案例的屬性和值分佈。
節點支援
支援此節點的案例數目。
父節點 指出整個模型的定型案例數目。
叢集節點 指出叢集的大小,以數種案例表示。
注意 如果模型使用 K-Means 叢集,則每個案例只能屬於一個叢集。 不過,如果模型使用EM叢集,則每個案例都可以屬於不同的叢集,且案例會為其所屬的每個叢集指派加權距離。 因此,針對EM模型,個別叢集的支援總和大於整體模型的支援。
MSOLAP模型欄位
不適用於叢集模型。
MSOLAP_節點分數
顯示與節點相關聯的分數。
父節點 群集模型的貝氏資訊準則 (BIC) 分數。
叢集節點 一律為 0。
MSOLAP_NODE_SHORT_CAPTION
用於顯示用途的標籤。 您無法變更此標題。
父節點 模型的類型:叢集模型
叢集節點 叢集的名稱。 範例:叢集 1。
備註
Analysis Services 提供多個方法來建立叢集模型。 如果您不知道使用哪一種方法來建立您正在使用的模型,您可以使用 ADOMD 用戶端或 AMO,或查詢數據採礦架構數據列集,以程式設計方式擷取模型元數據。 如需詳細資訊,請參閱 查詢用來建立採礦模型的參數。
備註
不論您使用的叢集方法或參數為何,模型的結構和內容都保持不變。
另請參閱
採礦模型內容 (Analysis Services - 數據採礦)
數據採礦模型查看器
Microsoft叢集演算法
數據採礦查詢