共用方式為


時序群集模型的採礦模型內容 (Analysis Services - 數據採礦)

本主題描述使用Microsoft時序群集演算法之模型特有的採礦模型內容。 如需適用於所有模型類型之採礦模型內容的一般和統計術語的說明,請參閱採礦模型內容(Analysis Services - 數據採礦)。

瞭解時序群集模型的結構

時序群集模型具有代表模型及其元數據的單一父節點(NODE_TYPE = 1)。 標記為 [全部] 的父節點具有相關的時序節點 (NODE_TYPE = 13),其中會列出訓練數據中偵測到的所有轉換。

時序群集模型結構

此演算法也會根據數據中找到的轉換,以及建立模型時所包含的任何其他輸入屬性,例如客戶人口統計等等,建立一些叢集。 每個叢集 (NODE_TYPE = 5) 都包含自己的時序節點 (NODE_TYPE = 13),其中只會列出產生該特定叢集時所使用的轉換。 您可以從順序節點向下切入,以檢視個別狀態轉換的詳細數據(NODE_TYPE = 14)。

如需順序和狀態轉換的說明,以及範例,請參閱 Microsoft時序群集演算法

序列群集模型的模型內容

本節提供採礦模型內容中數據行的其他信息,這些數據行與時序群集具有特定相關性。

模型目錄
儲存模型的資料庫名稱。

MODEL_NAME
模型的名稱。

屬性名稱
一律為空白。

節點名稱
節點的名稱。 目前的值與NODE_UNIQUE_NAME相同。

節點_唯一名稱
節點的唯一名稱。

節點類型 (NODE_TYPE)
時序叢集模型會輸出下列節點類型:

節點類型標識碼 說明
1 (模型) 模型的根節點
5 (叢集) 包含叢集中的轉換計數、屬性清單,以及描述叢集中值的統計數據。
13 (序列) 包含叢集中所包含的轉換清單。
14 (轉換) 將事件序列描述為數據表,其中第一個數據列包含起始狀態,而所有其他數據列都包含連續狀態,以及支援和機率統計數據。

NODE_GUID
空白。

節點標題
用於顯示目的的與節點相關的標籤或說明文字。

您可以在使用模型時重新命名叢集標題;不過,如果您關閉模型,則不會保存新名稱。

CHILDREN_CARDINALITY (子項目基數)
估計節點擁有的子系數目。

模型根目錄 基數值等於叢集數目加上一個。 如需詳細資訊,請參閱 基數

叢集節點 基數一律為 1,因為每個叢集都有單一子節點,其中包含叢集中的序列清單。

時序節點 基數表示該叢集中所包含的轉換數目。 例如,模型根節點的序列節點基數可幫助您知道整個模型中找到的轉換數量。

父母唯一名稱
節點父代的唯一名稱。

根層級的任何節點會傳回NULL。

節點描述
與節點標籤相同。

節點規則
一律為空白。

邊際規則
一律為空白。

節點_概率
模型根目錄 一律為 0。

叢集節點 模型中群集的調整機率。 調整後的機率並不會加總為 1,因為在序列群集中使用的叢集方法允許成員部分隸屬於多個叢集。

時序節點 一律為 0。

轉換節點 一律為 0。

邊際機率
模型根目錄 一律為 0。

叢集節點 與 NODE_PROBABILITY 相同的值。

時序節點 一律為 0。

轉換節點 一律為 0。

節點分佈
包含機率和其他信息的數據表。 如需詳細資訊,請參閱 NODE_DISTRIBUTION 數據表

節點支援
支援此節點的轉換數目。 因此,如果訓練數據中有 30 個序列「產品 A 後面接著產品 B」的範例,則總支持度為 30。

模型根目錄 模型中的轉換總數。

叢集節點 叢集的原始支援,表示為此叢集提供案例的定型案例數目。

時序節點 一律為 0。

轉換節點 代表特定轉換之叢集中案例的百分比。 可以是 0,或可以有正值。 計算方式是取得叢集節點的原始支援,並乘以叢集的機率。

從此值中,您可以判斷有多少訓練樣本貢獻於過渡。

MSOLAP模型欄位
不適用。

MSOLAP_節點分數
不適用。

MSOLAP_NODE_SHORT_CAPTION
與NODE_DESCRIPTION相同。

瞭解序列、狀態和轉換

時序群集模型具有唯一的結構,結合了兩種物件與非常不同類型的資訊:第一種是叢集,第二種是狀態轉換。

由時序叢集建立的叢集就像Microsoft叢集演算法所建立的叢集。 每個叢集都有設定檔和其特性。 不過,在時序叢集中,每個叢集會另外包含列出該叢集中序列的單一子節點。 每個時序節點都包含多個子節點,這些子節點會詳細描述狀態轉換,並具有機率。

模型中的序列幾乎一律會比在任何單一案例中找到的序列更多,因為序列可以鏈結在一起。 Microsoft Analysis Services 會將指標儲存至另一個狀態,以便計算每次轉換發生的次數。 您也可以找到序列發生次數的相關信息,並測量與整個觀察狀態集相較之下發生的機率。

下表摘要說明如何將資訊儲存在模型中,以及節點的關聯方式。

節點 具有子節點 節點分佈數據表
模型根目錄 多個叢集節點

具有全模型序列的節點
列出模型中具有支援和機率的所有產品。

由於聚類方法允許在多個叢集中具有部分成員身份,因此支援度和機率可以是小數值。 也就是說,每個案例可能屬於多個叢集,而不是計算單一案例一次。 因此,判斷最終叢集成員資格時,該值會依該叢集的機率進行調整。
模型的順序節點 多個轉換節點 列出模型中具有支援和機率的所有產品。

由於模型已知序列數目,因此在此層級,支援和機率的計算相當簡單:

支援 = 案例計數

Probability = 模型中每個序列的原始機率。 所有機率應加總為 1。
個別叢集節點 僅含該叢集序列的節點 列出叢集中的所有產品,但只針對叢集特性的產品提供支援和機率值。

支持表示此叢集中每個案例的調整支持值。 機率值是經過調整的機率。
個別叢集的順序節點 具有該叢集中序列轉換的多個節點 與個別叢集節點中完全相同的資訊。
過渡 沒有子系 列出相關初始狀態的轉換列表。

支撐是調整後的支撐值,表示參與每個轉換的案例數。 Probability 是調整的機率,以百分比表示。

NODE_DISTRIBUTION數據表

NODE_DISTRIBUTION數據表提供特定叢集之轉換和序列的詳細機率和支持資訊。

一行總是在轉換表中新增,以表示可能的 Missing 值。 如需了解Missing值的含義及其如何影響計算,請參閱遺漏值(Analysis Services - 數據採礦)。

支持度和機率的計算會根據計算是套用到訓練案例還是完成的模型而有所不同。 這是因為預設叢集方法預期最大化 (EM),假設任何案例都可以屬於多個叢集。 計算模型中案例的支援時,可以使用原始計數和原始機率。 不過,叢集中任何特定序列的機率必須依所有可能序列和叢集組合的總和來加權。

基數

在叢集模型中,父節點的基數通常會告訴您模型中有多少個叢集。 不過,時序叢集模型在叢集層級有兩種節點:一種節點包含叢集,另一種節點則包含整個模型的序列清單。

因此,若要瞭解模型中的叢集數目,您可以取得 [所有] 節點的 NODE_CARDINALITY 值,並減去一個。 例如,如果模型建立9個叢集,則模型根目錄的基數為10。 這是因為模型包含 9 個叢集節點,每個節點都有自己的時序節點,再加上一個標示為叢集 10 的額外時序節點,代表模型的序列。

結構的逐步解說

範例可能有助於釐清資訊儲存方式,以及如何解譯資訊。 例如,您可以使用下列查詢來尋找最大順序,這表示基礎 AdventureWorksDW2012 數據中觀察到的最長鏈結:

USE AdventureWorksDW2012  
SELECT DISTINCT OrderNumber, Count(*)  
FROM vAssocSeqLineItems  
GROUP BY OrderNumber  
ORDER BY Count(*) DESC  

從這些結果中,您會發現訂單編號『SO72656』、『SO58845』和『SO70714』包含最大的序列,每一個訂單編號各包含8個項目。 藉由使用訂單編號,您可以查看特定訂單的詳情,以了解購買了哪些項目及其購買順序。

訂單編號 行號碼 型號
SO58845 1 Mountain-500
SO58845 2 LL Mountain Tire
SO58845 3 山輪胎管
SO58845 4 芬德集 - 山
SO58845 5 山瓶籠
SO58845 6 水瓶
SO58845 7 Sport-100
SO58845 8 Long-Sleeve 標誌球衣

不過,某些購買Mountain-500的客戶可能會購買不同的產品。 您可以檢視模型中序列清單,以檢視Mountain-500之後的所有產品。 下列程式會逐步引導您使用 Analysis Services 中提供的兩個查看器來檢視這些序列:

  1. 在 [物件總管] 中,以滑鼠右鍵按一下 [時序叢集] 模型,然後選取 [流覽]。

  2. 在 [時序叢集查看器] 中,按一下 [狀態轉換] 索引標籤

  3. 在 [ 叢集 ] 下拉式清單中,確定已選取 [ 人口(全部)]。

  4. 將窗格左側的滑桿列一路移至頂端,以顯示所有連結。

  5. 在圖表中,找出 Mountain-500,然後按兩下圖表中的節點。

  6. 標示的線條指向下一個狀態(在Mountain-500之後購買的產品),數字表示機率。 將這些結果與泛型模型內容查看器中的結果進行比較。

  1. 在 [物件總管] 中,滑鼠右鍵點選 [時序叢集] 模型,然後選取 [瀏覽]。

  2. 在查看器下拉式清單中,選取 Microsoft 一般內容樹查看器

  3. 在「節點標題」窗格中,點一下名為 Sequence 層級的集群 16節點。

  4. 在 [節點詳細數據] 窗格中,尋找NODE_DISTRIBUTION數據列,然後按兩下巢狀數據表中的任何位置。

    頂端資料列永遠用於表示缺失值。 此數據列是順序狀態 0。

  5. 按下向下箭頭鍵,或使用滾動條,向下移動巢狀表格,直到看到山地-500那一列。

    此數據列是序列狀態 20。

    備註

    您可以透過程序設計方式取得特定時序狀態的數據列編號,但如果您只是流覽,可能比較容易將巢狀數據表複製到 Excel 活頁簿。

  6. 返回 [節點標題] 窗格,如果尚未展開,請展開 [ 叢集 16 的時序層級] 節點。

  7. 請在其子節點中查找包含順序狀態 20 的轉換列。 點擊轉換節點。

  8. 巢狀NODE_DISTRIBUTION數據表包含下列產品和機率。 將這些結果與時序叢集查看器的 [ 狀態轉換 ] 索引卷標中的結果進行比較。

下表顯示NODE_DISTRIBUTION數據表的結果,以及圖形查看器中顯示的四捨五入機率值。

產品 支援(NODE_DISTRIBUTION表格) 機率(節點分佈)表 機率(來自圖表)
失蹤 48.447887 0.138028169 ( 未顯示 )
自行車帽 10.876056 0.030985915 0.03
芬德集 - 山 80.087324 0.228169014 0.23
Half-Finger 手套 0.9887324 0.002816901 0.00
水化套件 0.9887324 0.002816901 0.00
LL Mountain Tire 51.414085 0.146478873 0.15
Long-Sleeve 標誌球衣 2.9661972 0.008450704 0.01
山瓶籠 87.997183 0.250704225 0.25
山輪胎管 16.808451 0.047887324 0.05
Short-Sleeve 經典球衣 10.876056 0.030985915 0.03
Sport-100 20.76338 0.05915493 0.06
水瓶 18.785915 0.053521127 0.25

雖然我們最初從訓練數據中選取的案例包含產品『Mountain-500』,後面接著『LL Mountain Tire』,但您可以看到許多其他可能的序列。 若要尋找任何特定叢集的詳細資訊,您必須重複對叢集中序列清單深入研究,以了解每個狀態或產品的實際變化。

您可以從一個特定叢集中所列的序列,跳轉至過渡列。 從該過渡行,您可以確定下一個產品,然後在序列清單中跳轉到該產品。 透過對每個第一和第二狀態重複此過程,您可以逐步處理長串的狀態序列。

使用序列資訊

序列叢集的常見情境是追蹤使用者在網站上的點擊。 例如,如果數據來自 Adventure Works 電子商務網站上的客戶購買記錄,則產生的時序群集模型可用來推斷用戶行為、重新設計電子商務網站來解決瀏覽問題,或促銷銷售。

例如,分析可能會顯示使用者一律遵循特定產品鏈結,而不論人口統計為何。 此外,您可能會發現使用者在點擊特定產品後經常離開網站。 根據該發現,您可能會詢問您可以提供給使用者哪些其他路徑,以誘使用戶留在網站上。

如果您沒有用於分類使用者的其他資訊,則可以直接使用時序資訊來收集數據,以進一步瞭解整體行為。 不過,如果您可以收集客戶的相關信息,並將該資訊與客戶資料庫相符,您可以將叢集的強大功能與序列上的預測結合,以提供針對使用者量身打造的建議,或根據流覽至目前頁面的路徑。

序列群集模型所編譯之廣泛狀態和轉換資訊的另一個用法,是判斷永遠不會使用哪些可能的路徑。 例如,如果您有許多訪客前往第 1-4 頁,但訪客永遠無法繼續到第 5 頁,您可能會調查是否有問題阻礙瀏覽到第 5 頁。 您可以藉由查詢模型內容,並將它與可能的路徑清單進行比較來達成此動作。 您可以透過程式設計方式或使用各種網站分析工具,以程式設計方式建立網站中的所有導覽路徑圖表。

若要瞭解如何藉由查詢模型內容來取得觀察到的路徑清單,以及查看序列叢集模型的其他查詢範例,請參閱 時序群集模型查詢範例

另請參閱

採礦模型內容 (Analysis Services - 數據採礦)
Microsoft時序群集演算法
時序群集模型查詢範例