探索撥接中心模型 (中繼資料採礦教學課程)
現在您已經建立了用來進行探索的模型,您可以使用 Business Intelligence Development Studio 所提供的下列工具深入了解您的資料。
Microsoft 類神經網路檢視器**:**此檢視器可從資料採礦設計師的 [採礦模型檢視器] 索引標籤中取得,是設計用來協助您試驗資料中的互動性。
Microsoft 一般內容樹狀檢視器**:**這個標準的檢視器在演算法產生模型時,為所發現的模式和統計資料提供深入的詳細資料。
資料來源檢視設計師**:**這個檢視器提供資料表、圖表,以及樞紐圖表和樞紐資料表來協助您探索來源資料。在理解模型所發現的趨勢時,回到來源資料中可能非常有幫助。
Microsoft 類神經網路檢視器
此檢視器包含三個窗格 - [輸入]、[輸出] 和 [變數]。
您可以使用 [輸出] 窗格,針對可預測的屬性或相依變數選取不同的值。如果您的模型包含多個可預測的屬性,您可以從 [輸出屬性] 清單中選取屬性。
[變數] 窗格會比較您針對提供之屬性或變數選擇的兩個結果。彩色列以視覺方式表示變數影響目標結果的強度。您也可以檢視變數的增益分數。增益分數會根據您所使用的採礦模型類型而有不同的計算方式,但在使用此屬性進行預測時,通常會告訴您模型的增進部分。
[輸入] 窗格可讓您將影響因數加入到模型中,以嘗試各種假設狀況。
使用輸出窗格
在此初始模型中,您可能有興趣想要查看各種因數如何影響服務等級。若要這樣做,您可以從輸出屬性的清單選取 [服務等級],然後從 [值 1] 和 [值 2] 的下拉式清單中選取範圍,藉以比較不同的服務等級。
若要比較最低和最高的服務等級
為 [值 1] 選取最低的值範圍。例如,範圍 0-0-0.7 表示最低的放棄率,因此是最佳的服務等級。
[!附註]
在此範圍中的實際值可能會隨著您設定模型的方式而有所不同。
為 [值 2] 選取最高的值範圍。例如,值為 >=0.12 的範圍表示最高的放棄率,因此是最差的服務等級。換句話說,在此排班期間打電話的客戶之中,有 12% 的客戶在與服務人員通話前,就會掛斷電話。
[變數] 窗格的內容會更新並比較影響結果值的屬性。因此,左側資料行會顯示與最佳服務等級相關聯的屬性,而右側資料行則顯示與最差服務等級相關聯的屬性。
使用變數窗格
在此模型中,[每個問題的平均時間] 是一個重要的因數。此變數表示回應通話所需的平均時間,無論通話類型為何。
若要檢視與複製屬性的機率和增益分數
在 [變數] 窗格中,將滑鼠放在第一個資料列的彩色列上方。
這個彩色列會顯示 [每個問題的平均時間] 對於服務等級的影響強度。工具提示會針對變數和目標結果的每個組合,顯示整體分數、機率,以及增益分數。
在 [變數] 窗格中,以滑鼠右鍵按一下任何彩色列,然後選取 [複製]。
在 Excel 工作表中,以滑鼠右鍵按一下任何資料格,並選取 [貼上]。
此報表就會貼上為 HTML 表格,並僅顯示每列的分數。
在不同的 Excel 工作表中,以滑鼠右鍵按一下任何資料格,並選取 [選擇性貼上]。
此報表會以文字格式貼上,並包含下節所描述的相關統計資料。
使用輸入窗格
假設您有興趣查看特定因數的效果,例如排班或操作員數目。您可以使用 [輸入] 窗格選取一個特定的變數,[變數] 窗格便會自動更新,並在指定此變數的條件下比較先前選取的兩個群組。
若要變更輸入屬性來檢閱對於服務等級的效果
在 [輸入] 窗格的 [屬性] 中,選取 [排班]。
在 [值] 中,選取 AM。
[變數] 窗格會更新以顯示排班為 AM 時,對模型的影響。其他所有選項則維持相同,也就是說,您仍是比較最低和最高服務等級。
在 [值] 中,選取 PM1。
[變數] 窗格會更新以顯示排班變更時,對模型的影響。
在 [輸入] 窗格中,按一下 [屬性] 底下的下一個空白資料列,然後選取 [通話]。在 [值] 中,選取表示最大通話數的範圍。
新的輸入條件就會加入至清單中。[變數] 窗格會更新以顯示通話量最高時,對特定排班之模型的影響。
繼續變更 [排班] 和 [通話] 的值,以尋找排班、通話量,以及服務等級之間任何有趣的相互關聯。
[!附註]
若要清除 [輸入] 窗格,好讓您可以使用不同的屬性,請按一下 [重新整理檢視器內容]。
解譯檢視器中所提供的統計資料
較長的等待時間是一項代表高放棄率的準確預測指標,同時也意味著較差的服務等級。這似乎是一個明顯的結論,不過,採礦模型會提供您一些額外的統計資料以協助您解譯這些趨勢。
分數:這個值表示變數對於區別不同結果的整體重要性。分數越高,表示變數對於結果的效果越強。
值 1 的機率:表示此結果為這個值的機率百分比。
值 2 的機率:表示此結果為這個值的機率百分比。
值 1 的增益與值 2 的增益:這個分數表示使用這個特定變數來預測值 1 和值 2 結果時所產生的影響。分數越高,表示變數越能預測結果。
下表包含最重要之影響因數的一些範例值。例如,值 1 的機率為 60.6%,而 值 2 的機率為 8.30%,表示當 [每個問題的平均時間] 的範圍是 44-70 分鐘時,60.6% 的案例位於最高服務等級 (值 1) 的排班中,而 8.30% 的案例位於最差服務等級 (值 2) 的排班中。
從這個資訊中,您可以得到一些結論。較短的通話回應時間 (範圍是 44-70) 對於較佳的服務等級 (範圍是 0.00-0.07) 有強大的影響。此分數 (92.35) 表示這個變數非常重要。
不過,當您向下查看影響的因數清單時,可以看到一些其他的因數,以及比較不容易理解也比較難解譯的效果。例如,排班似乎會影響服務,但是增益分數和相對機率卻指出排班不是主要的因數。
屬性 |
值 |
喜好 < 0.07 |
喜好 >= 0.12 |
---|---|---|---|
每個問題的平均時間 |
89.087 - 120.000 |
|
分數:100
值 1 的機率:4.45 %
值 2 的機率:51.94 %
值 1 的增益:0.19
值 2 的增益:1.94
|
每個問題的平均時間 |
44.000 - 70.597 |
分數:92.35
值 1 的機率:60.06 %
值 2 的機率:8.30 %
值 1 的增益:2.61
值 2 的增益:0.31
|
|
回到頁首
Microsoft 一般內容樹狀檢視器
此檢視器可用於在處理模型時,檢視由演算法所建立的更詳細資訊。[Microsoft一般內容樹狀檢視器] 會將採礦模型表示為一系列的節點,其中每個節點代表所學習到有關定型資料的知識。此檢視器可以搭配所有模型使用,但是節點的內容會隨著模型類型而有所不同。
在類神經網路模型或羅吉斯迴歸模型中,您可能會發現 marginal statistics node 特別實用。此節點包含關於資料中值分佈的衍生統計資料。如果您想要得到資料的摘要,但是不想撰寫許多 T-SQL 查詢,此資訊就非常有幫助。在前一個主題中分類收納值的圖表便是衍生自臨界統計資料節點。
若要從採礦模型取得資料值的摘要
在資料採礦設計師的 [採礦模型檢視器] 索引標籤中,選取 <採礦模型名稱>。
從 [檢視器] 清單中,選取 [Microsoft 一般內容樹狀檢視器]。
採礦模型的檢視會重新整理,在左窗格中顯示節點階層,並在右窗格中顯示 HTML 表格。
在 [節點標題] 窗格中,按一下名稱為 10000000000000000 的節點。
模型中任何最頂部的節點永遠是模型根節點。在類神經網路或羅吉斯迴歸模型中,位於該節點正下方的節點是臨界統計資料節點。
在 [節點詳細資料] 窗格中向下捲動,直到您找到資料列 NODE_DISTRIBUTION。
向下捲動到 NODE_DISTRIBUTION 資料表以檢視如類神經網路演算法所計算的值分佈。
若要在報表中使用這個資料,您可以選取然後複製特定資料列的資訊,或者也可以使用下列資料採礦延伸模組 (DMX) 查詢來擷取節點的完整內容。
SELECT *
FROM [Call Center EQ4].CONTENT
WHERE NODE_NAME = '10000000000000000'
您也可以使用 NODE_DISTRIBUTION 資料表中的節點階層與詳細資料來周遊類神經網路中的個別路徑,並檢視隱藏層的統計資料。如需詳細資訊,請參閱<查詢類神經網路模型 (Analysis Services - 資料採礦)>。
回到頁首
資料來源檢視設計師
您可以在建立採礦結構或 Cube 時使用此檢視器,但是此檢視器也提供各種工具,十分有助於進一步了解來源資料。例如,如果您並不完全了解此模型發現的趨勢,您可能會想要在基礎資料中檢視個別的資料列,或者建立協助您了解相互關聯性的摘要或圖表。
本節提供一個範例,示範如何使用資料來源檢視設計師探索模型所顯示的趨勢,而不必將資料複製到 Excel,也不必針對資料來源執行多個 T-SQL 查詢。
在這個案例中,您將會建立一些圖表,以圖形方式顯示此模型所發現的回應時間與服務等級間的相互關聯。
若要建立樞紐圖表說明採礦模型的趨勢
在 [方案總管] 的 [資料來源檢視] 下,按兩下 Call Center.dsv。
在 [Call Center.dsv] 索引標籤上,以滑鼠右鍵按一下資料表 FactCallCenter,然後選取 [瀏覽資料]。
一個標題為 [瀏覽 FactCallCenter 資料表] 的新索引標籤隨即開啟。這個索引標籤之中包含不同索引標籤上的四個區段:[資料表]、[樞紐資料表]、[圖表] 和 [樞紐圖表]。
按一下 [樞紐圖表] 索引標籤。
在 [圖表欄位清單] 中,選取 AverageTimePerIssue,然後將其拖曳到圖表區域的 [將類別目錄欄位放在此處] 方塊中。
由於來源資料來自二維資料表,因此,[圖表欄位清單] 中的階層在階層層級和欄位層級包含相同的資訊。不過,如果您要使用 Cube 或維度,階層可能會包含多個成員。例如,[日期] 階層可能包含季、月或日等欄位。您可以將整個階層或階層的單一成員拖曳到圖表中。
在 [圖表欄位清單] 中尋找 ServiceGrade,然後將其拖曳到圖標區域的中央。
此圖表隨即更新,將標題為 [ServiceGrade 的總和] 的方塊加入到圖表頂端。
在工具列中,按一下 Sigma 圖示,然後選取 [平均]。
標題就會更新為 [ServiceGrade 的平均]。
在 [圖表欄位清單] 中,選取 Shift,然後將其拖曳到圖表區域的 [將篩選欄位放在此處] 方塊中。從 [圖表欄位清單] 拖曳 [薪資類型],並將其放到 [排班] 旁邊。
現在,您可以依排班篩選,查看趨勢是否會隨著排班而有任何不同,或查看該日期為假日或工作日。
在圖表底部選取 AverageTimePerIssue,並將其拖曳回 [圖表欄位清單]。
在 [圖表欄位清單] 中,選取 AverageTimePerLevelTwoOperators,然後將其拖曳到圖表區域的 [將類別目錄欄位放在此處] 方塊中。
此圖表隨即更新,並顯示操作員的增加與平均服務等級之間的相互關聯。此處似乎沒有線性關聯性。您可以將新欄位放在圖表中,或是變更圖表類型來繼續試驗。
不過,請注意,這些圖表通常一次只能顯示幾個屬性,而類神經網路演算法則會在多個輸入之間分析許多複雜的互動。此外,類神經網路模型能偵測到許多相互關聯,而這些都是過於複雜且圖表無法呈現的。
如果您要匯出圖表或是要簡報複雜的類神經網路模型,您也可以使用適用於 Visio 的資料採礦範本。這個適用於 Visio 2007 的免費增益集提供資料採礦模型的複雜、可自訂的圖表,讓您用於簡報或報表之中。如需詳細資訊,請參閱<適用於 Office 2007 的資料採礦增益集>(英文)。
回到頁首