現在您已建置探勘模型,您可以使用 SQL Server Data Tools (SSDT) 中提供的下列工具,來深入瞭解您的數據。
Microsoft類神經網路查看器:此查看器可在數據採礦設計師的 [採礦模型查看器] 索引標籤中取得,其設計目的是協助您實驗數據中的互動。
Microsoft一般內容樹檢視器:此標準查看器提供演算法在產生模型時所探索的模式和統計數據的深入詳細數據。
Microsoft類神經網路查看器
查看器有三個窗格 - 輸入、 輸出和 變數。
使用 [ 輸出 ] 窗格,您可以選取可預測屬性或相依變數的不同值。 如果您的模型包含多個可預測的屬性,您可以從 [輸出屬性] 列表中選取屬性。
[ 變數] 窗格會比較您在參與屬性或變數方面所選擇的兩個結果。 彩色橫條以可視化方式表示變數對目標結果的影響程度。 您也可以檢視變數的增益分數。 增益分數的計算方式會根據您使用的採礦模型類型而有所不同,但一般而言,當您使用此屬性進行預測時,會告訴您模型的改進。
[ 輸入 ] 窗格可讓您將影響因素新增至模型,以試用各種假設案例。
使用輸出窗格
在此初始模型中,您有興趣了解各種因素如何影響服務等級。 若要這樣做,您可以從輸出屬性清單中選取 [服務等級],然後從 [值 1] 和 [值 2] 下拉式清單中選取範圍來比較不同的服務層級。
比較最低和最高的服務等級
針對 [值 1],選取具有最低值的範圍。 例如,範圍0-0-0.7代表最低的放棄率,因此是最佳的服務等級。
注意
此範圍中的確切值可能會因您設定模型的方式而有所不同。
針對 [值 2],選取具有最高值的範圍。 例如,值為 >=0.12 的範圍代表最高的放棄率,因此是最差的服務等級。 換句話說,在與代表交談之前,12%在班班期間打電話的客戶掛了電話。
[變數] 窗格的內容會更新,以比較參與結果值的屬性。 因此,左側數據行會顯示與最佳服務等級相關聯的屬性,而右側數據行會顯示與最差服務等級相關聯的屬性。
使用變數窗格
在此模型中,它似乎是 Average Time Per Issue 一個重要因素。 這個變數表示不論通話類型為何,呼叫需要的平均時間。
檢視和複製屬性的機率和增益分數
在 [ 變數] 窗格中,將滑鼠停留在第一列的彩色列上。
這個彩色列會顯示對服務等級的貢獻程度
Average Time Per Issue。 工具提示會顯示變數和目標結果的每個組合的整體分數、機率和增益分數。在 [ 變數] 窗格中,以滑鼠右鍵按下任何彩色列,然後選取 [ 複製]。
在 Excel 工作表中,以滑鼠右鍵按下任何儲存格,然後選取 [ 貼上]。
報表會貼上為 HTML 數據表,並只顯示每個列的分數。
在不同的 Excel 工作表中,以滑鼠右鍵按下任何儲存格,然後選取 [貼上特殊]。
報表會貼上為文字格式,並包含下一節所述的相關統計數據。
使用輸入窗格
假設您有興趣查看特定因素的效果,例如班次或運算符數目。 您可以使用 [輸入] 窗格來選取特定變數,而且 [變數] 窗格會自動更新,以比較指定變數的兩個先前選取的群組。
若要藉由變更輸入屬性來檢閱服務等級的影響
在 [ 輸入 ] 窗格中,針對 [屬性],選取 [Shift]。
針對 [ 值],選取 [ AM]。
[ 變數 ] 窗格會更新以顯示當班次為 AM時對模型的影響。 所有其他選項都保持不變 - 您仍然比較最低和最高的服務等級。
針對 [ 值],選取 [PM1]。
[ 變數 ] 窗格會更新以顯示班次變更時對模型的影響。
在 [輸入] 窗格中,按兩下 [屬性] 底下的下一個空白數據列,然後選取 [呼叫]。 針對 [ 值],選取表示最大呼叫數目的範圍。
新的輸入條件會新增至清單。 [ 變數 ] 窗格會更新,以顯示呼叫量最高時,對模型的影響。
繼續變更 Shift 和 Call 的值,以尋找班次、通話量和服務等級之間的任何有趣相互關聯。
注意
若要清除 [ 輸入 ] 窗格,讓您可以使用不同的屬性,請按兩下 [ 重新整理查看器內容]。
解譯查看器中提供的統計數據
較長的等待時間是高放棄率的強預測值,這意味著服務等級不佳。 這似乎是一個明顯的結論:不過,採礦模型會為您提供一些額外的統計數據,以協助您解譯這些趨勢。
分數:值,指出此變數的整體重要性,以區分結果。 分數越高,變數對結果的影響就越強。
值 1 的機率:代表這個結果之此值機率的百分比。
值 2 的機率:代表這個結果之此值機率的百分比。
值 1 的增益和 值 2 的增益:分數,代表使用此特定變數預測值 1 和值 2 結果的影響。 分數越高,變數在預測結果時越好。
下表包含前幾個影響因素的一些範例值。 例如, 值 1 的機率是 60.6%, 值為 2 的機率是 8.30%,這表示當平均每期問題的平均時間介於 44-70 分鐘的範圍內時,60.6% 的案例在輪班中,服務等級最高(值 1),而 8.30% 的案例則與更差的服務等級(值 2) 一起轉移。
從這項資訊中,您可以得出一些結論。 較短的通話回應時間(44-70 的範圍)嚴重影響了更好的服務等級(範圍0.00-0.07)。 分數 (92.35) 告訴您這個變數非常重要。
不過,當您向下查看參與因素清單時,您會看到一些其他具有效果的因素,這些因素較微妙且難以解譯。 例如,班次似乎會影響服務,但增益分數和相對機率表示班次不是主要因素。
| 屬性 | 值 | <偏好 0.07 | 偏好 >= 0.12 |
|---|---|---|---|
| 每個問題的平均時間 | 89.087 - 120.000 | 分數:100 Value1 的機率:4.45 % Value2 的機率:51.94 % 值 1 的增益:0.19 值 2 的增益:1.94 |
|
| 每個問題的平均時間 | 44.000 - 70.597 | 分數:92.35 Value1 的機率:60.06 % Value2 的機率:8.30 % 值 1 的增益:2.61 Value2 的增益:0.31 |
Microsoft一般內容樹檢視器
此查看器可用來檢視處理模型時演算法所建立的更詳細的資訊。 MicrosoftGeneric 內容樹檢視器會將採礦模型表示為一系列節點,其中每個節點代表已瞭解定型數據的知識。 此查看器可以搭配所有模型使用,但節點的內容會根據模型類型而有所不同。
針對類神經網路模型或羅吉斯回歸模型,您可能會發現 marginal statistics node 特別有用。 此節點包含有關數據中值分佈的衍生統計數據。 如果您想要取得數據的摘要,而不需要撰寫許多 T-SQL 查詢,這項資訊就很有用。 上一個主題中的量化值圖表衍生自臨界統計數據節點。
從採礦模型取得數據值的摘要
在 [數據採礦設計師] 的 [採礦模型查看器 ] 索引卷標中,選取 <採礦模型名稱>。
從 [ 查看器] 列表中,選取 [Microsoft一般內容樹視圖器]。
採礦模型的檢視會重新整理,以顯示左側窗格中的節點階層,以及右側窗格中的 HTML 數據表。
在 [ 節點標題 ] 窗格中,按兩下名稱為1000000000000000的節點。
任何模型中最上層的節點一律是模型根節點。 在類神經網路或羅吉斯回歸模型中,緊接在底下的節點為臨界統計數據節點。
在 [ 節點詳細數據 ] 窗格中,向下捲動直到您找到數據列,NODE_DISTRIBUTION。
向下卷動NODE_DISTRIBUTION數據表,以檢視神經網路演算法所計算的值分佈。
若要在報表中使用這項數據,您可以選取並複製特定數據列的資訊,也可以使用下列數據採礦延伸模組 (DMX) 查詢來擷取節點的完整內容。
SELECT *
FROM [Call Center EQ4].CONTENT
WHERE NODE_NAME = '10000000000000000'
您也可以使用節點階層和NODE_DISTRIBUTION數據表中的詳細數據來周遊神經網路中的個別路徑,並從隱藏層檢視統計數據。 如需詳細資訊,請參閱 類神經網路模型查詢範例。
本課程的下一項工作
另請參閱
類神經網路模型的採礦模型內容 (Analysis Services - 數據採礦)
類神經網路模型查詢範例
Microsoft類神經網路演算法技術參考
變更採礦模型中數據行的離散化