分類矩陣 (Analysis Services - 資料採礦)
資料採礦設計師之 [採礦精確度圖表] 索引標籤的 [分類矩陣] 索引標籤,會顯示您在 [輸入選擇] 索引標籤中所指定之每一個模型的矩陣。透過檢視此圖表 (有時稱為「混淆矩陣」(Confusion Matrix)),您可以快速查看模型正確預測的頻率。
每一個矩陣的資料列代表模型的預測值,而資料行則代表實際值。不論預期的值是否符合實際的值,也不論預測的值是否正確,分類矩陣都可以透過在類別目錄中排序所有案例來建立。這些類別目錄有時稱為「誤判」(False Positive)、「真肯定」(True Positive)、「誤否定」(False Negative) 和 「真否定」(True Negative)。每個類別目錄中的所有案例都會計算在內,而且總數會顯示在矩陣中。
本章節將說明如何建立分類矩陣及如何解譯結果。
[!附註]
分類矩陣只能搭配離散的可預測屬性一起使用。
案例
例如,假設您所建立的模型是<資料採礦基本教學課程>的一部分。幫助您建立目標郵寄促銷活動的 TM_DecisionTree 模型可用來預測哪些客戶最有可能購買自行車。如果客戶可能購買自行車,[Bike Buyer] 資料行的值會是 1;如果客戶不可能購買自行車,[Bike Buyer] 資料行的值會是 0。
若要評估此模型是否可以做出有效的預測,您可針對已知 [Bike Buyer] 值的資料集進行測試。一般來說,您會使用當您建立用於定型此模型的採礦結構時所擱置在一旁的測試資料集。由於此資料已包含實際結果,所以您可以快速判斷此模型預測預期值的次數。
了解分類矩陣
下表顯示當針對 TM_DecisionTree 模型建立分類矩陣時的結果。由於這個可預測屬性只有兩個可能的值 (0 和 1),所以可以非常輕鬆地得知此模型做出正確預測的頻率。
預測的 |
0 (實際值) |
1 (實際值) |
---|---|---|
0 |
362 |
144 |
1 |
121 |
373 |
第一個結果資料格包含 362 的值,表示值 0 的「真肯定」(True Positive) 數目。由於 0 表示客戶未購買自行車,所以這個統計資料告訴您,此模型在 362 個案例中預測出非自行車買主的正確值。
該資料格正下方的資料格包含 121 的值,也就告訴您「誤判」(False Positive) 的數目,或是此模型預測某個人會購買自行車,但實際上卻沒有的次數。
包含 144 值的資料格,表示值 1 的「誤判」(False Positive) 數目。由於 1 表示客戶已購買自行車,所以這個統計資料告訴您,此模型在 144 個案例中預測出某個人不會購買自行車,但實際上卻有購買的次數。
最後,包含 373 值的資料格,表示目標值 1 的「真肯定」數目。換句話說,此模型在 373 個案例中,正確預測出某個人會購買自行車。
藉由彙總對角線上相鄰之資料格中的值,就可以判斷此模型的整體精確度。一條對角線會告訴您正確預測的總數,而其他對角線則告訴您錯誤預測的總數。
使用多個可預測的值
[Bike Buyer] 案例特別容易解譯,因為只有兩個可能的值。當可預測屬性有多個可能的值時,分類矩陣會針對每一個可能的實際值加入新的資料行,然後針對每一個預測值計算相符的數目。下表顯示不同模型上的結果,其中有三個值 (0, 1, 2) 是可能的值。
預測的 |
0 (實際值) |
1 (實際值) |
2 (實際值) |
---|---|---|---|
0 |
111 |
3 |
5 |
1 |
2 |
123 |
17 |
2 |
19 |
0 |
20 |
雖然加入多個資料行會讓報表看起來更為複雜,但是當您想要評估做出錯誤預測的成本時,其他詳細資料可能會非常實用。若要建立對角線上的總和或是比較不同資料列組合的結果,您可以按一下 [分類矩陣] 索引標籤上提供的 [複製] 按鈕,並將報表貼到 Excel。另外,您也可以使用類似適用於 Excel 的資料採礦用戶端的用戶端 (它支援 SQL Server 2005 和 SQL Server 2008),直接在 Excel 中建立包含計數和百分比的分類報表。如需詳細資訊,請參閱 SQL Server 資料採礦 (英文)。
建立分類矩陣
當您建立分類矩陣時,您會遵循下列步驟:
在資料採礦設計師的 [採礦精確度圖表] 中,按一下 [輸入選擇] 索引標籤。
在 [輸入選擇] 索引標籤上,選取要評估的模型。
指定可預測的屬性,並可選擇指定可預測的值。
選擇用於評估的資料集。
按一下 [分類矩陣] 索引標籤,自動以分類矩陣格式產生報表。
如需適用於所有圖表類型的逐步程序,請參閱<如何:建立採礦模型的精確度圖表>。
<資料採礦基本教學課程>也包含了逐步解說,可為您示範如何為此目標郵寄模型建立增益圖。如需詳細資訊,請參閱<使用增益圖測試精確度 (基本資料採礦教學課程)>。