共用方式為


增益圖 (Analysis Services - 數據採礦)

適用於: SQL Server 2019 和舊版 Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

SQL Server 2017 Analysis Services 中已淘汰數據採礦,現在已在 SQL Server 2022 Analysis Services 中停止。 檔不會更新為已淘汰和已停止的功能。 若要深入瞭解,請參閱 Analysis Services 回溯相容性

增益圖 以圖形方式表示採礦模型在與隨機猜測進行比較時所提供的改善,並測量 增益 分數的變更。 藉由比較不同模型的增益分數,您可以判斷哪一個模型是最佳的。 您也可以判斷模型預測變得不太有用的點。 例如,藉由檢閱增益圖,您可能會發現促銷活動可能只對 30 個客戶% 有效,並使用該圖來限制行銷活動的範圍。

在 SQL Server 數據採礦中,增益圖可以比較具有相同可預測屬性的多個模型的正確性。 您也可以評估單一結果的預測精確度(可預測屬性的單一值),或針對所有結果(指定屬性的所有值)。

收益圖是一種相關的圖表類型,其中包含與增益圖相同的資訊,但也會顯示與使用每個模型相關聯的預計利潤增加。

瞭解增益圖

在抽象中很難理解增益圖。 因此,為了說明使用增益圖工具和圖表中的資訊,本節會顯示一個案例,其中增益圖是用來估計目標郵件行銷活動的回應。

此案例中的行銷部門知道 10% 的回應率是郵件行銷活動的一般或多或少。 他們有儲存在資料庫中數據表的10,000個潛在客戶清單。 根據一般回應率,他們通常只能預期約1,000個潛在客戶回應。 不過,為專案預算的資金不足以達到資料庫中所有10,000個客戶,而且想要改善其回應率。 假設在此案例中,其預算允許他們只將廣告郵寄給5,000位客戶。 行銷部門有兩個選項:

  • 隨機選取 5,000 個目標客戶。

  • 使用採礦模型,以最有可能回應的5,000個客戶為目標。

藉由使用增益圖,您可以比較這兩個選項的預期結果。 例如,如果公司隨機選取5,000個客戶,則根據一般回應率,他們可能會只收到500個回應。 此案例是增益圖中 隨機 折線所代表的內容。 不過,如果行銷部門使用採礦模型來鎖定其郵寄目標,他們可能會預期更好的回應率,因為模型會識別最有可能回應的客戶。 如果模型完美無缺,它會建立永遠不會錯誤的預測,而且公司可以預期只要將郵件傳送給模型建議的1,000個潛在客戶,就能收到1,000個回應。 此案例是增益圖中 理想 線所代表的內容。

現實情況是,採礦模型最有可能落在這兩個極端之間:隨機猜測與完美的預測之間。 隨機猜測的任何改進都會被視為增益。

當您建立增益圖時,您可以只針對該結果以特定值和量值增益為目標,或者您可以建立一般評估模型來測量所有可能結果的增益量值。 這些選取專案會影響最終圖表,如下列各節所述。

回到頂端

具有目標值的增益圖

下圖顯示您在 基本數據採礦教學課程中建立 目標郵件 模型的增益圖。 在此圖表中,目標屬性為 [Bike Buyer],而目標值為 1,這表示客戶預測要購買自行車。 因此,增益圖會顯示模型在識別這些潛在客戶時所提供的改進。

此圖表包含多個以相同數據為基礎的模型。 其中一個模型已自定義為以特定客戶為目標。 您可以藉由在用來定型模式的數據上新增篩選來自定義模型。 此篩選條件會將訓練和評估中使用的案例限制為 30 歲以下的客戶。 請注意,篩選的其中一個效果是基本模型和篩選的模型使用不同的數據集,因此增益圖中用於評估的案例數目也不同。 當您解譯預測結果和其他統計數據時,請務必記住這一點。

顯示兩個模型的 增益圖,

圖表的 X 軸代表用來比較預測的測試數據集百分比。 圖表的 Y 軸代表預測值的百分比。

以藍色顯示的對角線直線會出現在每個圖表中。 它代表隨機猜測的結果,而且是評估增益的基準。 針對您新增至增益圖的每個模型,您會得到兩條額外的線條:一條線顯示定型數據集的理想結果,如果您可以建立一律完美預測的模型,而第二行會顯示模型的實際增益或結果改善。

在此範例中,篩選模型的理想線條會以深藍色顯示,而實際增益線則以黃色顯示。 您可以從圖表中得知理想的折線尖峰約為 40%,這表示如果您有完美的模型,您可以傳送郵件給總人口的 40%,達到 100% 的目標客戶。 當您以 40% 到 70% 的人口為目標時,篩選模型的實際增益值介於 60% 到 70% 之間,這表示您可以將郵件傳送至客戶總數的 40%, 達到 60-70% 的目標客戶。

採礦圖例 包含曲線上任何點的實際值。 您可以按下垂直灰色列並移動來變更測量的位置。 在圖表中,灰色折線已移至 30%,因為這是篩選和未篩選模型看起來最有效的點,而且在這一點之後,增益量會下降。

採礦圖例 也包含可協助您解譯圖表的分數和統計數據。 這些結果代表灰色線條上模型的精確度,在此案例中,此案例中會包含 30% 的整體測試案例。

數列和模型 得分 目標母體擴展 預測機率
目標郵寄全部 0.71 47.40% 61.38%
目標郵件低於 30 0.85 51.81% 46.62%
隨機猜測模型 31.00%
理想的模型:目標郵寄全部 62.48%
理想的模型:目標郵寄低於 30 65.28%

回到頂端

解譯結果

從這些結果中,您可以看到,當測量為所有案例的 30% 時,一般模型 [目標郵寄全部],可以預測目標母體 47.40% 的自行車購買行為。 換句話說,如果您只將目標郵件傳送給資料庫中 30% 的客戶,您就能達到目標物件的一半。 如果您使用篩選的模型,可能會得到稍微更好的結果,並達到約51%的目標客戶。

Predict 機率 的值代表在「可能購買」案例中包含客戶所需的閾值。 針對每個案例,模型會估計每個預測的正確性,並儲存該值,您可以使用該值來篩選出或鎖定客戶。 例如,若要從可能購買者的基本模型識別客戶,您可以使用查詢來擷取至少 61% 的預測機率案例。 若要取得篩選模型的目標客戶,您可以建立查詢,以擷取符合所有準則的案例:年齡和 PredictProbability 值至少 46%。

比較模型很有趣。 篩選的模型似乎會擷取更多潛在客戶,但當您以預測機率分數為46%的客戶為目標時,您也有53%的機會將郵件傳送給不會購買自行車的人。 因此,如果您要決定哪一個模型更好,您會想要根據基本模型的選擇性,平衡篩選模型更大精確度和較小的目標大小。

分數 的值可協助您藉由計算模型在正規化母體中的有效性來比較模型。 較高的分數比較好,因此在此情況下,您可能會決定以 30 歲以下的客戶為目標是最有效的策略,儘管預測機率較低。

如何計算分數?

分數會計算為構成散佈圖之所有點的幾何平均分數,其中 x 軸包含實際值、y 軸包含預測值,而且每個點都有相關聯的機率。

任何個別點分數的統計意義是該時間點所測量模型的預測增益。 所有點的平均值都會構成模型的分數。

回到頂端

沒有目標值的模型增益圖

如果您未指定可預測資料行的狀態,您可以建立下圖所示的圖表類型。 此圖表顯示模型如何針對可預測屬性的所有狀態執行。 例如,此圖表會告訴您模型預測兩個可能購買自行車的客戶,以及不太可能購買自行車的客戶。

x 軸與圖表中指定可預測的數據行相同,但 Y 軸現在代表正確預測的百分比。 因此,理想的線條是對角線,其中顯示,在 50% 的數據,模型會正確預測 50 個案例%,這是可以預期的最大值。

顯示正確預測的增益圖,

您可以單擊圖表來移動垂直灰色長條,而 採礦圖例 會顯示整體案例的百分比,以及正確預測的案例百分比。 例如,如果您將灰色滑杆列置於 50% 的標記,採礦圖例 會顯示下列正確性分數。 這些數位是以基本數據採礦教學課程中建立的TM_Decision樹狀結構模型為基礎。

數列、模型 得分 目標母體擴展 預測機率
TM_Decision樹狀結構 0.77 40.50% 72.91%
理想的模型 50.00%

此數據表會告訴您,在母體 50% 的母體中,您建立的模型會正確預測 40% 的案例。 您可能會將此視為相當精確的模型。 不過,請記住,此特定模型會預測可預測屬性的所有值。 因此,模型在預測 90% 的客戶不會購買自行車時可能準確。

回到頂端

增益圖的限制

增益圖需要可預測屬性是離散值。 換句話說,您無法使用增益圖來測量預測連續數值之模型的精確度。

可預測屬性之所有離散值的預測精確度會顯示在單行中。 如果您想要查看任何可預測屬性個別值的預測精確度線,您必須為每個目標值建立個別的增益圖。

只要模型都有相同的可預測屬性,您就可以將多個模型新增至增益圖。 未共享屬性的模型將無法在 [輸入] 索引標籤中選取。

您無法在增益圖或收益圖中顯示時間序列模型。 測量時間序列預測精確度的常見做法是保留一部分歷程記錄數據,並將該數據與預測進行比較。 如需詳細資訊,請參閱 Microsoft 時間序列演算法

回到頂端

另請參閱

測試和驗證 (資料採礦)