共用方式為


交叉驗證報告中的量值

適用於: SQL Server 2019 和舊版 Analysis Services Azure Analysis Services Fabric/Power BI Premium

重要

SQL Server 2017 Analysis Services 中已淘汰數據採礦,現在已在 SQL Server 2022 Analysis Services 中停止。 檔不會更新為已淘汰和已停止的功能。 若要深入瞭解,請參閱 Analysis Services 回溯相容性

在交叉驗證期間,SQL Server Analysis Services 會將採礦結構中的數據分成多個交叉區段,然後反覆測試結構和任何相關聯的採礦模型。 根據這項分析,它會輸出一組結構與每個模型的標準精確度量值。

報表包含一些有關數據折疊數目和每個折疊數據量的基本資訊,以及一組描述數據分佈的一般計量。 藉由比較每個交叉區段的一般計量,您可以評估結構或模型的可靠性。

SQL Server Analysis Services 也會顯示一組採礦模型的詳細量值。 這些量值取決於模型類型和正在分析的屬性類型:例如,無論是離散還是連續。

本節提供 交叉驗證 報表中包含的量值清單,以及其意義。 如需如何計算每個量值的詳細資訊,請參閱 交叉驗證公式

交叉驗證報告中的量值清單

下表列出交叉驗證報告中出現的量值。 量值會依 測試類型分組,如下表的左側數據行提供。 右側數據行會列出量值出現在報表中的名稱,並提供其意義簡短的說明。

測試類型 量值和描述
聚類 適用於叢集模型的量值
案例可能性
此量值通常表示案例屬於特定叢集的可能性。 針對交叉驗證,分數會加總,然後除以案例數目,因此在此分數是平均案例可能性。
分類 適用於分類模型的量值
/真負數/誤判/誤判為負數

數據分割中的數據列或值計數,其中預測狀態符合目標狀態,且預測機率大於指定的臨界值。

排除目標屬性遺漏值的案例,這表示所有值的計數可能不會加總。
通過/失敗
數據分割中的數據列或值計數,其中預測狀態符合目標狀態,以及預測機率值大於 0 的位置。
可能性 可能性量值適用於多個模型類型。
增益
實際預測機率與測試案例中臨界機率的比例。 排除目標屬性遺漏值的數據列。

此量值通常會顯示使用模型時,目標結果的機率會改善多少。
根均方誤差
所有分割區案例平均誤差的平方根,除以分割區中的案例數目,不包括目標屬性遺漏值的數據列。

RMSE 是預測模型的熱門估算器。 分數會平均每個案例的殘差,以產生模型錯誤的單一指標。
記錄分數
每個案例的實際機率對數、加總,然後除以輸入數據集中的數據列數目,不包括目標屬性遺漏值的數據列。

因為機率是以小數點表示,因此記錄分數一律為負數。 接近 0 的數位是更好的分數。 雖然原始分數可能會有非常不規則或扭曲的分佈,但記錄分數與百分比類似。
估計 僅適用於預測連續數值屬性之估計模型的量值。
根均方誤差
當預測值與實際值比較時的平均錯誤。

RMSE 是預測模型的熱門估算器。 分數會平均每個案例的殘差,以產生模型錯誤的單一指標。
平均絕對誤差
當預測值與實際值比較時的平均誤差,計算為誤差絕對總和的平均值。

平均絕對誤差對於了解預測整體對實際值有多接近很有用。 較小的分數表示預測更準確。
記錄分數
每個案例的實際機率對數、加總,然後除以輸入數據集中的數據列數目,不包括目標屬性遺漏值的數據列。

因為機率是以小數點表示,因此記錄分數一律為負數。 接近 0 的數位是更好的分數。 雖然原始分數可能會有非常不規則或扭曲的分佈,但記錄分數與百分比類似。
集 料 匯總量值提供每個分割區結果中變異數的指示。
平均
特定量值的數據分割值平均值。
標準偏差
特定量值的偏差平均值,在模型中的所有分割區中,平均偏差。

針對交叉驗證,此分數的較高值表示折疊之間的大幅變化。

另請參閱

測試和驗證 (資料採礦)