交叉驗證公式

當您產生交叉驗證報表時，報表會根據採礦模型類型包含每一個模型的精確度量值 (也就是之前用來建立模型的演算法)、可預測屬性的資料類型，以及可預測的屬性值 (如果有的話)。

本節列出交叉驗證報表中所使用的量值，並描述計算的方法。

如需依模型類型的精確度量值分解，請參閱交叉驗證報表中的量值。

交叉驗證量值所使用的公式

注意

重要事項 ：這些精確度量值是針對每一個目標屬性計算而得。您可以針對每一個屬性指定或省略目標值。如果資料集內的案例沒有任何目標屬性值，此案例會視為擁有特殊值，稱為 「遺漏值」(Missing Value)。計算特定目標屬性的精確度量值時，不會計算有遺漏值的資料列。請注意，由於分數是分別針對每一個屬性計算而得，因此如果目標屬性的值存在，而其他屬性有遺漏值，這樣並不會影響目標屬性的分數。

Measure	套用至	實作
真肯定	離散屬性，已指定值	符合這些條件的案例計數：案例包含目標值。模型預測出案例包含目標值。
真否定	離散屬性，已指定值	符合這些條件的案例計數：案例不包含目標值。模型預測出案例不包含目標值。
誤判	離散屬性，已指定值	符合這些條件的案例計數：實際的值等於目標值。模型預測出案例包含目標值。
誤否定	離散屬性，已指定值	符合這些條件的案例計數：實際的值不等於目標值。模型預測出案例不包含目標值。
通過/失敗	離散屬性，沒有指定的目標	符合這些條件的案例計數：如果具有最高機率的預測狀態與輸入狀態相同，且機率大於 [狀態臨界值] 的值，則通過。否則為失敗。
電梯	離散屬性。您可以指定目標值，但並非必要條件。	包含目標屬性值之所有資料列的平均對數可能性，其中每一個案例的對數可能性會計算為 Log(ActualProbability/MarginalProbability)。若要計算平均值，會將對數概似值的總和除以輸入資料集中的資料列數，不包括目標屬性擁有遺漏值的資料列。增益可以是負值或正值。正值代表優於隨機猜測的有效模型。
記錄分數	離散屬性。您可以指定目標值，但並非必要條件。	每一個案例之實際機率的對數，經過加總，然後除以輸入資料集中的資料列數目，不包括目標屬性擁有遺漏值的資料列。由於機率會以小數表示，因此對數分數永遠為負數。分數越接近 0，表示得分越高。
案例可能性	叢集	所有案例的叢集概似值分數總和，除以資料分割中的案例數目，不包括目標屬性擁有遺漏值的資料列。
平均絕對誤差	連續屬性	資料分割中所有案例的絕對錯誤總和，除以資料分割中的案例數目。
均方根誤差	連續屬性	資料分割之均方誤差的平方根。
均方根誤差	離散屬性。您可以指定目標值，但並非必要條件。	機率分數補數平方之平均數的平方根，除以資料分割中的案例數目，不包括目標屬性擁有遺漏值的資料列。
均方根誤差	離散屬性，沒有指定的目標。	機率分數補數平方之平均數的平方根，除以資料分割中的案例數目，不包括目標屬性擁有遺漏值的案例。

另請參閱

測試和驗證 (資料採礦)
交叉驗證 (Analysis Services - 資料採礦)

Last updated on 2017-03-06

共用方式為

交叉驗證公式

交叉驗證量值所使用的公式

另請參閱

其他資源