共用方式為


交叉驗證公式

當您產生交叉驗證報表時,報表會根據採礦模型類型包含每一個模型的精確度量值 (也就是之前用來建立模型的演算法)、可預測屬性的資料類型,以及可預測的屬性值 (如果有的話)。

本節列出交叉驗證報表中所使用的量值,並描述計算的方法。

如需依模型類型的精確度量值分解,請參閱 交叉驗證報表中的量值

交叉驗證量值所使用的公式

注意

重要事項 :這些精確度量值是針對每一個目標屬性計算而得。 您可以針對每一個屬性指定或省略目標值。 如果資料集內的案例沒有任何目標屬性值,此案例會視為擁有特殊值,稱為 「遺漏值」(Missing Value)。 計算特定目標屬性的精確度量值時,不會計算有遺漏值的資料列。 請注意,由於分數是分別針對每一個屬性計算而得,因此如果目標屬性的值存在,而其他屬性有遺漏值,這樣並不會影響目標屬性的分數。

Measure 套用至 實作
真肯定 離散屬性,已指定值 符合這些條件的案例計數:

案例包含目標值。

模型預測出案例包含目標值。
真否定 離散屬性,已指定值 符合這些條件的案例計數:

案例不包含目標值。

模型預測出案例不包含目標值。
誤判 離散屬性,已指定值 符合這些條件的案例計數:

實際的值等於目標值。

模型預測出案例包含目標值。
誤否定 離散屬性,已指定值 符合這些條件的案例計數:

實際的值不等於目標值。

模型預測出案例不包含目標值。
通過/失敗 離散屬性,沒有指定的目標 符合這些條件的案例計數:

如果具有最高機率的預測狀態與輸入狀態相同,且機率大於 [狀態臨界值] 的值,則通過。

否則為失敗。
電梯 離散屬性。 您可以指定目標值,但並非必要條件。 包含目標屬性值之所有資料列的平均對數可能性,其中每一個案例的對數可能性會計算為 Log(ActualProbability/MarginalProbability)。 若要計算平均值,會將對數概似值的總和除以輸入資料集中的資料列數,不包括目標屬性擁有遺漏值的資料列。

增益可以是負值或正值。 正值代表優於隨機猜測的有效模型。
記錄分數 離散屬性。 您可以指定目標值,但並非必要條件。 每一個案例之實際機率的對數,經過加總,然後除以輸入資料集中的資料列數目,不包括目標屬性擁有遺漏值的資料列。

由於機率會以小數表示,因此對數分數永遠為負數。 分數越接近 0,表示得分越高。
案例可能性 叢集 所有案例的叢集概似值分數總和,除以資料分割中的案例數目,不包括目標屬性擁有遺漏值的資料列。
平均絕對誤差 連續屬性 資料分割中所有案例的絕對錯誤總和,除以資料分割中的案例數目。
均方根誤差 連續屬性 資料分割之均方誤差的平方根。
均方根誤差 離散屬性。 您可以指定目標值,但並非必要條件。 機率分數補數平方之平均數的平方根,除以資料分割中的案例數目,不包括目標屬性擁有遺漏值的資料列。
均方根誤差 離散屬性,沒有指定的目標。 機率分數補數平方之平均數的平方根,除以資料分割中的案例數目,不包括目標屬性擁有遺漏值的案例。

另請參閱

測試和驗證 (資料採礦)
交叉驗證 (Analysis Services - 資料採礦)