次の方法で共有


クロス検証の数式

クロス検証レポートを生成すると、マイニング モデルの種類 (つまり、モデルの作成に使用されたアルゴリズム)、予測可能な属性のデータ型、予測可能な属性値 (存在する場合) に応じて、各モデルの精度測定が含まれます。

このセクションでは、クロス検証レポートで使用されるメジャーの一覧を示し、計算方法について説明します。

モデルの種類別の精度メジャーの内訳については、「 クロス検証レポートのメジャー」を参照してください。

交差検証測定に使用される数式

大事な: これらの精度の測定は、ターゲット属性ごとに計算されます。 属性ごとに、ターゲット値を指定または省略できます。 データ・セット内のケースにターゲット属性の値がない場合、ケースは 欠落値と呼ばれる特殊な値を持つものとして扱われます。 特定のターゲット属性の精度メジャーを計算するときに、欠損値を持つ行はカウントされません。 スコアは属性ごとに個別に計算されるため、ターゲット属性に値が存在するが、他の属性に対しては欠落している場合は、ターゲット属性のスコアには影響しません。

測る 適用対象 実装
真正 不連続属性、値が指定されている 次の条件を満たすケースの数:

Case にはターゲット値が含まれています。

モデルは、ケースにターゲット値が含まれていると予測しました。
真負数 不連続属性、値が指定されている 次の条件を満たすケースの数:

Case にターゲット値が含まれていません。

モデルは、ケースにターゲット値が含まれていないと予測しました。
誤検知 不連続属性、値が指定されている 次の条件を満たすケースの数:

実際の値はターゲット値と同じです。

モデルは、ケースにターゲット値が含まれていると予測しました。
偽陰性 不連続属性、値が指定されている 次の条件を満たすケースの数:

実際の値がターゲット値と等しくない。

モデルは、ケースにターゲット値が含まれていないと予測しました。
Pass/fail 不連続属性、指定されたターゲットなし 次の条件を満たすケースの数:

最も高い確率で予測された状態が入力状態と同じで、確率が 状態しきい値の値より大きい場合に渡します。

それ以外の場合は失敗します。
持ち上げる 不連続属性。 ターゲット値は指定できますが、必須ではありません。 ターゲット属性の値を持つすべての行の平均対数尤度。各ケースの対数尤度は Log(ActualProbability/MarginalProbability) として計算されます。 平均を計算するために、ログ尤度値の合計は入力データセット内の行数で除算され、ターゲット属性の欠損値を持つ行は除外されます。

リフトには、負または正の値を指定できます。 正の値は、ランダムな推測よりも優れた効果的なモデルを意味します。
ログスコア 不連続属性。 ターゲット値は指定できますが、必須ではありません。 各ケースの実際の確率のログ。合計してから、入力データセット内の行数で除算します。ターゲット属性の欠損値を持つ行は除きます。

確率は小数部として表されるため、ログ スコアは常に負の数値になります。 0 に近いスコアの方が良いスコアです。
ケースの可能性 クラスター すべてのケースのクラスター尤度スコアの合計をパーティション内のケース数で割り、ターゲット属性の欠損値を持つ行を除きます。
平均絶対誤差 連続属性 パーティション内のすべてのケースの絶対エラーの合計を、パーティション内のケースの数で割った値。
二乗平均平方根誤差 連続属性 パーティションの平均二乗誤差の平方根。
2 乗平均平方根誤差 不連続属性。 ターゲット値は指定できますが、必須ではありません。 確率スコアの補数の平方平方根をパーティション内のケースの数で割り、ターゲット属性の欠損値を持つ行を除きます。
2 乗平均平方根誤差 不連続属性。指定されたターゲットはありません。 確率スコアの補数の平方平方根の平方根をパーティション内のケースの数で割り、ターゲット属性の欠損値を持つケースを除きます。

こちらもご覧ください

テストと検証 (データ マイニング)
クロス検証 (Analysis Services - データ マイニング)