다음을 통해 공유


교차 유효성 검사 수식

교차 유효성 검사 보고서를 생성할 때 마이닝 모델 유형(즉, 모델을 만드는 데 사용된 알고리즘), 예측 가능한 특성의 데이터 형식 및 예측 가능한 특성 값(있는 경우)에 따라 각 모델에 대한 정확도 측정값이 포함됩니다.

이 섹션에서는 교차 유효성 검사 보고서에 사용되는 측정값을 나열하고 계산 방법을 설명합니다.

모델 유형별 정확도 측정값 분석은 교차 유효성 검사 보고서의 측정값을 참조하세요.

교차 검증 측정에 사용되는 공식

비고

중요하다: 이러한 정확도 측정값은 각 대상 특성에 대해 계산됩니다. 각 특성에 대해 대상 값을 지정하거나 생략할 수 있습니다. 데이터 집합의 사례에 대상 특성에 대한 값이 없는 경우 사례는 누락된 값이라는 특수 값을 갖는 것으로 처리됩니다. 누락된 값이 있는 행은 특정 대상 특성에 대한 정확도 측정값을 계산할 때 계산되지 않습니다. 점수는 각 특성에 대해 개별적으로 계산되므로 대상 특성에 대한 값이 있지만 다른 특성에 대해 누락된 경우 대상 특성의 점수에는 영향을 주지 않습니다.

측정 적용 대상 이행
참 긍정 불연속 특성, 값이 지정됨 이러한 조건을 충족하는 사례 수:

사례에는 대상 값이 포함됩니다.

모델은 사례에 대상 값이 포함될 것으로 예측했습니다.
True Negative 불연속 특성, 값이 지정됨 이러한 조건을 충족하는 사례 수:

사례에 대상 값이 포함되어 있지 않습니다.

모델은 사례에 대상 값이 포함되지 않을 것으로 예측했습니다.
가양성 불연속 특성, 값이 지정됨 이러한 조건을 충족하는 사례 수:

실제 값은 대상 값과 같습니다.

모델은 사례에 대상 값이 포함될 것으로 예측했습니다.
거짓 음성 불연속 특성, 값이 지정됨 이러한 조건을 충족하는 사례 수:

실제 값이 대상 값과 같지 않습니다.

모델은 사례에 대상 값이 포함되지 않을 것으로 예측했습니다.
통과/실패 불연속 특성, 지정된 대상 없음 이러한 조건을 충족하는 사례 수:

확률이 가장 높은 예측 상태가 입력 상태와 같고 확률이 상태 임계값보다 큰 경우 전달합니다.

그렇지 않으면 실패합니다.
승강기 불연속 특성 대상 값을 지정할 수 있지만 필수는 아닙니다. 대상 특성에 대한 값이 있는 모든 행의 평균 로그 가능성입니다. 여기서 각 사례에 대한 로그 가능성은 Log(ActualProbability/MarginalProbability)로 계산됩니다. 평균을 계산하기 위해 로그 가능성 값의 합계는 입력 데이터 세트의 행 수로 나뉘며 대상 특성에 대한 값이 누락된 행은 제외됩니다.

리프트는 양수일 수도 있고 음수일 수도 있습니다. 양수 값은 임의 추측을 능가하는 유효 모델을 의미합니다.
로그 점수 불연속 특성 대상 값을 지정할 수 있지만 필수는 아닙니다. 각 사례에 대한 실제 확률의 로그로, 대상 특성에 대한 값이 누락된 행을 제외하고 입력 데이터 세트의 행 수를 합산한 다음 나눕니다.

확률은 소수 자릿수로 표현되므로 로그 점수는 항상 음수입니다. 0에 가까운 점수는 더 나은 점수입니다.
사례 가능성 클러스터 대상 특성에 대한 값이 누락된 행을 제외하고 파티션의 사례 수로 나눈 모든 사례에 대한 클러스터 가능성 점수의 합계입니다.
평균 절대 오차 연속 특성 파티션의 모든 사례에 대한 절대 오차의 합계를 파티션의 사례 수로 나눕니다.
제곱 평균 오차 연속 특성 파티션에 대한 평균 제곱 오차의 제곱근입니다.
제곱 평균 오차 불연속 특성입니다. 대상 값을 지정할 수 있지만 필수는 아닙니다. 대상 특성에 대한 값이 누락된 행을 제외하고 파티션의 사례 수로 나눈 확률 점수의 보수 제곱 평균의 제곱근입니다.
제곱 평균 오차 불연속 특성, 지정된 대상이 없습니다. 대상 특성에 대한 값이 누락된 경우를 제외하고 파티션의 사례 수로 나눈 확률 점수의 보수 제곱 평균의 제곱근입니다.

또한 참조하십시오

테스트 및 유효성 검사(데이터 마이닝)
교차 검증(Analysis Services - 데이터 마이닝)