교차 유효성 검사 보고서를 생성할 때 마이닝 모델 유형(즉, 모델을 만드는 데 사용된 알고리즘), 예측 가능한 특성의 데이터 형식 및 예측 가능한 특성 값(있는 경우)에 따라 각 모델에 대한 정확도 측정값이 포함됩니다.
이 섹션에서는 교차 유효성 검사 보고서에 사용되는 측정값을 나열하고 계산 방법을 설명합니다.
모델 유형별 정확도 측정값 분석은 교차 유효성 검사 보고서의 측정값을 참조하세요.
교차 검증 측정에 사용되는 공식
비고
중요하다: 이러한 정확도 측정값은 각 대상 특성에 대해 계산됩니다. 각 특성에 대해 대상 값을 지정하거나 생략할 수 있습니다. 데이터 집합의 사례에 대상 특성에 대한 값이 없는 경우 사례는 누락된 값이라는 특수 값을 갖는 것으로 처리됩니다. 누락된 값이 있는 행은 특정 대상 특성에 대한 정확도 측정값을 계산할 때 계산되지 않습니다. 점수는 각 특성에 대해 개별적으로 계산되므로 대상 특성에 대한 값이 있지만 다른 특성에 대해 누락된 경우 대상 특성의 점수에는 영향을 주지 않습니다.
| 측정 | 적용 대상 | 이행 |
|---|---|---|
| 참 긍정 | 불연속 특성, 값이 지정됨 | 이러한 조건을 충족하는 사례 수: 사례에는 대상 값이 포함됩니다. 모델은 사례에 대상 값이 포함될 것으로 예측했습니다. |
| True Negative | 불연속 특성, 값이 지정됨 | 이러한 조건을 충족하는 사례 수: 사례에 대상 값이 포함되어 있지 않습니다. 모델은 사례에 대상 값이 포함되지 않을 것으로 예측했습니다. |
| 가양성 | 불연속 특성, 값이 지정됨 | 이러한 조건을 충족하는 사례 수: 실제 값은 대상 값과 같습니다. 모델은 사례에 대상 값이 포함될 것으로 예측했습니다. |
| 거짓 음성 | 불연속 특성, 값이 지정됨 | 이러한 조건을 충족하는 사례 수: 실제 값이 대상 값과 같지 않습니다. 모델은 사례에 대상 값이 포함되지 않을 것으로 예측했습니다. |
| 통과/실패 | 불연속 특성, 지정된 대상 없음 | 이러한 조건을 충족하는 사례 수: 확률이 가장 높은 예측 상태가 입력 상태와 같고 확률이 상태 임계값보다 큰 경우 전달합니다. 그렇지 않으면 실패합니다. |
| 승강기 | 불연속 특성 대상 값을 지정할 수 있지만 필수는 아닙니다. | 대상 특성에 대한 값이 있는 모든 행의 평균 로그 가능성입니다. 여기서 각 사례에 대한 로그 가능성은 Log(ActualProbability/MarginalProbability)로 계산됩니다. 평균을 계산하기 위해 로그 가능성 값의 합계는 입력 데이터 세트의 행 수로 나뉘며 대상 특성에 대한 값이 누락된 행은 제외됩니다. 리프트는 양수일 수도 있고 음수일 수도 있습니다. 양수 값은 임의 추측을 능가하는 유효 모델을 의미합니다. |
| 로그 점수 | 불연속 특성 대상 값을 지정할 수 있지만 필수는 아닙니다. | 각 사례에 대한 실제 확률의 로그로, 대상 특성에 대한 값이 누락된 행을 제외하고 입력 데이터 세트의 행 수를 합산한 다음 나눕니다. 확률은 소수 자릿수로 표현되므로 로그 점수는 항상 음수입니다. 0에 가까운 점수는 더 나은 점수입니다. |
| 사례 가능성 | 클러스터 | 대상 특성에 대한 값이 누락된 행을 제외하고 파티션의 사례 수로 나눈 모든 사례에 대한 클러스터 가능성 점수의 합계입니다. |
| 평균 절대 오차 | 연속 특성 | 파티션의 모든 사례에 대한 절대 오차의 합계를 파티션의 사례 수로 나눕니다. |
| 제곱 평균 오차 | 연속 특성 | 파티션에 대한 평균 제곱 오차의 제곱근입니다. |
| 제곱 평균 오차 | 불연속 특성입니다. 대상 값을 지정할 수 있지만 필수는 아닙니다. | 대상 특성에 대한 값이 누락된 행을 제외하고 파티션의 사례 수로 나눈 확률 점수의 보수 제곱 평균의 제곱근입니다. |
| 제곱 평균 오차 | 불연속 특성, 지정된 대상이 없습니다. | 대상 특성에 대한 값이 누락된 경우를 제외하고 파티션의 사례 수로 나눈 확률 점수의 보수 제곱 평균의 제곱근입니다. |