분류 행렬은 예측 값이 실제 값과 일치하는지 여부를 결정하여 모델의 모든 사례를 범주로 정렬합니다. 그러면 각 범주의 모든 사례가 계산되고 합계가 행렬에 표시됩니다. 분류 행렬은 통계 모델을 평가하기 위한 표준 도구이며 혼동 행렬이라고도 합니다.
분류 행렬 옵션을 선택할 때 생성되는 차트는 지정한 각 예측 상태에 대한 실제 값과 예측 값을 비교합니다. 행렬의 행은 모델에 대해 예측된 값을 나타내는 반면 열은 실제 값을 나타냅니다. 분석에 사용되는 범주는 거짓 긍정, 참 긍정, 거짓 부정 및 참 부정입니다.
분류 행렬은 잘못된 예측의 영향을 쉽게 이해하고 설명할 수 있으므로 예측 결과를 평가하는 데 중요한 도구입니다. 이 행렬의 각 셀에서 양과 백분율을 확인하면 모델이 정확하게 예측되는 빈도를 빠르게 확인할 수 있습니다.
이 섹션에서는 분류 행렬을 만드는 방법과 결과를 해석하는 방법을 설명합니다.
분류 매트릭스 이해
기본 데이터 마이닝 자습서의 일부로 만든 모델을 고려합니다. [TM_DecisionTree] 모델은 대상 메일링 캠페인을 만드는 데 사용되며 자전거를 구매할 가능성이 가장 큰 고객을 예측하는 데 사용할 수 있습니다. 이 모델의 예상된 유용성을 테스트하려면 결과 특성 [Bike Buyer]의 값이 이미 알려진 데이터 집합을 사용합니다. 일반적으로 모델 학습에 사용되는 마이닝 구조를 만들 때 따로 설정한 테스트 데이터 집합을 사용합니다.
가능한 결과는 두 가지뿐입니다. 예(고객이 자전거를 구입할 가능성이 높음)와 아니요(고객이 자전거를 구입하지 않을 가능성이 높음). 따라서 결과 분류 행렬은 비교적 간단합니다.
결과 해석
다음 표에서는 TM_DecisionTree 모델에 대한 분류 매트릭스를 보여줍니다. 이 예측 가능한 특성의 경우 0은 아니요를 의미하고 1은 Yes를 의미합니다.
예측 | 0(실제) | 1(실제) |
---|---|---|
0 | 362 | 144 |
1 | 121 | 373 |
값 362를 포함하는 첫 번째 결과 셀은 값 0에 대한 진양성 수를 나타냅니다. 0은 고객이 자전거를 구매하지 않았음을 나타내므로 이 통계는 모델이 362건에서 자전거가 아닌 구매자에게 올바른 값을 예측했음을 나타냅니다.
값 121을 포함하는 셀 바로 아래에 있는 셀은 모델이 누군가가 자전거를 구입할 것이라고 예측했지만 실제로는 구입하지 않았던 경우의 수인 가양성의 수를 알려줍니다.
값 144가 포함된 셀은 값 1의 오탐 수를 나타냅니다. 1은 고객이 자전거를 구매했음을 의미하기 때문에 이 통계는 144건의 경우 모델이 실제로 자전거를 구입하지 않을 것이라고 예측했음을 알려줍니다.
마지막으로, 값 373이 포함된 셀은 대상 값 1의 참 긍정 수를 나타냅니다. 즉, 373의 경우 모델은 누군가가 자전거를 구입할 것이라고 올바르게 예측했습니다.
대각선으로 인접한 셀의 값을 합산하여 모델의 전체 정확도를 확인할 수 있습니다. 한 대각선은 정확한 예측의 총 수를 알려주고, 다른 대각선은 잘못된 예측의 총 수를 알려줍니다.
예측 가능한 여러 값 사용
[Bike Buyer] 사례는 가능한 값이 두 개뿐이므로 해석하기가 특히 쉽습니다. 예측 가능한 특성에 가능한 값이 여러 개 있는 경우 분류 행렬은 가능한 각 실제 값에 대해 새 열을 추가한 다음 예측된 각 값에 대한 일치 항목 수를 계산합니다. 다음 표에서는 세 값(0, 1, 2)이 가능한 다른 모델의 결과를 보여 줍니다.
예측 | 0(실제) | 1(실제) | 2(실제) |
---|---|---|---|
0 | 111 | 3 | 5 |
1 | 2 | 123 | 17 |
2 | 19 | 0 | 20 |
열을 더 추가하면 보고서가 더 복잡해 보이지만 잘못된 예측을 하는 누적 비용을 평가하려는 경우 추가 세부 정보가 매우 유용할 수 있습니다. 대각선에 합계를 만들거나 여러 행 조합의 결과를 비교하려면 분류 행렬 탭에 제공된 복사 단추를 클릭하고 보고서를 Excel에 붙여넣을 수 있습니다. 또는 SQL Server 2005 이상 버전을 지원하는 Excel용 데이터 마이닝 클라이언트와 같은 클라이언트를 사용하여 개수와 백분율을 모두 포함하는 분류 보고서를 Excel에서 직접 만들 수 있습니다. 자세한 내용은 SQL Server 데이터 마이닝을 참조하세요.
분류 매트릭스에 대한 제한 사항
분류 행렬은 불연속 예측 가능한 특성에만 사용할 수 있습니다.
마이닝 정확도 차트 디자이너의 입력 선택 탭에서 모델을 선택할 때 여러 모델을 추가할 수 있지만 분류 행렬 탭에는 각 모델에 대해 별도의 행렬이 표시됩니다.
관련 내용
다음 항목에는 분류 행렬 및 기타 차트를 빌드하고 사용하는 방법에 대한 자세한 정보가 포함되어 있습니다.
토픽 | 링크 |
---|---|
타깃 메일링 모델의 리프트 차트를 만드는 방법에 대한 단계별 가이드를 제공합니다. |
기본 데이터 마이닝 자습서 리프트 차트를 사용하여 정확도 테스트(기본 데이터 마이닝 자습서) |
관련 차트 종류에 대해 설명합니다. |
리프트 차트 (Analysis Services - 데이터 마이닝) 수익 차트(Analysis Services - 데이터 마이닝) 산점도(분석 서비스 - 데이터 마이닝) |
마이닝 모델 및 마이닝 구조에 대한 교차 유효성 검사의 사용에 대해 설명합니다. | 교차 검증(Analysis Services - 데이터 마이닝) |
리프트 차트 및 기타 정확도 차트를 만드는 단계를 설명합니다. | 테스트 및 유효성 검사 작업 및 방법(데이터 마이닝) |