다음을 통해 공유


분류 매트릭스(Analysis Services - 데이터 마이닝)

분류 행렬은 예측 값이 실제 값과 일치하는지 여부를 결정하여 모델의 모든 사례를 범주로 정렬합니다. 그러면 각 범주의 모든 사례가 계산되고 합계가 행렬에 표시됩니다. 분류 행렬은 통계 모델을 평가하기 위한 표준 도구이며 혼동 행렬이라고도 합니다.

분류 행렬 옵션을 선택할 때 생성되는 차트는 지정한 각 예측 상태에 대한 실제 값과 예측 값을 비교합니다. 행렬의 행은 모델에 대해 예측된 값을 나타내는 반면 열은 실제 값을 나타냅니다. 분석에 사용되는 범주는 거짓 긍정, 참 긍정, 거짓 부정참 부정입니다.

분류 행렬은 잘못된 예측의 영향을 쉽게 이해하고 설명할 수 있으므로 예측 결과를 평가하는 데 중요한 도구입니다. 이 행렬의 각 셀에서 양과 백분율을 확인하면 모델이 정확하게 예측되는 빈도를 빠르게 확인할 수 있습니다.

이 섹션에서는 분류 행렬을 만드는 방법과 결과를 해석하는 방법을 설명합니다.

분류 매트릭스 이해

기본 데이터 마이닝 자습서의 일부로 만든 모델을 고려합니다. [TM_DecisionTree] 모델은 대상 메일링 캠페인을 만드는 데 사용되며 자전거를 구매할 가능성이 가장 큰 고객을 예측하는 데 사용할 수 있습니다. 이 모델의 예상된 유용성을 테스트하려면 결과 특성 [Bike Buyer]의 값이 이미 알려진 데이터 집합을 사용합니다. 일반적으로 모델 학습에 사용되는 마이닝 구조를 만들 때 따로 설정한 테스트 데이터 집합을 사용합니다.

가능한 결과는 두 가지뿐입니다. 예(고객이 자전거를 구입할 가능성이 높음)와 아니요(고객이 자전거를 구입하지 않을 가능성이 높음). 따라서 결과 분류 행렬은 비교적 간단합니다.

결과 해석

다음 표에서는 TM_DecisionTree 모델에 대한 분류 매트릭스를 보여줍니다. 이 예측 가능한 특성의 경우 0은 아니요를 의미하고 1은 Yes를 의미합니다.

예측 0(실제) 1(실제)
0 362 144
1 121 373

값 362를 포함하는 첫 번째 결과 셀은 값 0에 대한 진양성 수를 나타냅니다. 0은 고객이 자전거를 구매하지 않았음을 나타내므로 이 통계는 모델이 362건에서 자전거가 아닌 구매자에게 올바른 값을 예측했음을 나타냅니다.

값 121을 포함하는 셀 바로 아래에 있는 셀은 모델이 누군가가 자전거를 구입할 것이라고 예측했지만 실제로는 구입하지 않았던 경우의 수인 가양성의 수를 알려줍니다.

값 144가 포함된 셀은 값 1의 오탐 수를 나타냅니다. 1은 고객이 자전거를 구매했음을 의미하기 때문에 이 통계는 144건의 경우 모델이 실제로 자전거를 구입하지 않을 것이라고 예측했음을 알려줍니다.

마지막으로, 값 373이 포함된 셀은 대상 값 1의 참 긍정 수를 나타냅니다. 즉, 373의 경우 모델은 누군가가 자전거를 구입할 것이라고 올바르게 예측했습니다.

대각선으로 인접한 셀의 값을 합산하여 모델의 전체 정확도를 확인할 수 있습니다. 한 대각선은 정확한 예측의 총 수를 알려주고, 다른 대각선은 잘못된 예측의 총 수를 알려줍니다.

예측 가능한 여러 값 사용

[Bike Buyer] 사례는 가능한 값이 두 개뿐이므로 해석하기가 특히 쉽습니다. 예측 가능한 특성에 가능한 값이 여러 개 있는 경우 분류 행렬은 가능한 각 실제 값에 대해 새 열을 추가한 다음 예측된 각 값에 대한 일치 항목 수를 계산합니다. 다음 표에서는 세 값(0, 1, 2)이 가능한 다른 모델의 결과를 보여 줍니다.

예측 0(실제) 1(실제) 2(실제)
0 111 3 5
1 2 123 17
2 19 0 20

열을 더 추가하면 보고서가 더 복잡해 보이지만 잘못된 예측을 하는 누적 비용을 평가하려는 경우 추가 세부 정보가 매우 유용할 수 있습니다. 대각선에 합계를 만들거나 여러 행 조합의 결과를 비교하려면 분류 행렬 탭에 제공된 복사 단추를 클릭하고 보고서를 Excel에 붙여넣을 수 있습니다. 또는 SQL Server 2005 이상 버전을 지원하는 Excel용 데이터 마이닝 클라이언트와 같은 클라이언트를 사용하여 개수와 백분율을 모두 포함하는 분류 보고서를 Excel에서 직접 만들 수 있습니다. 자세한 내용은 SQL Server 데이터 마이닝을 참조하세요.

분류 매트릭스에 대한 제한 사항

분류 행렬은 불연속 예측 가능한 특성에만 사용할 수 있습니다.

마이닝 정확도 차트 디자이너의 입력 선택 탭에서 모델을 선택할 때 여러 모델을 추가할 수 있지만 분류 행렬 탭에는 각 모델에 대해 별도의 행렬이 표시됩니다.

다음 항목에는 분류 행렬 및 기타 차트를 빌드하고 사용하는 방법에 대한 자세한 정보가 포함되어 있습니다.

토픽 링크
타깃 메일링 모델의 리프트 차트를 만드는 방법에 대한 단계별 가이드를 제공합니다. 기본 데이터 마이닝 자습서

리프트 차트를 사용하여 정확도 테스트(기본 데이터 마이닝 자습서)
관련 차트 종류에 대해 설명합니다. 리프트 차트 (Analysis Services - 데이터 마이닝)

수익 차트(Analysis Services - 데이터 마이닝)

산점도(분석 서비스 - 데이터 마이닝)
마이닝 모델 및 마이닝 구조에 대한 교차 유효성 검사의 사용에 대해 설명합니다. 교차 검증(Analysis Services - 데이터 마이닝)
리프트 차트 및 기타 정확도 차트를 만드는 단계를 설명합니다. 테스트 및 유효성 검사 작업 및 방법(데이터 마이닝)

또한 참조하십시오

테스트 및 유효성 검사(데이터 마이닝)