유효성 검사는 마이닝 모델이 실제 데이터에 대해 얼마나 잘 수행되는지 평가하는 프로세스입니다. 프로덕션 환경에 배포하기 전에 마이닝 모델의 품질과 특성을 이해하여 마이닝 모델의 유효성을 검사하는 것이 중요합니다.
이 섹션에서는 모델 품질과 관련된 몇 가지 기본 개념을 소개하고 Microsoft Analysis Services에서 제공하는 모델 유효성 검사 전략을 설명합니다. 모델 유효성 검사가 더 큰 데이터 마이닝 프로세스에 적합한 방법에 대한 개요는 데이터 마이닝 솔루션을 참조하세요.
데이터 마이닝 모델의 테스트 및 유효성 검사 방법
데이터 마이닝 모델의 품질과 특성을 평가하는 방법에는 여러 가지가 있습니다.
다양한 통계 유효성 측정값을 사용하여 데이터 또는 모델에 문제가 있는지 확인합니다.
데이터를 학습 및 테스트 집합으로 구분하여 예측의 정확도를 테스트합니다.
비즈니스 전문가에게 데이터 마이닝 모델의 결과를 검토하여 검색된 패턴이 대상 비즈니스 시나리오에서 의미가 있는지 확인하도록 요청합니다.
이러한 모든 메서드는 데이터 마이닝 방법론에 유용하며 특정 문제에 답하기 위해 모델을 만들고 테스트하고 구체화할 때 반복적으로 사용됩니다. 단일한 포괄적인 규칙은 존재하지 않으며, 모델이 충분히 좋은지 또는 데이터가 충분한지 여부를 알려줄 수 없습니다.
데이터 마이닝 모델의 유효성을 검사하기 위한 조건 정의
데이터 마이닝 측정값은 일반적으로 정확도, 안정성 및 유용성 범주에 속합니다.
정확도 는 모델이 제공된 데이터의 특성과 결과의 상관 관계를 얼마나 잘 지정하는지에 대한 측정값입니다. 다양한 정확도 측정값이 있지만 모든 정확도 측정값은 사용되는 데이터에 따라 달라집니다. 실제로 값이 누락되거나 근사치이거나 여러 프로세스에 의해 데이터가 변경되었을 수 있습니다. 특히 탐색 및 개발 단계에서 데이터의 특성이 상당히 균일한 경우 데이터에서 일정량의 오류를 허용하도록 결정할 수 있습니다. 예를 들어 과거 매출을 기준으로 특정 매장의 매출을 예측하는 모델은 해당 저장소가 잘못된 회계 방법을 일관되게 사용하더라도 상관 관계가 매우 높고 매우 정확할 수 있습니다. 따라서 정확도 측정은 안정성 평가에 의해 균형을 유지해야 합니다.
안정성 은 데이터 마이닝 모델이 다른 데이터 집합에서 수행하는 방식을 평가합니다. 데이터 마이닝 모델은 제공된 테스트 데이터에 관계없이 동일한 유형의 예측을 생성하거나 동일한 일반적인 종류의 패턴을 찾은 경우 신뢰할 수 있습니다. 예를 들어 잘못된 회계 방법을 사용한 저장소에 대해 생성하는 모델은 다른 저장소에 잘 일반화되지 않으므로 신뢰할 수 없습니다.
유용성에 는 모델이 유용한 정보를 제공하는지 여부를 알려주는 다양한 메트릭이 포함됩니다. 예를 들어 저장소 위치와 판매의 상관 관계를 지정하는 데이터 마이닝 모델은 정확하고 안정적일 수 있지만 동일한 위치에 더 많은 저장소를 추가하여 결과를 일반화할 수 없으므로 유용하지 않을 수 있습니다. 또한 특정 위치의 판매량이 더 많은 이유에 대한 근본적인 비즈니스 질문에는 답하지 않습니다. 실제로 성공한 것으로 보이는 모델은 데이터의 상호 상관 관계를 기반으로 하므로 의미가 없다는 것을 알 수 있습니다.
마이닝 모델의 테스트 및 유효성 검사를 위한 도구
Analysis Services는 데이터 마이닝 솔루션의 유효성 검사에 대한 여러 가지 접근 방식을 지원하여 데이터 마이닝 테스트 방법론의 모든 단계를 지원합니다.
데이터를 테스트 및 학습 집합으로 분할합니다.
모델을 필터링하여 동일한 원본 데이터의 다양한 조합을 학습하고 테스트합니다.
향상도 및 증가량 측정. 리프트 차트는 임의 추측과 비교할 때 데이터 마이닝 모델을 사용하여 얻을 수 있는 개선 사항을 시각화하는 방법입니다.
데이터 집합 의 교차 유효성 검사 수행
분류 행렬 생성 이러한 차트는 좋은 추측과 잘못된 추측을 테이블로 정렬하므로 모델이 대상 값을 얼마나 정확하게 예측하는지 빠르고 쉽게 측정할 수 있습니다.
회귀 수식의 적합도를 평가하기 위한 산점도 만들기
권장 사항의 가치를 평가할 수 있도록 재무 이익 또는 비용을 마이닝 모델 사용과 연결하는 수익 차트 를 만듭니다.
이러한 메트릭은 데이터 마이닝 모델이 비즈니스 질문에 답하는지 여부에 대한 질문에 답변하는 것을 목표로 하지 않습니다. 오히려 이러한 메트릭은 예측 분석을 위해 데이터의 안정성을 평가하고 개발 프로세스에서 특정 반복을 사용할지 여부를 결정하는 데 사용할 수 있는 객관적인 측정값을 제공합니다.
이 섹션의 항목에서는 각 방법에 대한 개요를 제공하고 SQL Server 데이터 마이닝으로 빌드하는 모델의 정확도를 측정하는 프로세스를 안내합니다.
관련 항목
| 토픽 | 링크 |
|---|---|
| 마법사 또는 DMX 명령을 사용하여 테스트 데이터 집합을 설정하는 방법을 알아봅니다. | 데이터 집합 학습 및 테스트 |
| 마이닝 구조에서 데이터의 배포 및 대표성을 테스트하는 방법을 알아봅니다. | 교차 검증(Analysis Services - 데이터 마이닝) |
| SQL Server 2014 Analysis Services(SSAS)에서 제공하는 정확도 차트 종류에 대해 알아봅니다. |
리프트 차트 (Analysis Services - 데이터 마이닝) 수익 차트(Analysis Services - 데이터 마이닝) 산점도(분석 서비스 - 데이터 마이닝) |
| 참 및 가양성 및 부정의 수를 평가하기 위해 혼동 행렬이라고도 하는 분류 행렬을 만드는 방법을 알아봅니다. | 분류 매트릭스(Analysis Services - 데이터 마이닝) |