데이터 마이닝 프로젝트(Analysis Services - 데이터 마이닝)
Analysis Services에서 데이터 마이닝 솔루션을 개발할 때는 먼저 Analysis Services 프로젝트를 만듭니다. 이 프로젝트 내에서 분석에 사용할 데이터의 원본을 정의한 다음 데이터를 처리하기 위한 알고리즘 및 사용자 지정 지침이 포함된 모델을 설정합니다. 계속해서 이 프로젝트 내에서 모델을 테스트하고 구체화할 수도 있습니다. 솔루션에 만족하면 이 솔루션을 다른 서버에 배포하거나 이를 응용 프로그램에 사용하여 예측 및 분석을 제공할 수 있습니다.
다음 섹션에서는 데이터 마이닝 솔루션을 만들기 위한 도구 및 프로세스를 개괄적으로 설명하고 각 단계에 사용할 리소스에 대한 링크를 제공합니다.
Analysis Services 프로젝트 만들기
데이터 마이닝 솔루션을 개발할 때는 먼저 Business Intelligence Development Studio를 사용하여 새 Analysis Services 프로젝트를 만들어야 합니다. 각 데이터 마이닝 프로젝트에는 네 가지 개체인 데이터 원본, 데이터 원본을 기반으로 하는 데이터 원본 뷰, 모델에서 데이터가 사용되는 방식을 정의하는 마이닝 구조, 그리고 패턴을 만들고 저장하는 마이닝 모델이 포함됩니다.
참조 항목:Analysis Services 프로젝트 정의, 데이터 원본 마법사를 사용하여 데이터 원본 정의(Analysis Services)
데이터 원본 정의
데이터 원본은 Analysis Services 서버에서 데이터 원본에 연결하는 데 사용할 연결 문자열 및 인증 정보를 정의합니다. 데이터 원본에는 여러 개의 테이블이나 뷰가 포함될 수 있습니다. Analysis Services에서는 관계형 데이터베이스와 OLAP(온라인 분석 처리) 데이터베이스 또는 외부 공급자의 데이터 집합을 사용할 수 있습니다.
데이터 원본에 대한 연결을 정의한 후에는 모델과 관련된 특정 데이터를 식별하는 뷰를 만듭니다. 데이터 원본 뷰를 사용하면 데이터 원본의 데이터가 마이닝 모델에 제공되는 방식을 사용자 지정할 수도 있습니다. 데이터의 구조를 수정하여 프로젝트에 보다 적절하게 만들거나 특정 종류의 데이터만 선택할 수 있습니다. 데이터를 필터링하려면 데이터 원본 뷰나 모델 수준에서 적용되는 필터에서 이를 수행합니다.
필요한 데이터 양과 데이터의 정리 및 형식 지정 방법에 대한 요구 사항은 데이터를 조사하는 데 사용하는 알고리즘에 따라 달라집니다.
Analysis Services 프로젝트에 마이닝 구조 추가
분석을 시작하기에 충분한 데이터가 있으면 비즈니스 문제와 가장 관련성이 큰 데이터 열을 선택하고 프로젝트에 마이닝 구조를 추가합니다. 마이닝 구조는 데이터 열과 데이터 원본 뷰 또는 프로젝트의 OLAP 큐브에서 가져온 중첩 테이블이 있는 열을 정의합니다.
새 마이닝 구조를 추가하려면 데이터 마이닝 마법사를 시작합니다. 이 마법사는 데이터를 정의하고 필요에 따라 초기 데이터 마이닝 모델을 만드는 과정을 안내해 줍니다. 구조를 만들 때 데이터를 분할하여 모델을 작성하는 데 사용되는 학습 데이터 집합과 해당 구조를 기반으로 하는 모든 마이닝 모델을 테스트하거나 유효성을 검사하는 데 사용할 수 있는 테스트 데이터 집합을 포함할 수도 있습니다. 데이터 마이닝 디자이너의 마이닝 구조 탭을 사용하여 열 및 중첩 테이블을 추가하는 등 기존 마이닝 구조를 수정할 수 있습니다.
참조 항목:새 마이닝 구조 만들기, 데이터 마이닝 디자이너데이터 마이닝 마법사(Analysis Services – 데이터 마이닝)
데이터 마이닝 모델 작업
각 마이닝 구조에는 하나 이상의 마이닝 모델을 추가할 수 있습니다. 마이닝 모델은 데이터에 사용할 분석 방법이나 알고리즘을 정의합니다. 데이터의 수학적 모델을 생성하는 알고리즘을 통해 데이터 원본 뷰에서 데이터를 실행하여 각 모델을 처리합니다. 이 프로세스를 모델 학습이라고도 합니다.
모델을 처리한 후에는 마이닝 모델을 시각적으로 탐색하고 모델에 대한 예측 쿼리를 만들 수 있습니다.
Analysis Services에서는 처리할 개체 및 개체 처리 방식을 제어하는 기능을 포함하여 마이닝 모델 개체를 처리하기 위한 여러 옵션을 제공합니다. 예를 들어 구조를 처리하고 데이터를 캐시한 다음 구조에 새 모델을 계속 추가할 수 있습니다. 데이터가 캐시되어 있으면 드릴스루 쿼리를 사용하여 모델에 사용된 사례에 대한 세부 정보를 반환할 수 있습니다.
참조 항목:데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝), Analysis Services 개체 처리, 마이닝 모델 및 마이닝 구조에 드릴스루 사용(Analysis Services - 데이터 마이닝).
데이터 마이닝 모델 유효성 검사
모델을 만든 후 결과를 조사하여 가장 적합한 모델을 결정할 수 있습니다. Analysis Services의 데이터 마이닝 디자이너에 있는 마이닝 모델 뷰어 탭에서는 각 마이닝 모델 유형에 대해 마이닝 모델을 탐색하는 데 사용할 수 있는 뷰어를 제공합니다.
Analysis Services의 데이터 마이닝 디자이너에 있는 마이닝 정확도 차트 탭에서는 마이닝 모델을 직접 비교하고 가장 정확하거나 유용한 마이닝 모델을 선택하는 데 사용할 수 있는 도구를 제공합니다. 이러한 도구에는 리프트 차트, 수익 차트 및 분류 행렬이 포함됩니다.
SQL Server 2008에 새로 추가된 교차 유효성 검사 보고서를 통해 데이터를 반복적으로 서브샘플링하여 모델이 특정 데이터 집합에 편향되어 있는지 확인할 수도 있습니다. 또한 보고서에서 제공되는 통계를 사용하여 모델을 객관적으로 비교하고 학습 데이터의 품질을 평가할 수 있습니다.
참조 항목:데이터 마이닝 모델 보기, 데이터 마이닝 모델 유효성 검사(Analysis Services - 데이터 마이닝)
예측 만들기
대부분의 데이터 마이닝 프로젝트의 주 목적은 마이닝 모델을 사용하여 예측을 만드는 것입니다. 마이닝 모델을 탐색 및 비교한 다음에는 여러 도구 중 하나를 사용하여 예측을 만들 수 있습니다. Analysis Services에서는 예측 만들기의 기본이 되며 쉽게 스크립팅할 수 있는 쿼리 언어인 DMX(Data Mining Extensions)를 제공합니다. DMX 예측 쿼리 생성을 돕기 위해 SQL Server에서는 SQL Server Management Studio 및 Business Intelligence Development Studio에서 사용할 수 있는 쿼리 작성기를 제공하고 Management Studio의 쿼리 편집기에서 사용할 수 있는 DMX 템플릿을 제공합니다. BI Development Studio의 데이터 마이닝 디자이너에 있는 마이닝 모델 예측 탭에서 쿼리 작성기에 액세스합니다.
SQL Server Management Studio
BI Development Studio를 사용하여 데이터 마이닝 프로젝트에 대한 마이닝 모델을 작성한 다음에는 Management Studio에서 모델 관리 및 관련 작업을 수행하고 예측을 만들 수 있습니다. SQL Server Management Studio의 쿼리 도구를 사용하면 모델에서 데이터를 탐색하거나 복잡한 내용 쿼리를 만들거나 SQL Server의 인스턴스에 저장된 데이터 마이닝 개체를 관리할 수 있습니다.
SQL Server Reporting Services
마이닝 모델을 만든 다음 그 결과를 보다 많은 관계자에게 배포하려는 경우 데이터 마이닝의 결과는 데이터베이스 쿼리를 통해 쉽게 액세스할 수 있는 일관성 있는 스키마에 저장되므로 다양한 클라이언트 도구를 사용하여 분석 결과를 표시하거나 모델의 패턴을 탐색하거나 예측을 만들 수 있습니다.
MicrosoftSQL ServerReporting Services의 보고서 디자이너를 사용하여 보고서를 만든 다음 이를 사용하여 마이닝 모델에 포함된 정보를 제공할 수 있습니다. DMX 쿼리의 결과를 기반으로 보고서를 만들고 Reporting Services에서 사용할 수 있는 매개 변수화 및 서식 지정 기능을 사용할 수 있습니다.
참조 항목:Analysis Services DMX 쿼리 디자이너 사용(Reporting Services), 응용 프로그램에 Reporting Services 통합
프로그래밍 방식으로 데이터 마이닝 작업
Analysis Services에서는 프로그래밍 방식으로 데이터 마이닝 작업을 할 때 사용할 수 있는 여러 도구를 제공합니다. DMX 언어는 데이터 마이닝 모델의 생성, 학습 및 사용에 활용할 수 있는 문을 제공합니다. XMLA(XML for Analysis)와 ASSL(Analysis Services Scripting Language)을 조합하여 사용하거나 AMO(Analysis Management Objects)를 사용하여 이러한 태스크를 수행할 수도 있습니다.
데이터 마이닝 스키마 행 집합을 사용하여 데이터 마이닝에 연결된 모든 메타데이터에 액세스할 수 있습니다. 예를 들어 스키마 행 집합을 사용하여 알고리즘이 지원하는 데이터 형식 또는 데이터베이스에 있는 모델 이름을 확인할 수 있습니다.
참조 항목:DMX(Data Mining Extensions) 참조, 데이터 마이닝 스키마 행 집합, Analysis Services에서 XML for Analysis 사용(XMLA)