데이터 마이닝 마법사(Analysis Services – 데이터 마이닝)
Microsoft SQL Server Analysis Services의 데이터 마이닝 마법사는 데이터 마이닝 프로젝트에 새 마이닝 구조를 추가할 때마다 시작됩니다. 이 마법사를 사용하면 새 마이닝 구조를 정의하고 데이터 마이닝에 사용할 데이터 원본을 선택할 수 있습니다. 또한 마이닝 구조의 데이터를 학습 집합과 테스트 집합으로 분할하고 각 구조에 대한 초기 마이닝 모델을 추가할 수 있습니다.
마이닝 구조의 내용은 기존 데이터 원본 뷰 또는 큐브에서 파생됩니다. 마이닝 구조에 포함할 열을 선택할 수 있습니다. 해당 구조를 기반으로 하는 모든 모델은 이러한 열을 사용할 수 있습니다. 데이터 마이닝 모델의 사용자가 마이닝 모델의 결과에서 드릴다운하여 마이닝 모델 자체에 포함되지 않은 추가 마이닝 구조 열을 보도록 할 수도 있습니다.
데이터 마이닝 마법사를 사용하여 데이터 마이닝 구조 및 모델을 만들 때는 다음 사항을 결정해야 합니다.
데이터 마이닝 구조 및 모델을 관계형 데이터베이스에서 작성할지, 아니면 OLAP 데이터베이스의 기존 큐브에서 작성할지 여부
학습에 사용할 데이터의 양 및 테스트를 위해 따로 설정할 데이터의 양. 마이닝 구조를 학습 및 테스트 데이터 집합으로 분할하면 해당 구조를 기반으로 하는 모든 모델은 해당 테스트 집합을 사용할 수 있습니다.
예측에 사용할 열 또는 특성 및 분석을 위한 입력으로 사용할 열 또는 특성. 각 구조에는 사례 레코드를 고유하게 식별하는 키도 포함되어 있어야 합니다.
사용할 알고리즘. SQL Server Analysis Services에 제공되는 다양한 알고리즘은 특징과 생성하는 결과가 서로 다릅니다. 다양한 알고리즘을 사용하여 여러 모델을 만들거나 알고리즘의 매개 변수를 변경하여 다양한 모델을 만들 수 있습니다.
데이터 마이닝 마법사는 이러한 사항을 결정하는 데 도움이 되는 다음과 같은 기능을 제공합니다.
사례 집합을 정의하는 마법사 페이지. 관계형 데이터 원본에서 사례 테이블 및 중첩 테이블을 선택하거나 OLAP 데이터 원본을 선택한 다음 사례 키 및 사례 수준 열을 선택하고 필요에 따라 큐브에 필터를 설정할 수 있습니다.
열의 데이터를 분석하고 열의 사용법을 제안하는 대화 상자
열 내용 및 데이터 형식 자동 검색
마이닝 모델이 OLAP 데이터 원본을 기반으로 하는 경우 큐브의 자동 조각화
데이터 마이닝 마법사를 완료한 후에는 데이터 마이닝 디자이너를 사용하여 마이닝 구조 및 모델을 수정하거나, 모델의 정확도를 보거나, 구조 및 모델의 특징을 보거나, 모델을 사용하여 예측을 수행합니다.
참조 항목:데이터 마이닝 디자이너
데이터 마이닝 마법사 사용
데이터 마이닝 마법사를 시작하려면 Business Intelligence Development Studio의 프로젝트 메뉴 또는 솔루션 탐색기를 사용하여 새 마이닝 구조를 Analysis Services 프로젝트에 추가합니다.
데이터 원본이 관계형인지, 아니면 큐브에 있는지에 따라 데이터 마이닝 마법사는 다음으로 나뉩니다.
관계형 마이닝 모델
OLAP 마이닝 모델
[!참고]
데이터 마이닝을 위해 큐브 또는 OLAP 데이터베이스가 반드시 필요한 것은 아닙니다. 데이터가 큐브에 이미 저장되어 있거나 OLAP 차원 또는 OLAP 집계/계산 결과를 마이닝하려는 경우가 아니면 데이터 마이닝에 관계형 테이블 또는 데이터 원본을 사용하는 것이 좋습니다.
관계형 마이닝 모델
Analysis Services의 관계형 데이터 원본에서 마이닝 모델을 작성하는 경우에는 먼저 데이터 마이닝 마법사에서 기존 관계형 데이터베이스를 사용하여 모델 구조를 정의하도록 지정합니다. 마이닝 구조만 만들거나 마이닝 구조와 관련 데이터 마이닝 모델 하나를 만들 수도 있습니다. 마이닝 모델을 만드는 경우 원하는 데이터 마이닝 분석 유형에 가장 적합한 알고리즘을 선택하여 어떤 데이터 마이닝 기술을 사용할지 지정해야 합니다.
참조 항목:데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)
데이터 원본 뷰 및 테이블 유형 지정
마법사의 다음 단계는 마이닝 구조를 정의하는 데 사용할 특정 데이터 원본 뷰를 선택하고 사례 테이블을 지정하는 것입니다. 사례 테이블은 데이터 마이닝 모델을 학습하는 데 사용되고 필요에 따라 데이터 마이닝 모델을 테스트하는 데에도 사용됩니다. 중첩 테이블을 지정할 수도 있습니다.
사례 테이블 선택은 중요한 결정 사항입니다. 사례 테이블에는 고객 및 해당 인구 통계 정보와 같이 분석할 엔터티가 포함되어 있어야 합니다. 중첩 테이블에는 일반적으로 고객이 수행한 트랜잭션 또는 엔터티와 다 대 일 관계에 있는 특성과 같은 사례 테이블의 엔터티에 대한 추가 정보가 포함되어 있습니다. 예를 들어 Customers 사례 테이블에 조인된 중첩 테이블에는 각 고객이 구매한 제품 목록이나 취미 목록이 포함될 수 있습니다. 참조 항목:중첩 테이블(Analysis Services - 데이터 마이닝)
열 사용법 지정
사례 테이블 및 중첩 테이블을 지정한 다음에는 마이닝 구조에 포함시킬 테이블의 각 열에 대한 사용 유형을 결정합니다. 열에 대한 사용 유형을 지정하지 않으면 해당 열이 마이닝 구조에 포함되지 않습니다.
데이터 마이닝 열의 유형은 키, 입력, 예측 가능 중 하나이거나 입력과 예측 가능의 조합일 수 있습니다. 키 열은 테이블의 각 행에 대한 고유 식별자를 포함합니다. 시퀀스 클러스터링 또는 시계열 알고리즘을 기반으로 하는 일부 마이닝 모델은 여러 키 열을 포함할 수 있습니다. 그러나 이러한 여러 키는 관계상 복합 키가 아니며 대신 시계열 및 시퀀스 클러스터링 분석을 지원하기 위해 선택되어야 합니다. 자세한 내용은 Microsoft 시계열 알고리즘 또는 Microsoft 시퀀스 클러스터링 알고리즘을 참조하십시오.
입력 열은 예측의 기반이 되는 정보를 제공합니다. 예측 가능한 열은 마이닝 모델에서 예측하려는 정보를 포함합니다.
예를 들어 일련의 테이블에 고객 ID, 인구 통계 정보 및 특정 매장에서 각 고객이 소비하는 금액이 포함될 수 있습니다. 고객 ID는 고객을 고유하게 식별하고 사례 테이블과 중첩 테이블을 연결하므로 고객 ID를 키 열로 사용합니다. 인구 통계 정보의 열 일부는 입력 열로, 각 고객이 소비하는 금액을 설명하는 열은 예측 가능한 열로 사용될 수 있습니다. 그런 다음 인구 통계 정보와 특정 고객이 특정 매장에서 소비하는 금액을 연결하는 마이닝 모델을 작성할 수 있습니다. 이 모델을 대상 마케팅의 기본으로 사용할 수 있습니다.
데이터 마이닝 마법사에서는 예측 가능한 열을 선택하면 설정되는 제안 기능을 사용할 수 있습니다. 데이터 집합에는 마이닝 모델을 작성하는 데 필요한 것보다 많은 열이 포함되는 경우가 많습니다. 제안 기능은 데이터 집합의 각 열과 예측 가능한 열 사이의 관계를 설명하는 0에서 1 사이의 점수를 계산합니다. 제안 기능은 이 점수를 기준으로 마이닝 모델에 대한 입력으로 사용할 열을 제안합니다. 제안 기능을 사용하는 경우 제안된 열을 사용하거나, 필요에 맞게 선택 사항을 수정하거나, 제안을 무시할 수 있습니다.
내용 및 데이터 형식 지정
하나 이상의 예측 가능한 열과 입력 열을 선택한 다음에는 각 열에 대한 내용과 데이터 형식을 지정할 수 있습니다.
For More Information:데이터 형식(데이터 마이닝), 내용 유형(데이터 마이닝)
학습 집합 및 테스트 집합으로 데이터 분할
마법사를 완료하기 전 마지막 단계는 데이터를 학습 집합과 테스트 집합으로 분할하는 것입니다. 테스트용으로 데이터 일부를 따로 설정하는 기능은 SQL Server 2008에서 새로 도입되었으며 새 마이닝 구조와 연결된 모든 마이닝 모델에 일관된 테스트 데이터 집합을 사용할 수 있도록 하기 위한 간편한 메커니즘을 제공합니다.
특정 비율의 데이터는 테스트에 사용되고 나머지는 모두 학습에 사용되도록 지정할 수 있습니다. 테스트에 사용할 사례 수를 지정할 수도 있습니다. 파티션 정의는 마이닝 구조와 함께 저장되므로 해당 구조를 기반으로 하는 새 모델을 만들 때마다 테스트 데이터 집합을 사용하여 모델의 정확도를 평가할 수 있습니다.
참조 항목:데이터 마이닝 모델 유효성 검사(Analysis Services - 데이터 마이닝), 학습 및 테스트 집합으로 데이터 분할(Analysis Services - 데이터 마이닝)
마법사 완료
마법사의 마지막 단계는 마이닝 구조 및 관련 마이닝 모델의 이름을 지정하는 것입니다. 드릴스루 허용을 선택한 경우 드릴스루 기능이 모델에 설정되며 적절한 권한이 있는 사용자가 모델을 작성하는 데 사용되는 원본 데이터를 탐색할 수 있게 됩니다.
참조 항목: 마이닝 모델 및 마이닝 구조에 드릴스루 사용(Analysis Services - 데이터 마이닝)
맨 위로 이동
OLAP 마이닝 모델
Analysis Services의 OLAP 데이터 원본에서 다차원 마이닝 모델을 작성하는 경우에는 먼저 데이터 마이닝 마법사에서 기존 큐브를 사용하여 모델 구조를 정의하도록 지정합니다. 마이닝 구조만 만들거나 마이닝 구조와 관련 데이터 마이닝 모델 하나를 만들 수도 있습니다. 마이닝 모델을 만드는 경우 비즈니스 문제에 가장 적합한 알고리즘을 선택하여 사용할 데이터 마이닝 기술을 지정해야 합니다.
참조 항목:데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)
데이터 원본 및 사례 키 지정
다음으로 마이닝 구조를 정의하기 위해 데이터 원본으로 사용할 큐브 차원을 선택합니다. 그런 다음 마이닝 모델의 키(사례 키)로 사용할 특성을 선택합니다.
[!참고]
작성 중인 OLAP 마이닝 모델 및 모델 생성에 사용하는 원본 큐브는 동일한 Analysis Services 데이터베이스에 있어야 합니다.
사례 수준 열 및 열 사용법 지정
사례 키를 선택하면 해당 키와 연결된 특성 및 측정값이 마법사의 다음 페이지에서 트리 뷰에 표시됩니다. 이 목록에서 구조의 열로 사용할 특성 및 측정값을 선택합니다. 이러한 열을 사례 수준 열이라고 합니다. 관계형 모델과 마찬가지로 각 열이 구조에서 사용되는 방법을 지정해야 하며 이는 마법사의 다음 페이지에서 수행할 수 있습니다. 열은 키, 입력, 예측 가능, 입력과 예측 가능의 조합 중 하나이거나 아무 것도 선택하지 않을 수 있습니다.
중첩 테이블 추가
데이터 마이닝 마법사에서 OLAP 마이닝 모델을 작성하는 경우에는 마이닝 모델 구조에 중첩 테이블을 추가할 수 있습니다. 마법사의 마이닝 모델 열 사용법 지정 페이지에서 중첩 테이블 추가를 클릭하여 중첩 테이블을 추가하는 단계를 안내하는 별도의 대화 상자를 엽니다. 이 대화 상자에는 차원에 적용되는 측정값 그룹만 표시됩니다. 사례 차원의 외래 키를 포함하는 측정값 그룹을 선택합니다. 그런 다음 측정값 그룹의 각 열에 대한 사용법을 입력 또는 예측 가능으로 지정합니다. 그러면 마법사에서 중첩 테이블을 사례 테이블에 추가합니다. 중첩 테이블의 기본 이름은 중첩 차원 이름이지만 중첩 테이블 및 해당 열의 이름을 바꿀 수 있습니다. 참조 항목:중첩 테이블(Analysis Services - 데이터 마이닝)
내용 및 데이터 형식 지정
하나 이상의 예측 가능한 열과 입력 열을 선택한 다음에는 각 열에 대한 내용과 데이터 형식을 지정할 수 있습니다.
For More Information:데이터 형식(데이터 마이닝), 내용 유형(데이터 마이닝)
원본 큐브 조각화
마법사에서 OLAP 마이닝 모델을 작성하는 경우 마이닝 모델을 학습하기 전에 원본 큐브를 조각화하여 마이닝 모델의 범위를 제한할 수 있습니다. 큐브 조각화는 SQL 문에 WHERE 절을 추가하는 것과 유사합니다. 예를 들어 큐브에 제품 구매 정보가 있는 경우 연령 특성을 31세 이상으로, 성별 열을 여성만으로, 구매일을 2000년 3월 이후로 제한할 수 있습니다. 이렇게 하면 2000년 3월 이후에 제품을 구매한 31세 이상의 여성이라는 범위만 모델에 포함되도록 제한할 수 있습니다.
학습 집합 및 테스트 집합으로 데이터 분할
마법사를 완료하기 전 마지막 단계는 큐브에서 사용할 수 있는 데이터를 학습 집합과 테스트 집합으로 분할하는 것입니다. 파티션 정의는 마이닝 구조와 함께 저장되므로 해당 구조를 기반으로 하는 새 모델을 만들 때마다 테스트 데이터 집합을 사용하여 모델의 정확도를 평가할 수 있습니다.
참조 항목:데이터 마이닝 모델 유효성 검사(Analysis Services - 데이터 마이닝), 학습 및 테스트 집합으로 데이터 분할(Analysis Services - 데이터 마이닝)
마법사 완료
마법사의 마지막 단계는 마이닝 구조 및 관련 마이닝 모델의 이름을 지정하는 것입니다. 드릴스루 허용을 선택한 경우 드릴스루 기능이 모델에 설정되며 적절한 권한이 있는 사용자가 모델을 작성하는 데 사용되는 원본 데이터를 탐색할 수 있게 됩니다. 마이닝 모델을 기반으로 하는 원본 큐브에 새 차원을 추가할지, 아니면 마이닝 모델에서 새 큐브를 만들지를 지정할 수도 있습니다.
참조 항목: 마이닝 모델 및 마이닝 구조에 드릴스루 사용(Analysis Services - 데이터 마이닝)
맨 위로 이동