다음을 통해 공유


새 마이닝 구조 만들기

Microsoft SQL Server Analysis Services에서 데이터 마이닝 솔루션을 작성할 때 첫 번째 단계는 Business Intelligence Development Studio의 데이터 마이닝 마법사(Analysis Services – 데이터 마이닝)를 사용하여 마이닝 구조를 만드는 것입니다. 마이닝 구조는 마이닝 모델을 생성한 데이터 도메인을 정의합니다. 모든 마이닝 모델은 구조를 기반으로 합니다.

마이닝 구조는 관계형 데이터 원본이나 OLAP(온라인 분석 처리) 데이터 원본을 사용합니다. 관계형 마이닝 구조는 테이블, 파일 또는 관계형 데이터베이스 시스템에 저장된 데이터와 데이터 원본 뷰로 정의된 데이터를 기반으로 합니다. OLAP 마이닝 구조는 마이닝 구조와 동일한 데이터베이스에 있는 OLAP 큐브의 차원 및 관련 측정값을 기반으로 합니다.

참조 항목:데이터베이스 디자인, Analysis Services 다차원 데이터베이스 개체 디자인

데이터 마이닝 마법사는 자동으로 마이닝 구조를 정의하고 사용자가 이 구조에 초기 마이닝 모델을 추가할 수 있도록 합니다. 마이닝 구조는 여러 마이닝 모델을 포함할 수 있으므로 데이터 마이닝 디자이너를 사용하여 구조에 다른 마이닝 모델을 추가할 수 있습니다.

다음 섹션에서는 데이터 마이닝 마법사를 사용하여 새 마이닝 구조를 만드는 방법과 마이닝 구조의 데이터에 대한 쿼리를 실행하거나 테스트 집합을 만들 수 있도록 하는 마이닝 구조 옵션을 설정하는 방법에 대해 자세히 설명합니다.

  • 관계형 마이닝 구조 만들기

  • OLAP 마이닝 구조 만들기

  • 홀드아웃 및 드릴스루 사용

관계형 마이닝 구조 만들기

관계형 마이닝 구조는 OLE DB 데이터 원본을 통해 사용 가능한 모든 데이터를 기반으로 할 수 있습니다. 원본 데이터가 여러 개의 테이블에 포함되어 있는 경우 필요한 테이블과 열을 결합하는 데이터 원본 뷰를 만들 수 있습니다. 테이블에 일 대 다 관계가 들어 있는 경우, 예를 들어 분석하려는 각 고객의 구매 레코드가 여러 개 있는 경우 테이블 두 개를 추가한 후 한 테이블을 사례 테이블로, 관계의 다 쪽에서 가져온 데이터를 중첩 테이블로 사용할 수 있습니다.

참조 항목: 중첩 테이블(Analysis Services - 데이터 마이닝)

데이터 마이닝 마법사는 새 마이닝 모델의 구조를 만들기 위한 다음 단계로 이루어져 있습니다.

  1. 데이터 원본 유형 선택 - 이 경우 관계형 데이터베이스

  2. 구조만 작성할지, 아니면 마이닝 모델이 있는 구조를 작성할지 결정

  3. 모델의 알고리즘 선택

  4. 데이터 원본 선택

  5. 사례 테이블 및 중첩 테이블(옵션) 선택

  6. 각 열의 유형(예측 가능한 열, 입력 열 또는 키 열) 선택

  7. 열 내용 유형 지정

  8. 선택적 홀드아웃 데이터 집합 지정

  9. 구조에 드릴스루 사용(새 마이닝 구조 및 연결된 마이닝 모델 이름 지정 및 저장)

참조 항목:데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝), 마이닝 모델 열, 마이닝 구조 열, 데이터 형식(데이터 마이닝), 내용 유형(데이터 마이닝)

OLAP 마이닝 구조 만들기

OLAP 큐브에는 많은 멤버와 차원이 포함되는 경우가 많으므로 데이터 마이닝을 시작할 위치를 알기가 어려울 수 있습니다. 큐브에 포함된 패턴을 식별하려면 일반적으로 원하는 단일 차원을 식별한 다음 해당 차원과 관련된 패턴을 탐색합니다. 다음 표에서는 일반적인 몇 가지 OLAP 데이터 마이닝 태스크를 나열하고 각 작업을 적용할 수 있는 예제 시나리오를 설명하며 각 작업에 사용할 데이터 마이닝 알고리즘을 식별합니다.

태스크

예제 시나리오

알고리즘

멤버를 클러스터로 그룹화

고객 멤버 속성, 고객이 구입한 제품, 고객이 지출한 금액을 기준으로 고객 차원을 세그먼트화합니다.

Microsoft 클러스터링 알고리즘

주목할 만한 멤버 또는 비정상적인 멤버 찾기

판매, 수익, 매장 위치 및 매장 크기를 기준으로 Store 차원에서 주목할 만한 매장 또는 비정상적인 매장을 식별합니다.

Microsoft 의사 결정 트리 알고리즘

주목할 만한 셀 또는 비정상적인 셀 찾기

일반적인 시간별 경향에 반하는 매장 판매량을 식별합니다.

Microsoft 시계열 알고리즘

데이터 마이닝 마법사는 새 마이닝 모델의 구조를 만들기 위한 다음 프로세스로 이루어져 있습니다.

  1. 데이터 원본 유형 선택 - 이 경우 큐브

    [!참고]

    OLAP 큐브는 마이닝 구조와 동일한 데이터베이스 내에 있어야 합니다. PowerPivot for Excel 추가 기능에서 데이터 마이닝의 원본으로 만든 큐브는 사용할 수 없습니다.

  2. 알고리즘 선택

  3. 원본 큐브 차원 선택

  4. 사례 키 선택

  5. 사례 열 선택

  6. 중첩 테이블 선택

  7. 각 열의 사용법(예측 가능한 열, 입력 열 또는 키 열) 선택

  8. 열 내용 유형 지정

  9. 원본 큐브 조각화

  10. 선택적 테스트 데이터 집합 만들기

  11. 새 마이닝 구조 및 관련 마이닝 모델 이름 지정 및 저장

마법사의 마지막 페이지에서는 다음 옵션을 설정할 수 있습니다.

  • 드릴스루 허용

  • 마이닝 모델 차원 만들기

  • 마이닝 모델 차원을 사용하여 큐브 만들기

원본 큐브에서 새 마이닝 모델 차원을 만드는 경우 데이터 마이닝 알고리즘이 OLAP 데이터 원본에서 찾는 정보를 포함할 수 있습니다. 마이닝 모델 차원을 만들면 차원 형식으로 저장된 모델 콘텐츠를 찾고 쿼리할 수 있습니다. 이 옵션은 Microsoft 클러스터링, Microsoft 의사 결정 트리 및 Microsoft 연결 규칙 알고리즘을 사용하여 작성된 모델에 사용할 수 있습니다.

새 큐브를 만드는 옵션을 선택할 경우 마이닝 모델 차원과 모든 관련 차원(선택 사항)을 포함하는 새 큐브가 데이터베이스에 정의됩니다. 따라서 마이닝 모델에서 발견한 팩트 데이터를 계층에 따라 조각화할 수 있습니다.

참조 항목:데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝), 마이닝 모델 열, 마이닝 구조 열, 데이터 형식(데이터 마이닝), 내용 유형(데이터 마이닝)

드릴스루 및 홀드아웃 사용

마이닝 구조를 만들 때 데이터 작업을 위한 두 가지 중요한 옵션인 홀드아웃 및 드릴스루도 설정해야 합니다. 홀드아웃을 사용하면 마이닝 구조의 데이터를 해당 구조와 연결된 모든 모델에 사용하기 위해 학습 집합 및 테스트 집합으로 분할할 수 있습니다. 자세한 내용은 학습 및 테스트 집합으로 데이터 분할(Analysis Services - 데이터 마이닝)을 참조하십시오.

드릴스루를 사용하면 마이닝 모델을 쿼리하여 마이닝 구조의 원본 데이터를 볼 수 있습니다. 이는 마이닝 모델의 결과를 보거나 기본 사례에 대한 추가 세부 정보를 보려는 경우 유용합니다. 예를 들어 연락처 정보, 특정 클러스터를 학습하는 데 사용된 사례 등을 찾을 수 있습니다. 드릴스루를 사용하려면 마이닝 구조를 만들 때 이를 사용하도록 설정해야 하며 나중에 이렇게 설정할 수 없습니다. 자세한 내용은 마이닝 모델 및 마이닝 구조에 드릴스루 사용(Analysis Services - 데이터 마이닝)을 참조하십시오.