다음을 통해 공유


마이닝 구조(Analysis Services - 데이터 마이닝)

마이닝 구조는 마이닝 모델이 빌드되는 데이터를 정의합니다. 즉, 원본 데이터 뷰, 열 수 및 유형 및 선택적 파티션을 학습 및 테스트 집합으로 지정합니다. 단일 마이닝 구조는 동일한 도메인을 공유하는 여러 마이닝 모델을 지원할 수 있습니다. 다음 다이어그램은 데이터 마이닝 구조와 데이터 원본 및 해당 구성 데이터 마이닝 모델의 관계를 보여 줍니다.

데이터 처리: 원본에서 구조로, 구조에서 모델로

다이어그램의 마이닝 구조는 CustomerID 필드에 조인된 여러 테이블 또는 뷰가 포함된 데이터 원본을 기반으로 합니다. 한 테이블에는 지리적 지역, 연령, 소득 및 성별과 같은 고객에 대한 정보가 포함되고, 관련 중첩 테이블에는 고객이 구매한 제품과 같은 각 고객에 대한 추가 정보의 여러 행이 포함되어 있습니다. 다이어그램은 하나의 마이닝 구조에서 여러 모델을 빌드할 수 있으며 모델이 구조와 다른 열을 사용할 수 있음을 보여 줍니다.

모델 1 CustomerID, 소득, 연령, 지역을 사용하고 지역의 데이터를 필터링합니다.

모델 2 CustomerID, 소득, 연령, 지역을 사용하고 Age에 대한 데이터를 필터링합니다.

모델 3 필터 없이 CustomerID, Age, Gender 및 중첩 테이블을 사용합니다.

모델은 입력에 서로 다른 열을 사용하고, 두 개의 모델이 필터를 적용하여 모델에 사용되는 데이터를 추가로 제한하기 때문에 모델은 동일한 데이터를 기반으로 하더라도 매우 다른 결과를 가질 수 있습니다. CustomerID 열은 사례 키로 사용할 수 있는 유일한 열이므로 모든 모델에 필요합니다.

이 섹션에서는 마이닝 구조를 정의하는 방법, 마이닝 구조를 데이터로 채우는 방법, 모델을 만드는 데 사용하는 방법 등 데이터 마이닝 구조의 기본 아키텍처에 대해 설명합니다. 기존 데이터 마이닝 구조를 관리하거나 내보내는 방법에 대한 자세한 내용은 데이터 마이닝 솔루션 및 개체 관리를 참조하세요.

마이닝 구조 정의

데이터 마이닝 구조 설정에는 다음 단계가 포함됩니다.

  • 데이터 원본을 정의합니다.

  • 구조에 포함할 데이터 열을 선택하고(모든 열을 모델에 추가할 필요가 없음) 키를 정의합니다.

  • 해당하는 경우 최상의 테이블에 대한 키를 포함하여 구조체에 대한 키를 정의합니다.

  • 원본 데이터를 학습 집합 및 테스트 집합으로 구분할지 여부를 지정합니다. 이 단계는 선택 사항입니다.

  • 구조를 처리합니다.

각 단계에 대해서는 다음 섹션에서 자세하게 설명합니다.

마이닝 구조에 대한 데이터 원본

마이닝 구조를 정의할 때 기존 데이터 원본 뷰에서 사용할 수 있는 열을 사용합니다. 데이터 원본 뷰는 여러 데이터 원본을 결합하고 단일 원본으로 사용할 수 있는 공유 개체입니다. 원래 데이터 원본은 클라이언트 애플리케이션에 표시되지 않으며 데이터 원본 뷰의 속성을 사용하여 데이터 형식을 수정하거나 집계를 만들거나 별칭 열을 만들 수 있습니다.

동일한 마이닝 구조에서 여러 마이닝 모델을 빌드하는 경우 모델은 구조와 다른 열을 사용할 수 있습니다. 예를 들어 단일 구조를 만든 다음 각 모델이 서로 다른 열을 사용하고 다른 특성을 예측하여 별도의 의사 결정 트리 및 클러스터링 모델을 빌드할 수 있습니다.

또한 각 모델은 구조의 열을 다양한 방식으로 사용할 수 있습니다. 예를 들어 데이터 원본 뷰에는 소득 열이 포함될 수 있습니다. 이 열은 다양한 모델에 대해 여러 가지 방법으로 bin을 만들 수 있습니다.

데이터 마이닝 구조는 데이터 원본 및 열의 정의를 원본 데이터에 대한 바인딩 형식으로 저장합니다. 데이터 원본 바인딩에 대한 자세한 내용은 데이터 원본 및 바인딩(SSAS 다차원)을 참조하세요. 그러나 DMX DMX (CREATE MINING STRUCTURE) 문을 사용하여 특정 데이터 원본에 바인딩하지 않고 데이터 마이닝 구조를 만들 수도 있습니다.

마이닝 구조 열

마이닝 구조의 구성 요소는 데이터 원본에 포함된 데이터를 설명하는 마이닝 구조 열입니다. 이러한 열에는 데이터 형식, 콘텐츠 형식 및 데이터 배포 방법과 같은 정보가 포함됩니다. 마이닝 구조에는 열이 특정 마이닝 모델에 사용되는 방법 또는 모델을 빌드하는 데 사용되는 알고리즘 유형에 대한 정보가 포함되지 않습니다. 이 정보는 마이닝 모델 자체에 정의됩니다.

마이닝 구조에는 중첩 테이블도 포함될 수 있습니다. 중첩 테이블은 사례의 엔터티와 관련 특성 간의 일대다 관계를 나타냅니다. 예를 들어 고객을 설명하는 정보가 한 테이블에 있고 고객의 구매가 다른 테이블에 있는 경우 중첩 테이블을 사용하여 정보를 단일 사례로 결합할 수 있습니다. 고객 식별자는 하나의 엔터티이고, 구매는 그것과 관련된 속성입니다. 중첩 테이블을 사용하는 시기에 대한 자세한 내용은 중첩 테이블(Analysis Services - 데이터 마이닝)을 참조하세요.

SSDT(SQL Server Data Tools)에서 데이터 마이닝 모델을 만들려면 먼저 데이터 마이닝 구조를 만들어야 합니다. 데이터 마이닝 마법사는 마이닝 구조를 만들고, 데이터를 선택하고, 마이닝 모델을 추가하는 프로세스를 안내합니다.

DMX(데이터 마이닝 확장)를 사용하여 마이닝 모델을 만드는 경우 모델과 열을 지정할 수 있으며 DMX는 필요한 마이닝 구조를 자동으로 만듭니다. 자세한 내용은 DMX(CREATE MINING MODEL)를 참조하세요.

자세한 내용은 마이닝 구조 열을 참조하세요.

데이터를 학습 및 테스트 집합으로 분할

마이닝 구조에 대한 데이터를 정의할 때 일부 데이터를 학습에 사용하고 일부는 테스트에 사용되도록 지정할 수도 있습니다. 따라서 데이터 마이닝 구조를 만들기 전에 더 이상 데이터를 분리할 필요가 없습니다. 대신 모델을 만드는 동안 특정 비율의 데이터를 테스트용으로 유지하도록 지정하고 나머지는 학습에 사용하거나 테스트 데이터 집합으로 사용할 특정 사례 수를 지정할 수 있습니다. 학습 및 테스트 데이터 집합에 대한 정보는 마이닝 구조와 함께 캐시되므로 해당 구조를 기반으로 하는 모든 모델에서 동일한 테스트 집합을 사용할 수 있습니다.

자세한 내용은 데이터 집합 학습 및 테스트를 참조하세요.

드릴스루 활성화

특정 마이닝 모델에서 열을 사용할 계획이 없는 경우에도 마이닝 구조에 열을 추가할 수 있습니다. 예를 들어 분석 프로세스 중에 전자 메일 주소를 사용하지 않고 클러스터링 모델에서 고객의 전자 메일 주소를 검색하려는 경우에 유용합니다. 분석 및 예측 단계 중에 열을 무시하려면 해당 열을 구조에 추가하지만 열에 대한 사용량을 지정하거나 사용 플래그를 무시하도록 설정하지 않습니다. 이러한 방식으로 플래그가 지정된 데이터는 마이닝 모델에서 드릴스루를 사용하도록 설정한 경우와 적절한 권한이 있는 경우 쿼리에서 계속 사용할 수 있습니다. 예를 들어 모든 고객 분석으로 인해 생성된 클러스터를 검토한 다음 드릴스루 쿼리를 사용하여 특정 클러스터에 있는 고객의 이름과 전자 메일 주소를 가져올 수 있습니다. 이러한 데이터 열이 모델을 빌드하는 데 사용되지 않았음에도 불구하고

자세한 내용은 드릴스루 쿼리(데이터 마이닝)를 참조하세요.

마이닝 구조 처리

마이닝 구조는 처리될 때까지 메타데이터 컨테이너일 뿐입니다. 마이닝 구조를 처리할 때 Analysis Services는 데이터에 대한 통계, 연속 특성이 불연속화되는 방법에 대한 정보 및 나중에 마이닝 모델에서 사용되는 기타 정보를 저장하는 캐시를 만듭니다. 마이닝 모델 자체는 이 요약 정보를 저장하지 않고 마이닝 구조가 처리될 때 캐시된 정보를 참조합니다. 따라서 기존 구조에 새 모델을 추가할 때마다 구조를 다시 처리할 필요가 없습니다. 모델만 처리할 수 있습니다.

캐시가 매우 크거나 자세한 데이터를 제거하려는 경우 처리 후 이 캐시를 삭제하도록 선택할 수 있습니다. 데이터를 캐시하지 않으려면 마이닝 구조의 CacheMode 속성을 ClearAfterProcessing로 변경할 수 있습니다. 이렇게 하면 모델이 처리된 후 캐시가 삭제됩니다. CacheMode 속성을 ClearAfterProcessing으로 설정하면 마이닝 모델에서 드릴다운 기능이 비활성화됩니다.

그러나 캐시를 삭제한 후에는 마이닝 구조에 새 모델을 추가할 수 없습니다. 구조에 새 마이닝 모델을 추가하거나 기존 모델의 속성을 변경하는 경우 먼저 마이닝 구조를 다시 처리해야 합니다. 자세한 내용은 처리 요구 사항 및 고려 사항(데이터 마이닝)을 참조하세요.

마이닝 구조 보기

뷰어를 사용하여 마이닝 구조의 데이터를 찾아볼 수 없습니다. 그러나 SSDT(SQL Server Data Tools)에서 데이터 마이닝 디자이너의 마이닝 구조 탭을 사용하여 구조 열 및 해당 정의를 볼 수 있습니다. 자세한 내용은 데이터 마이닝 디자이너를 참조하세요.

마이닝 구조의 데이터를 검토하려면 DMX(데이터 마이닝 확장)를 사용하여 쿼리를 만들 수 있습니다. 예를 들어 문 SELECT * FROM <structure>.CASES 은 마이닝 구조의 모든 데이터를 반환합니다. 이 정보를 검색하려면 마이닝 구조가 처리되고 처리 결과가 캐시되어야 합니다.

SELECT * FROM <model>.CASES 은 동일한 열을 반환하지만 해당 특정 모델의 경우에만 반환됩니다. 자세한 내용은 SELECT FROM <구조를 참조하세요>. CASESSELECT FROM <모델>. CASES(DMX).

마이닝 구조와 함께 데이터 마이닝 모델 사용

데이터 마이닝 모델은 마이닝 구조로 표시되는 데이터에 마이닝 모델 알고리즘을 적용합니다. 마이닝 모델은 특정 마이닝 구조에 속하는 개체이며 모델은 마이닝 구조에 정의된 속성의 모든 값을 상속합니다. 모델은 마이닝 구조에 포함된 모든 열 또는 열의 하위 집합을 사용할 수 있습니다. 구조체 열의 여러 복사본을 구조체에 추가할 수 있습니다. 또한 모델에 구조 열의 여러 복사본을 추가한 다음 모델의 각 구조 열에 서로 다른 이름 또는 별칭을 할당할 수 있습니다. 구조 열의 별칭 지정에 대한 자세한 내용은 모델 열 및 마이닝 모델 속성에 대한 별칭 만들기를 참조하세요.

데이터 마이닝 모델의 아키텍처에 대한 자세한 내용은 마이닝 모델(Analysis Services - 데이터 마이닝)을 참조하세요.

제공된 링크를 사용하여 마이닝 구조를 정의, 관리 및 사용하는 방법에 대해 자세히 알아보세요.

업무 링크
관계형 마이닝 구조 작업 새 관계형 마이닝 구조 만들기

마이닝 구조에 중첩 테이블 추가
OLAP 큐브를 기반으로 마이닝 구조 작업 새 OLAP 마이닝 구조 만들기

마이닝 구조에 대한 원본 큐브 필터링
마이닝 구조에서 열을 다루기 마이닝 구조에 열 추가

마이닝 구조에서 열 제거
마이닝 구조 속성 및 데이터 변경 또는 쿼리 마이닝 구조의 속성 변경
데이터 원본과 함께 작업하고 원본 데이터를 업데이트하기 마이닝 구조에 사용되는 데이터 원본 뷰 편집

마이닝 구조 처리

또한 참조하십시오

데이터베이스 개체(Analysis Services - 다차원 데이터)
마이닝 모델(Analysis Services - 데이터 마이닝)