불연속화 방법
Microsoft SQL Server 2005 Analysis Services(SSAS) 에서 데이터 마이닝 모델을 만드는 데 사용되는 일부 알고리즘은 특정 내용 유형이 있어야만 올바로 실행될 수 있습니다. 예를 들어 Microsoft Naive Bayes 알고리즘과 같은 일부 알고리즘은 연속 열을 입력으로 사용할 수 없거나 연속 값을 예측할 수 없습니다. 또한 일부 열에는 포함된 값이 너무 많아 알고리즘에서 모델을 만들기 위한 데이터 패턴을 쉽게 식별할 수 없습니다.
이 경우 알고리즘을 사용하여 마이닝 모델을 생성할 수 있도록 열의 데이터를 불연속화할 수 있습니다. 불연속화는 불연속 개수의 가능한 상태가 있도록 연속 데이터 집합의 값을 버킷에 넣는 프로세스입니다. 버킷 자체는 정렬된 불연속 값으로 처리됩니다. 숫자 및 문자열 열을 모두 불연속화할 수 있습니다.
데이터를 불연속화하는 데 사용할 수 있는 여러 가지 방법이 있습니다. 각 방법은 다음 코드 예의 수식을 사용하여 생성할 버킷 수를 자동으로 계산합니다.
Number of Buckets = sqrt(n)
이 코드 예에서 n은 열에 포함된 불연속 데이터 값의 수입니다. Analysis Services 에서 버킷 수를 계산하지 않으려면 DiscretizationBuckets 속성을 사용하여 버킷 수를 수동으로 지정할 수 있습니다.
다음 표에서는 Analysis Services 에서 데이터를 불연속화하는 데 사용할 수 있는 방법을 설명합니다.
불연속화 방법 | 설명 |
---|---|
AUTOMATIC |
Analysis Services 에서 사용할 불연속화 방법을 결정합니다. |
CLUSTERS |
이 알고리즘은 성향 습득 데이터를 샘플링하여 임의의 지점 수로 초기화하고 EM(Expectation Maximization) 클러스터링 방법으로 Microsoft 클러스터링 알고리즘을 여러 번 반복 실행하여 데이터를 그룹으로 나눕니다. CLUSTERS 방법은 모든 분포 곡선에서 실행되기 때문에 유용합니다. 그러나 다른 불연속화 방법보다 처리 시간이 오래 걸립니다. 이 방법은 숫자 열에만 사용할 수 있습니다. |
EQUAL_AREAS |
이 알고리즘은 각 그룹에 동일한 수의 값이 포함되도록 데이터를 그룹으로 나눕니다. 이 방법은 정규 분포 곡선에 가장 효과적이며 연속 데이터의 제한된 그룹에 많은 값이 포함된 분포에서는 제대로 실행되지 않습니다. 예를 들어 사례 다이어그램에 지정된 주문 항목 중 절반의 Cost 값이 0인 경우 데이터의 절반이 곡선의 한 점에서 발생합니다. 이러한 분포에서 이 방법은 여러 영역에 같은 불연속화를 설정하기 위해 데이터를 분리하므로 데이터가 잘못 표현됩니다. |
EQUAL_AREAS 방법을 사용하여 문자열을 불연속화할 수 있습니다.
CLUSTERS 및 THRESHOLDS 방법은 1000개 레코드의 무작위 샘플링을 사용하여 데이터를 불연속화합니다. 알고리즘에서 데이터를 샘플링하지 않으려면 EQUAL_AREAS 방법을 사용합니다.
참고 항목
개념
내용 유형(데이터 마이닝)
데이터 마이닝 알고리즘
마이닝 구조(Analysis Services)
데이터 형식(데이터 마이닝)