다음을 통해 공유


Microsoft 클러스터링 알고리즘

Microsoft 클러스터링 알고리즘은 Analysis Services에서 제공하는 분할 알고리즘입니다. 이 알고리즘은 반복 기술을 사용하여 데이터 세트의 사례를 유사한 특성을 포함하는 클러스터로 그룹화합니다. 이러한 그룹화는 데이터를 탐색하고, 데이터의 변칙을 식별하고, 예측을 만드는 데 유용합니다.

클러스터링 모델은 비정상 관찰을 통해 논리적으로 파생되지 않을 수 있는 데이터 세트의 관계를 식별합니다. 예를 들어 자전거로 출퇴근하는 사람들은 일반적으로 직장에서 먼 거리에 살지 않는다는 것을 논리적으로 분별할 수 있습니다. 그러나 알고리즘은 명확하지 않은 자전거 통근자에 대한 다른 특성을 찾을 수 있습니다. 다음 다이어그램에서 클러스터 A는 운전을 하는 경향이 있는 사람에 대한 데이터를 나타내고, 클러스터 B는 자전거를 타고 일하는 경향이 있는 사람에 대한 데이터를 나타냅니다.

통근 경향의 클러스터 패턴

클러스터링 알고리즘은 클러스터링 모델을 빌드할 수 있도록 예측 가능한 열을 지정할 필요가 없다는 점에서 Microsoft 의사 결정 트리 알고리즘과 같은 다른 데이터 마이닝 알고리즘과 다릅니다. 클러스터링 알고리즘은 데이터에 있는 관계와 알고리즘이 식별하는 클러스터에서 모델을 엄격하게 학습시킵니다.

예시

유사한 인구 통계 정보를 공유하고 Adventure Works 회사에서 유사한 제품을 구매하는 사용자 그룹을 고려해 보세요. 이 사용자 그룹은 데이터 클러스터를 나타냅니다. 이러한 여러 클러스터가 데이터베이스에 있을 수 있습니다. 클러스터를 구성하는 열을 관찰하면 데이터 세트의 레코드가 서로 어떻게 관련되어 있는지 보다 명확하게 확인할 수 있습니다.

알고리즘 작동 방식

Microsoft 클러스터링 알고리즘은 먼저 데이터 세트의 관계를 식별하고 이러한 관계를 기반으로 일련의 클러스터를 생성합니다. 산점도는 다음 다이어그램과 같이 알고리즘이 데이터를 그룹화하는 방법을 시각적으로 나타내는 유용한 방법입니다. 산점도는 데이터 세트의 모든 사례를 나타내며 각 사례는 그래프의 한 지점입니다. 클러스터는 그래프상의 지점을 그룹화하고 알고리즘이 식별한 관계를 설명합니다.

데이터 세트의 케이스 산점도

먼저 클러스터를 정의한 후 알고리즘은 클러스터가 지점 그룹화의 얼마나 잘 나타내는지 계산한 다음, 그룹을 다시 정의하여 데이터를 더 잘 나타내는 클러스터를 만듭니다. 알고리즘은 클러스터를 다시 정의하여 결과를 더 개선할 수 없을 때까지 이 프로세스를 반복합니다.

클러스터링 기술을 지정하거나, 최대 클러스터 수를 제한하거나, 클러스터를 만드는 데 필요한 지원 양을 변경하여 알고리즘의 작동 방식을 사용자 지정할 수 있습니다. 자세한 내용은 Microsoft 클러스터링 알고리즘 기술 참조를 참조하세요.

클러스터링 모델에 필요한 데이터

클러스터링 모델 학습에 사용할 데이터를 준비할 때 필요한 데이터의 양과 데이터 사용 방법을 포함하여 특정 알고리즘에 대한 요구 사항을 이해해야 합니다.

클러스터링 모델에 대한 요구 사항은 다음과 같습니다.

  • 단일 키 열 각 모델에는 각 레코드를 고유하게 식별하는 하나의 숫자 또는 텍스트 열이 포함되어야 합니다. 복합 키는 허용되지 않습니다.

  • 입력 열 각 모델에는 클러스터를 빌드하는 데 사용되는 값이 포함된 하나 이상의 입력 열이 포함되어야 합니다. 입력 열을 원하는 만큼 많이 사용할 수 있지만 각 열의 값 수에 따라 추가 열을 추가하면 모델을 학습하는 데 걸리는 시간이 늘어나게 됩니다.

  • 선택적 예측 가능한 열 알고리즘은 모델을 빌드하기 위해 예측 가능한 열이 필요하지 않지만 거의 모든 데이터 형식의 예측 가능한 열을 추가할 수 있습니다. 예측 가능한 열의 값은 클러스터링 모델에 대한 입력으로 처리되거나 예측에만 사용하도록 지정할 수 있습니다. 예를 들어 지역 또는 연령과 같은 인구 통계를 클러스터링하여 고객 소득을 예측하려는 경우 소득을 입력으로 PredictOnly 지정하고 지역 또는 연령과 같은 다른 모든 열을 입력으로 추가합니다.

클러스터링 모델에 지원되는 콘텐츠 형식 및 데이터 형식에 대한 자세한 내용은 Microsoft 클러스터링 알고리즘 기술 참조의 요구 사항 섹션을 참조하세요.

클러스터링 모델 보기

모델을 탐색하려면 Microsoft 클러스터 뷰어를 사용할 수 있습니다. 클러스터링 모델을 볼 때 Analysis Services는 클러스터 간의 관계를 보여 주는 다이어그램에 클러스터를 표시하고 각 클러스터의 자세한 프로필, 각 클러스터를 다른 클러스터와 구별하는 특성 목록 및 전체 학습 데이터 집합의 특성을 제공합니다. 자세한 내용은 Microsoft 클러스터 뷰어를 사용하여 모델 찾아보기를 참조하세요.

자세한 내용을 확인하려면 Microsoft 일반 콘텐츠 트리 뷰어에서 모델을 찾아볼 수 있습니다. 모델에 대해 저장된 콘텐츠에는 각 노드의 모든 값에 대한 분포, 각 클러스터의 확률 및 기타 정보가 포함됩니다. 자세한 내용은 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

예측 만들기

모델을 학습한 후에는 결과를 패턴 집합으로 저장합니다. 이 패턴은 예측에 대해 탐색하거나 사용할 수 있습니다.

검색된 클러스터에 새 데이터가 맞는지 여부에 대한 예측을 반환하거나 클러스터에 대한 설명 통계를 가져오는 쿼리를 만들 수 있습니다.

데이터 마이닝 모델에 대한 쿼리를 만드는 방법에 대한 자세한 내용은 데이터 마이닝 쿼리를 참조하세요. 클러스터링 모델에서 쿼리를 사용하는 방법에 대한 예제는 클러스터링 모델 쿼리 예제를 참조하세요.

비고

  • PMML(예측 모델 태그 언어)을 사용하여 마이닝 모델을 만들도록 지원합니다.

  • 드릴스루 기능을 지원합니다.

  • OLAP 마이닝 모델 사용 및 데이터 마이닝 차원 생성을 지원합니다.

또한 참조하십시오

데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)클러스터링 모델에 대한 Microsoft 클러스터링 알고리즘 기술 참조마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)클러스터링 모델 쿼리 예제