ClusterDistance(DMX)

아티클
07/04/2024

적용 대상: SQL Server Analysis Services

ClusterDistance 함수는 지정된 클러스터에서 입력 사례의 거리를 반환하거나 클러스터가 지정되지 않은 경우 가장 가능성이 큰 클러스터에서 입력 사례의 거리를 반환합니다.

구문

  
ClusterDistance([<ClusterID expression>])

적용 대상

이 함수는 기본 데이터 마이닝 모델이 클러스터링을 지원하는 경우에만 사용할 수 있습니다. 함수는 모든 종류의 클러스터링 모델(EM, K-평균 등)과 함께 사용할 수 있지만 결과는 알고리즘에 따라 다릅니다.

반환 형식

스칼라 값입니다.

설명

ClusterDistance 함수는 입력 사례와 해당 입력 사례에 대한 확률이 가장 높은 클러스터 사이의 거리를 반환합니다.

K-평균 클러스터링의 경우 멤버 자격 가중치가 1.0인 하나의 클러스터에만 속할 수 있으므로 클러스터 거리는 항상 0입니다. 그러나 K-Means에서는 각 클러스터에 중심이 있는 것으로 간주됩니다. 마이닝 모델 콘텐츠에서 NODE_DISTRIBUTION 중첩 테이블을 쿼리하거나 검색하여 중심 값을 가져올 수 있습니다. 자세한 내용은 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

기본 EM 클러스터링 방법의 경우 클러스터 내의 모든 지점이 동일하게 고려됩니다. 따라서 의도적으로 클러스터에 대한 중심이 없습니다. 특정 사례와 특정 클러스터 N 간의 ClusterDistance 값은 다음과 같이 계산됩니다.

ClusterDistance(N) =1-(membershipWeight(N))

또는

ClusterDistance(N) =1-ClusterProbability(N))

Analysis Services는 클러스터링 모델을 쿼리하기 위한 다음과 같은 추가 함수를 제공합니다.

클러스터(DMX) 함수를 사용하여 가장 가능성이 큰 클러스터를 반환합니다.
DMX(ClusterProbability) 함수를 사용하여 사례가 특정 클러스터에 속할 확률을 가져옵니다. 이 값은 클러스터 거리의 역수가 됩니다.
DMX(PredictHistogram) 함수를 사용하여 각 모델의 클러스터에 입력 사례가 존재할 가능성이 있는 히스토그램을 반환합니다.
PredictCaseLikelihood(DMX) 함수를 사용하여 알고리즘에서 학습한 모델을 고려하여 입력 사례가 존재할 가능성이 얼마나 되는지를 나타내는 측정값을 0에서 1로 반환합니다.

예제1: 가장 가능성이 큰 클러스터까지의 클러스터 거리 가져오기

다음 예에서는 지정된 사례와 해당 사례가 속할 가능성이 가장 높은 클러스터 사이의 거리를 반환합니다.

SELECT  
    ClusterDistance()  
FROM  
    [TM Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 28 AS [Age],  
    '2-5 Miles' AS [Commute Distance],  
    'Graduate Degree' AS [Education],  
    0 AS [Number Cars Owned],  
    0 AS [Number Children At Home]) AS t

결과 예:

식
0.0477390930705145

이 클러스터를 확인하려면 이전 샘플에서 대체할 Cluster ClusterDistance 수 있습니다.

결과 예:

$CLUSTER
클러스터 6

예제2: 지정된 클러스터까지의 거리 가져오기

다음 구문에서는 마이닝 모델 콘텐츠 스키마 행 집합을 사용하여 마이닝 모델의 클러스터에 대한 노드 ID 및 노드 캡션 목록을 반환합니다. 그런 다음 ClusterDistance 함수에서 노드 캡션을 클러스터 식별자 인수로 사용할 수 있습니다.

SELECT NODE_UNIQUE_NAME, NODE_CAPTION   
FROM <model>.CONTENT   
WHERE NODE_TYPE = 5

결과 예:

NODE_UNIQUE_NAME	NODE_CAPTION
001	클러스터 1
002	클러스터 2

다음 구문 예에서는 지정된 사례와 Cluster 2라는 클러스터 사이의 거리를 반환합니다.

SELECT  
    ClusterDistance('Cluster 2')  
AS [Cluster 2 Distance]  
FROM [TM Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 28 AS [Age],  
    '2-5 Miles' AS [Commute Distance],  
    'Graduate Degree' AS [Education],  
    0 AS [Number Cars Owned],  
    0 AS [Number Children At Home]) AS t

결과 예:

클러스터 2 거리
0.97008209236394

참고 항목

클러스터(DMX)
DMX(데이터 마이닝 확장) 함수 참조
함수(DMX)
클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)

다음을 통해 공유

ClusterDistance(DMX)

구문

적용 대상

반환 형식

설명

예제1: 가장 가능성이 큰 클러스터까지의 클러스터 거리 가져오기

예제2: 지정된 클러스터까지의 거리 가져오기

참고 항목

피드백

추가 리소스

다음을 통해 공유

ClusterDistance(DMX)

구문

적용 대상

반환 형식

설명

관련 예측 함수

예제1: 가장 가능성이 큰 클러스터까지의 클러스터 거리 가져오기

예제2: 지정된 클러스터까지의 거리 가져오기

참고 항목

피드백

추가 리소스