ClusterDistance(DMX)
적용 대상: SQL Server Analysis Services
ClusterDistance 함수는 지정된 클러스터에서 입력 사례의 거리를 반환하거나 클러스터가 지정되지 않은 경우 가장 가능성이 큰 클러스터에서 입력 사례의 거리를 반환합니다.
구문
ClusterDistance([<ClusterID expression>])
적용 대상
이 함수는 기본 데이터 마이닝 모델이 클러스터링을 지원하는 경우에만 사용할 수 있습니다. 함수는 모든 종류의 클러스터링 모델(EM, K-평균 등)과 함께 사용할 수 있지만 결과는 알고리즘에 따라 다릅니다.
반환 형식
스칼라 값입니다.
설명
ClusterDistance 함수는 입력 사례와 해당 입력 사례에 대한 확률이 가장 높은 클러스터 사이의 거리를 반환합니다.
K-평균 클러스터링의 경우 멤버 자격 가중치가 1.0인 하나의 클러스터에만 속할 수 있으므로 클러스터 거리는 항상 0입니다. 그러나 K-Means에서는 각 클러스터에 중심이 있는 것으로 간주됩니다. 마이닝 모델 콘텐츠에서 NODE_DISTRIBUTION 중첩 테이블을 쿼리하거나 검색하여 중심 값을 가져올 수 있습니다. 자세한 내용은 클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.
기본 EM 클러스터링 방법의 경우 클러스터 내의 모든 지점이 동일하게 고려됩니다. 따라서 의도적으로 클러스터에 대한 중심이 없습니다. 특정 사례와 특정 클러스터 N 간의 ClusterDistance 값은 다음과 같이 계산됩니다.
ClusterDistance(N) =1-(membershipWeight(N))
또는
ClusterDistance(N) =1-ClusterProbability(N))
관련 예측 함수
Analysis Services는 클러스터링 모델을 쿼리하기 위한 다음과 같은 추가 함수를 제공합니다.
클러스터(DMX) 함수를 사용하여 가장 가능성이 큰 클러스터를 반환합니다.
DMX(ClusterProbability) 함수를 사용하여 사례가 특정 클러스터에 속할 확률을 가져옵니다. 이 값은 클러스터 거리의 역수가 됩니다.
DMX(PredictHistogram) 함수를 사용하여 각 모델의 클러스터에 입력 사례가 존재할 가능성이 있는 히스토그램을 반환합니다.
PredictCaseLikelihood(DMX) 함수를 사용하여 알고리즘에서 학습한 모델을 고려하여 입력 사례가 존재할 가능성이 얼마나 되는지를 나타내는 측정값을 0에서 1로 반환합니다.
예제1: 가장 가능성이 큰 클러스터까지의 클러스터 거리 가져오기
다음 예에서는 지정된 사례와 해당 사례가 속할 가능성이 가장 높은 클러스터 사이의 거리를 반환합니다.
SELECT
ClusterDistance()
FROM
[TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
결과 예:
식 |
---|
0.0477390930705145 |
이 클러스터를 확인하려면 이전 샘플에서 대체할 Cluster
ClusterDistance
수 있습니다.
결과 예:
$CLUSTER |
---|
클러스터 6 |
예제2: 지정된 클러스터까지의 거리 가져오기
다음 구문에서는 마이닝 모델 콘텐츠 스키마 행 집합을 사용하여 마이닝 모델의 클러스터에 대한 노드 ID 및 노드 캡션 목록을 반환합니다. 그런 다음 ClusterDistance 함수에서 노드 캡션을 클러스터 식별자 인수로 사용할 수 있습니다.
SELECT NODE_UNIQUE_NAME, NODE_CAPTION
FROM <model>.CONTENT
WHERE NODE_TYPE = 5
결과 예:
NODE_UNIQUE_NAME | NODE_CAPTION |
---|---|
001 | 클러스터 1 |
002 | 클러스터 2 |
다음 구문 예에서는 지정된 사례와 Cluster 2라는 클러스터 사이의 거리를 반환합니다.
SELECT
ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
결과 예:
클러스터 2 거리 |
---|
0.97008209236394 |
참고 항목
클러스터(DMX)
DMX(데이터 마이닝 확장) 함수 참조
함수(DMX)
클러스터링 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)