Compartir a través de


ClusterDistance (DMX)

Se aplica a: SQL Server Analysis Services

La función ClusterDistance devuelve la distancia del caso de entrada del clúster especificado o, si no se especifica ningún clúster, la distancia del caso de entrada del clúster más probable.

Sintaxis

  
ClusterDistance([<ClusterID expression>])  

Se aplica a

Esta función solo se puede utilizar si el modelo de minería de datos subyacente admite la agrupación en clústeres. La función se puede utilizar con cualquier tipo de modelo de agrupación en clústeres (EM, mediana-K, etc.), pero los resultados difieren según el algoritmo.

Tipo devuelto

Un valor escalar.

Comentarios

La función ClusterDistance devuelve la distancia entre el caso de entrada y el clúster que tiene la mayor probabilidad de ese caso de entrada.

En el caso de la agrupación en clústeres mediana-K, dado que cualquier caso puede pertenecer a un único clúster, con un peso de pertenencia de 1.0, la distancia del clúster siempre es 0. Sin embargo, se supone que con mediana-K, cada clúster tiene un centroide. Puede obtener el valor del centroide consultando o examinando la tabla anidada NODE_DISTRIBUTION en el contenido del modelo de minería de datos. Para obtener más información, vea Contenido del modelo de minería de datos para los modelos de agrupación en clústeres (Analysis Services - Minería de datos).

En el caso del método de agrupación en clústeres EM predeterminado, todos los puntos dentro del clúster se consideran igualmente probables; por consiguiente, por diseño no hay centroide para el clúster. El valor de ClusterDistance entre un caso determinado y un clúster N determinado se calcula de la siguiente manera:

ClusterDistance(N) =1-(membershipWeight(N))

O:

ClusterDistance(N) =1-ClusterProbability (N))

Analysis Services proporciona las siguientes funciones adicionales para consultar modelos de agrupación en clústeres:

  • Use la función Cluster (DMX) para devolver el clúster más probable.

  • Use la función ClusterProbability (DMX) para obtener la probabilidad de que un caso pertenezca a un clúster determinado. Este valor actúa como la inversa de la distancia del clúster.

  • Use la función PredictHistogram (DMX) para devolver un histograma de la probabilidad del caso de entrada existente en cada uno de los clústeres del modelo.

  • Use la función PredictCaseLikelihood (DMX) para devolver una medida de 0 a 1 que indica la probabilidad de que exista un caso de entrada teniendo en cuenta el modelo aprendido por el algoritmo.

Ejemplo 1: obtener la distancia de clúster para el clúster más probable

En el ejemplo siguiente se devuelve la distancia del caso especificado para el clúster al que es más probable que el caso pertenezca.

SELECT  
    ClusterDistance()  
FROM  
    [TM Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 28 AS [Age],  
    '2-5 Miles' AS [Commute Distance],  
    'Graduate Degree' AS [Education],  
    0 AS [Number Cars Owned],  
    0 AS [Number Children At Home]) AS t  

Resultados de ejemplo:

Expresión
0.0477390930705145

Para averiguar qué clúster es este, puede sustituir Cluster por ClusterDistance en el ejemplo anterior.

Resultados de ejemplo:

$CLUSTER
Clúster 6

Ejemplo 2: obtener la distancia a un clúster especificado

La siguiente sintaxis usa el conjunto de filas de esquema del contenido del modelo de minería de datos para devolver la lista de identificadores de nodo y títulos de nodo para los clústeres que existen en el modelo de minería de datos. A continuación, puede usar el título del nodo como argumento de identificador de clúster en la función ClusterDistance .

SELECT NODE_UNIQUE_NAME, NODE_CAPTION   
FROM <model>.CONTENT   
WHERE NODE_TYPE = 5  

Resultados de ejemplo:

NODE_UNIQUE_NAME NODE_CAPTION
001 Clúster 1
002 Clúster 2

El ejemplo de sintaxis siguiente devuelve la distancia del caso especificado desde el clúster con la etiqueta Cluster 2.

SELECT  
    ClusterDistance('Cluster 2')  
AS [Cluster 2 Distance]  
FROM [TM Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 28 AS [Age],  
    '2-5 Miles' AS [Commute Distance],  
    'Graduate Degree' AS [Education],  
    0 AS [Number Cars Owned],  
    0 AS [Number Children At Home]) AS t  

Resultados de ejemplo:

Cluster 2 Distance
0.97008209236394

Consulte también

Clúster (DMX)
Referencia de funciones de extensiones de minería de datos (DMX)
Funciones (DMX)
Contenido del modelo de minería de datos para los modelos de agrupación en clústeres (Analysis Services - Minería de datos)