ClusterDistance (DMX)
Se aplica a: SQL Server Analysis Services
La función ClusterDistance devuelve la distancia del caso de entrada del clúster especificado o, si no se especifica ningún clúster, la distancia del caso de entrada del clúster más probable.
Sintaxis
ClusterDistance([<ClusterID expression>])
Se aplica a
Esta función solo se puede utilizar si el modelo de minería de datos subyacente admite la agrupación en clústeres. La función se puede utilizar con cualquier tipo de modelo de agrupación en clústeres (EM, mediana-K, etc.), pero los resultados difieren según el algoritmo.
Tipo devuelto
Un valor escalar.
Comentarios
La función ClusterDistance devuelve la distancia entre el caso de entrada y el clúster que tiene la mayor probabilidad de ese caso de entrada.
En el caso de la agrupación en clústeres mediana-K, dado que cualquier caso puede pertenecer a un único clúster, con un peso de pertenencia de 1.0, la distancia del clúster siempre es 0. Sin embargo, se supone que con mediana-K, cada clúster tiene un centroide. Puede obtener el valor del centroide consultando o examinando la tabla anidada NODE_DISTRIBUTION en el contenido del modelo de minería de datos. Para obtener más información, vea Contenido del modelo de minería de datos para los modelos de agrupación en clústeres (Analysis Services - Minería de datos).
En el caso del método de agrupación en clústeres EM predeterminado, todos los puntos dentro del clúster se consideran igualmente probables; por consiguiente, por diseño no hay centroide para el clúster. El valor de ClusterDistance entre un caso determinado y un clúster N determinado se calcula de la siguiente manera:
ClusterDistance(N) =1-(membershipWeight(N))
O:
ClusterDistance(N) =1-ClusterProbability (N))
Funciones de predicción relacionadas
Analysis Services proporciona las siguientes funciones adicionales para consultar modelos de agrupación en clústeres:
Use la función Cluster (DMX) para devolver el clúster más probable.
Use la función ClusterProbability (DMX) para obtener la probabilidad de que un caso pertenezca a un clúster determinado. Este valor actúa como la inversa de la distancia del clúster.
Use la función PredictHistogram (DMX) para devolver un histograma de la probabilidad del caso de entrada existente en cada uno de los clústeres del modelo.
Use la función PredictCaseLikelihood (DMX) para devolver una medida de 0 a 1 que indica la probabilidad de que exista un caso de entrada teniendo en cuenta el modelo aprendido por el algoritmo.
Ejemplo 1: obtener la distancia de clúster para el clúster más probable
En el ejemplo siguiente se devuelve la distancia del caso especificado para el clúster al que es más probable que el caso pertenezca.
SELECT
ClusterDistance()
FROM
[TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Resultados de ejemplo:
Expresión |
---|
0.0477390930705145 |
Para averiguar qué clúster es este, puede sustituir Cluster
por ClusterDistance
en el ejemplo anterior.
Resultados de ejemplo:
$CLUSTER |
---|
Clúster 6 |
Ejemplo 2: obtener la distancia a un clúster especificado
La siguiente sintaxis usa el conjunto de filas de esquema del contenido del modelo de minería de datos para devolver la lista de identificadores de nodo y títulos de nodo para los clústeres que existen en el modelo de minería de datos. A continuación, puede usar el título del nodo como argumento de identificador de clúster en la función ClusterDistance .
SELECT NODE_UNIQUE_NAME, NODE_CAPTION
FROM <model>.CONTENT
WHERE NODE_TYPE = 5
Resultados de ejemplo:
NODE_UNIQUE_NAME | NODE_CAPTION |
---|---|
001 | Clúster 1 |
002 | Clúster 2 |
El ejemplo de sintaxis siguiente devuelve la distancia del caso especificado desde el clúster con la etiqueta Cluster 2.
SELECT
ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Resultados de ejemplo:
Cluster 2 Distance |
---|
0.97008209236394 |
Consulte también
Clúster (DMX)
Referencia de funciones de extensiones de minería de datos (DMX)
Funciones (DMX)
Contenido del modelo de minería de datos para los modelos de agrupación en clústeres (Analysis Services - Minería de datos)