Condividi tramite


ClusterDistance (DMX)

La funzione ClusterDistance restituisce la distanza del case di input dal cluster specificato o la distanza del case di input dal cluster più probabile, se non viene specificato alcun cluster.

Sintassi

ClusterDistance([<ClusterID expression>])

Si applica a

È possibile utilizzare questa funzione solo se il modello di data mining sottostante supporta il clustering. La funzione può essere utilizzata con qualsiasi tipo di modello di clustering (EM, K-medie, ecc.), ma i risultati variano in base all'algoritmo.

Tipo restituito

Valore scalare.

Osservazioni

La funzione ClusterDistance restituisce la distanza tra il case di input e il cluster con la probabilità più alta per il case di input.

Poiché con il clustering K-medie un case può appartenere solo a un cluster, la distanza del cluster è sempre 0 con un peso di appartenenza di 1.0. Tuttavia, in K-medie si presuppone che per ogni cluster sia presente un centro. È possibile ottenere il valore del centro esplorando o eseguendo una query sulla tabella nidificata NODE_DISTRIBUTION nel contenuto del modello di data mining . Per ulteriori informazioni, vedere Contenuto dei modelli di data mining per i modelli di clustering (Analysis Services - Data mining).

Con il metodo di clustering predefinito EM tutti i punti nel cluster presentano la stessa probabilità; pertanto, per motivi strutturali non è previsto un centro per il cluster. Il valore di ClusterDistance tra un case specifico e un cluster specifico N viene calcolato come segue:

ClusterDistance(N) =1–(membershipWeight(N))

Oppure:

ClusterDistance(N) =1–ClusterProbability (N))

Funzioni di stima correlate

In Analysis Services sono disponibili le seguenti funzioni aggiuntive per l'esecuzione di query sui modelli di clustering:

  • Per restituire il cluster più probabile, utilizzare la funzione Cluster (DMX).

  • Per ottenere la probabilità che un case appartenga a un cluster specifico, utilizzare la funzione ClusterProbability (DMX). Questo valore viene utilizzato come valore inverso della distanza del cluster.

  • Per restituire un istogramma della probabilità dell'esistenza di un case di input in ognuno dei cluster del modello, utilizzare la funzione PredictHistogram (DMX).

  • Per restituire una misura da 0 a 1 che indichi la probabilità dell'esistenza di un case di input in base al modello appreso dall'algoritmo, utilizzare la funzione PredictCaseLikelihood (DMX).

Esempio 1: Acquisizione della distanza del cluster rispetto al cluster più probabile

Nell'esempio seguente viene restituita la distanza dal case specificato al cluster a cui appartiene il case più probabile.

SELECT
    ClusterDistance()
FROM
    [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Risultati dell'esempio:

Expression

0.0477390930705145

Per individuare il tipo di cluster, è possibile utilizzare Cluster al posto di ClusterDistance nell'esempio precedente.

Risultati dell'esempio:

$CLUSTER

Cluster 6

Esempio 2: Acquisizione della distanza rispetto a un cluster specificato

La sintassi seguente utilizza il set di righe dello schema relativo al contenuto del modello di data mining per restituire l'elenco degli ID dei nodi e le didascalie dei nodi per i cluster del modello di data mining. È possibile utilizzare quindi la didascalia del nodo come argomento per l'identificatore del cluster nella funzione ClusterDistance.

SELECT NODE_UNIQUE_NAME, NODE_CAPTION 
FROM <model>.CONTENT 
WHERE NODE_TYPE = 5

Risultati dell'esempio:

NODE_UNIQUE_NAME

NODE_CAPTION

001

Cluster 1

002

Cluster 2

Nell'esempio di sintassi seguente viene restituita la distanza del case specificato dal cluster con etichetta Cluster 2.

SELECT
    ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Risultati dell'esempio:

Cluster 2 Distance

0.97008209236394