ClusterDistance (DMX)
S’applique à : SQL Server Analysis Services
La fonction ClusterDistance retourne la distance du cas d’entrée du cluster spécifié ou, si aucun cluster n’est spécifié, la distance du cas d’entrée du cluster le plus probable.
Syntaxe
ClusterDistance([<ClusterID expression>])
S’applique à
Cette fonction ne peut être utilisée que si le modèle d'exploration de données sous-jacent prend en charge le clustering. La fonction peut être utilisée avec n'importe quel type de modèle de clustering (EM, K-Means, etc.), mais les résultats diffèrent selon l'algorithme.
Type renvoyé
Valeur scalaire.
Notes
La fonction ClusterDistance retourne la distance entre le cas d’entrée et le cluster qui a la probabilité la plus élevée pour ce cas d’entrée.
En cas de clustering K-Means, puisque les cas ne peuvent appartenir qu'à un seul cluster, avec un poids d'appartenance de 1, la distance de cluster est toujours 0. Toutefois, dans le cas de K-Means, chaque cluster est supposé avoir un centroïde. Vous pouvez obtenir la valeur du centroïde en interrogeant ou en parcourant la table imbriquée NODE_DISTRIBUTION dans le contenu du modèle d'exploration de données. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de clustering (Analysis Services - Exploration de données).
Dans le cas de la méthode de clustering EM, tous les points à l'intérieur du cluster sont considérés comme ayant la même probabilité ; il n'ya donc pas, par définition, de centroïde pour le cluster par conception. La valeur de ClusterDistance entre un cas particulier et un cluster N particulier est calculée comme suit :
ClusterDistance(N) =1-(membershipWeight(N))
Ou :
ClusterDistance(N) =1-ClusterProbability (N))
Fonctions de prédiction connexes
Analysis Services fournit les fonctions supplémentaires suivantes pour interroger des modèles de clustering :
Utilisez la fonction Cluster (DMX) pour retourner le cluster le plus probable.
Utilisez la fonction ClusterProbability (DMX) pour obtenir la probabilité qu’un cas appartient à un cluster particulier. Cette valeur est l'inverse de la distance de cluster.
Utilisez la fonction PredictHistogram (DMX) pour renvoyer un histogramme de la probabilité de la casse d’entrée existante dans chacun des clusters du modèle.
Utilisez la fonction PredictCaseLikelihood (DMX) pour retourner une mesure comprise entre 0 et 1 qui indique la probabilité qu’un cas d’entrée existe en tenant compte du modèle appris par l’algorithme.
Exemple 1 : obtention de la distance de cluster au cluster le plus probable
L'exemple suivant retourne la distance séparant le cas spécifié du cluster auquel il est le plus susceptible d'appartenir.
SELECT
ClusterDistance()
FROM
[TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Résultats de l'exemple :
Expression |
---|
0.0477390930705145 |
Pour déterminer de quel cluster il s'agit, vous pouvez substituer Cluster
à ClusterDistance
dans l'exemple précédent.
Résultats de l'exemple :
$CLUSTER |
---|
Cluster 6 |
Exemple 2 : obtention de la distance à un cluster spécifié
La syntaxe suivante utilise l'ensemble de lignes du schéma Content du modèle d'exploration de données pour retourner la liste des ID et légendes de nœud des clusters du modèle. Vous pouvez ensuite utiliser la légende du nœud comme argument d’identificateur de cluster dans la fonction ClusterDistance .
SELECT NODE_UNIQUE_NAME, NODE_CAPTION
FROM <model>.CONTENT
WHERE NODE_TYPE = 5
Résultats de l'exemple :
NODE_UNIQUE_NAME | NODE_CAPTION |
---|---|
001 | Cluster 1 |
002 | Cluster 2 |
L'exemple de syntaxe suivant retourne la distance séparant le cas spécifié du cluster appelé Cluster 2.
SELECT
ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Résultats de l'exemple :
Cluster 2 Distance |
---|
0.97008209236394 |
Voir aussi
Cluster (DMX)
Informations de référence sur les fonctions DMX (Data Mining Extensions)
Fonctions (DMX)
Contenu du modèle d’exploration de données pour les modèles de clustering (Analysis Services - Exploration de données)