ClusterDistance (DMX)
Die ClusterDistance-Funktion gibt den Abstand des Eingabefalls von dem angegebenen Cluster wieder, beziehungsweise, wenn kein Cluster angegeben wurde, den Abstand des Eingabefalls von dem wahrscheinlichsten Cluster.
Syntax
ClusterDistance([<ClusterID expression>])
Betrifft
Diese Funktion kann nur verwendet werden, wenn das zugrunde liegende Data Mining-Modell Cluster unterstützt. Die Funktion kann mit jedem Clusteringmodell verwendet werden (EM, K-Means usw.), die Ergebnisse unterscheiden sich jedoch in Abhängigkeit von dem Algorithmus.
Rückgabetypen
Ein Skalarwert.
Hinweise
Die ClusterDistance-Funktion gibt den Abstand zwischen dem Eingabefall und dem Cluster mit der höchsten Wahrscheinlichkeit für diesen Eingabefall zurück.
Im Fall von K-Means-Clustering, bei dem jeder Fall nur zu einem Cluster gehören kann und die Mitgliedschaftsgewichtung 1,0 beträgt, ist der Clusterabstand immer 0. In K-Means wird jedoch davon ausgegangen, dass jeder Cluster einen Schwerpunkt besitzt. Sie können den Wert des Schwerpunkts abrufen, indem Sie im Miningmodellinhalt die geschachtelte Tabelle NODE_DISTRIBUTION abfragen oder durchsuchen. Weitere Informationen hierzu finden Sie unter Mingingmodellinhalt von Clusteringmodellen (Analysis Services - Data Mining).
Im Fall der standardmäßigen EM-Clusteringmethode werden alle Punkte innerhalb des Clusters als gleich wahrscheinlich betrachtet, daher ist programmbedingt kein Schwerpunkt für den Cluster vorhanden. Der Wert von ClusterDistance zwischen einem bestimmten Fall und einem bestimmten Cluster N wird folgendermaßen berechnet:
ClusterDistance(N) =1–(membershipWeight(N))
Oder
ClusterDistance(N) =1–ClusterProbability (N))
Zugehörige Vorhersagefunktionen
Analysis Services stellt folgende zusätzliche Funktionen für die Abfrage von Clusteringmodellen bereit:
Den Cluster mit der höchsten Wahrscheinlichkeit können Sie mit Cluster (DMX) zurückgeben.
Die Wahrscheinlichkeit, dass ein Fall zu einem bestimmten Cluster gehört, können Sie mit der ClusterProbability (DMX)-Funktion abrufen. Dieser Wert stellt die Umkehrung des Clusterabstands dar.
Ein Histogramm mit der Wahrscheinlichkeit, dass der Eingabefall in jedem Cluster des Modells vorhanden ist, geben Sie mit der PredictHistogram (DMX)-Funktion zurück.
Ein Measure von 0 bis 1, das die Wahrscheinlichkeit angibt, dass ein Eingabefall in Anbetracht des vom Algorithmus erfassten Modells vorhanden ist, geben Sie mit der PredictCaseLikelihood (DMX)-Funktion zurück.
Beispiel 1: Abrufen des Clusterabstands zum wahrscheinlichsten Cluster
Im folgenden Beispiel wird der Abstand von dem angegebenen Fall zu dem Cluster angegeben, zu dem der Fall höchstwahrscheinlich gehört.
SELECT
ClusterDistance()
FROM
[TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Beispielergebnisse:
Expression |
---|
0.0477390930705145 |
Sie können im vorstehenden Beispiel Cluster durch ClusterDistance ersetzen, um festzustellen, um welchen Cluster es sich handelt.
Beispielergebnisse:
$CLUSTER |
---|
Cluster 6 |
Beispiel 2: Abrufen des Abstands zu einem bestimmten Cluster
In der folgenden Syntax wird das Schemarowset für den Inhalt eines Miningmodells verwendet, um eine Liste mit Knoten-IDs und Knotenbeschriftungen für die Cluster zurückzugeben, die im Miningmodell vorhanden sind. Sie können in der ClusterDistance-Funktion die Knotenbeschriftung als Clusterbezeichnerargument verwenden.
SELECT NODE_UNIQUE_NAME, NODE_CAPTION
FROM <model>.CONTENT
WHERE NODE_TYPE = 5
Beispielergebnisse:
NODE_UNIQUE_NAME |
NODE_CAPTION |
---|---|
001 |
Cluster 1 |
002 |
Cluster 2 |
Im folgenden Syntaxbeispiel wird der Abstand zwischen dem angegebenen Fall und dem Cluster mit der Bezeichnung Cluster 2 zurückgeben.
SELECT
ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Beispielergebnisse:
Cluster 2 Distance |
---|
0.97008209236394 |