Freigeben über


Inhalt von Miningmodellen für Cluster-Modelle (Analysis Services - Data Mining)

In diesem Thema werden Miningmodellinhalte beschrieben, die spezifisch für Modelle sind, die den Microsoft Clustering-Algorithmus verwenden. Eine allgemeine Erläuterung des Miningmodellinhalts für alle Modelltypen finden Sie unter Mining-Modellinhalt (Analysis Services - Data Mining).

Grundlegendes zur Struktur eines Clusteringmodells

Ein Clustermodell verfügt über eine einfache Struktur. Jedes Modell verfügt über einen einzelnen übergeordneten Knoten, der das Modell und seine Metadaten darstellt, und jeder übergeordnete Knoten verfügt über eine flache Liste von Clustern (NODE_TYPE = 5). Diese Organisation ist in der folgenden Abbildung dargestellt.

Struktur des Modellinhalts für das Clustering

Jeder untergeordnete Knoten stellt einen einzelnen Cluster dar und enthält detaillierte Statistiken zu den Attributen der Fälle in diesem Cluster. Dies umfasst die Anzahl der Fälle im Cluster und die Verteilung von Werten, die den Cluster von anderen Clustern unterscheiden.

Hinweis

Sie müssen die Knoten nicht durchlaufen, um eine Anzahl oder Beschreibung der Cluster abzurufen. Der übergeordnete Modellknoten zählt auch und listet die Cluster auf.

Der übergeordnete Knoten enthält nützliche Statistiken, die die tatsächliche Verteilung aller Schulungsfälle beschreiben. Diese Statistiken werden in der geschachtelten Tabellenspalte NODE_DISTRIBUTION gefunden. In der folgenden Tabelle werden beispielsweise mehrere Zeilen aus der Tabelle NODE_DISTRIBUTION aufgeführt, die die Verteilung von Kundendemografien für das Clustermodell beschreiben, TM_Clusteringdie Sie im Lernprogramm zum Einfachen Data Mining erstellen:

ATTRIBUTE_NAME ATTRIBUT_WERT Alias WAHRSCHEINLICHKEIT ABWEICHUNG Wertetyp
Alter Fehlend 0 0 0 1 (Fehlt)
Alter 44.9016152716593 12939 1 125.663453102554 3 (fortlaufend)
Geschlecht Fehlend 0 0 0 1 (Fehlt)
Geschlecht F 6350 0.490764355823479 0 4 (diskret)
Geschlecht M 6589 0.509235644176521 0 4 (diskret)

Aus diesen Ergebnissen können Sie sehen, dass es 12939 Fälle gab, die zum Erstellen des Modells verwendet wurden, dass das Verhältnis von Männern zu Frauen etwa 50-50 betrug und dass das mittlere Alter 44 betrug. Die beschreibenden Statistiken variieren je nachdem, ob das gemeldete Attribut ein fortlaufender numerischer Datentyp ist, z. B. Alter oder diskreter Werttyp, z. B. Geschlecht. Die statistischen Kennzahlen Mittel - und Varianz werden für fortlaufende Datentypen berechnet, während Wahrscheinlichkeit und Unterstützung für diskrete Datentypen berechnet werden.

Hinweis

Die Varianz stellt die Gesamtabweichung für den Cluster dar. Wenn der Wert für die Varianz klein ist, gibt er an, dass die meisten Werte in der Spalte relativ nahe am Mittelwert waren. Um die Standardabweichung zu erhalten, berechnen Sie die Quadratwurzel der Varianz.

Beachten Sie, dass für jedes der Attribute ein Missing Werttyp vorhanden ist, der Ihnen angibt, wie viele Fälle keine Daten für dieses Attribut hatten. Fehlende Daten können signifikant sein und sich je nach Datentyp auf unterschiedliche Weise auf Berechnungen auswirken. Weitere Informationen finden Sie unter Fehlende Werte (Analysis Services – Data Mining).

Modellinhalt für ein Clusteringmodell

Dieser Abschnitt enthält Details und Beispiele nur für diese Spalten im Miningmodellinhalt, die für Clusteringmodelle relevant sind.

Informationen zu den allgemeinen Spalten im Schema-Rowset, z. B. MODEL_CATALOG und MODEL_NAME, finden Sie unter Mining Model Content (Analysis Services - Data Mining).For information about the general-purpose columns in the schema rowset, such as MODEL_CATALOG and MODEL_NAME, see Mining Model Content (Analysis Services - Data Mining).

MODELL_KATALOG
Name der Datenbank, in der das Modell gespeichert ist.

MODEL_NAME
Name des Modells.

ATTRIBUTE_NAME
Immer leer in Clusteringmodellen, da im Modus kein vorhersagbares Attribut vorhanden ist.

NODE_NAME
Identisch mit NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Ein eindeutiger Bezeichner für den Knoten innerhalb des Modells. Dieser Wert kann nicht geändert werden.

NODE_TYPE
Ein Clusteringmodell gibt die folgenden Knotentypen aus:

Knoten-ID und Name BESCHREIBUNG
1 (Modell) Stammknoten für Modell.
5 (Cluster) Enthält eine Anzahl von Fällen im Cluster, die Merkmale von Fällen im Cluster und Statistiken, die die Werte im Cluster beschreiben.

NODE_BESCHRIFTUNG
Ein freundlicher Name für Anzeigezwecke. Wenn Sie ein Modell erstellen, wird der Wert von NODE_UNIQUE_NAME automatisch als Beschriftung verwendet. Sie können den Wert für NODE_CAPTION jedoch ändern, um den Anzeigenamen für den Cluster programmgesteuert oder mithilfe des Viewers zu aktualisieren.

Hinweis

Wenn Sie das Modell erneut verarbeiten, werden alle Namensänderungen durch die neuen Werte überschrieben. Sie können keine Namen im Modell speichern oder Änderungen in der Clusterzugehörigkeit zwischen verschiedenen Versionen eines Modells verfolgen.

Kinderanzahl
Eine Schätzung der Anzahl der Kinder, die der Knoten hat.

Übergeordneter Knoten Gibt die Anzahl der Cluster im Modell an.

Clusterknoten Immer 0.

PARENT_UNIQUE_NAME
Der eindeutige Name des übergeordneten Knotens.

Übergeordneter Knoten Immer NULL

Clusterknoten Normalerweise 000.

Knotenbeschreibung
Eine Beschreibung des Knotens.

Übergeordneter Knoten Immer (Alle).

Clusterknoten Eine durch Trennzeichen getrennte Liste der primären Attribute, die den Cluster von anderen Clustern unterscheiden.

NODE_RULE
Wird nicht für Clusteringmodelle verwendet.

MARGINAL_RULE
Wird nicht für Clusteringmodelle verwendet.

KNOTENWAHRSCHEINLICHKEIT
Die wahrscheinlichkeit, die diesem Knoten zugeordnet ist. Übergeordneter Knoten Immer 1.

Clusterknoten Die Wahrscheinlichkeit stellt die zusammengesetzte Wahrscheinlichkeit der Attribute dar, wobei einige Anpassungen abhängig vom Algorithmus, der zum Erstellen des Clusteringmodells verwendet wird, vorgenommen werden.

Marginalwahrscheinlichkeit
Die Wahrscheinlichkeit, einen Knoten vom übergeordneten Knoten aus zu erreichen. Bei einem Clusteringmodell ist die Marginalwahrscheinlichkeit immer identisch mit der Knotenwahrscheinlichkeit.

KNOTENVERTEILUNG
Eine Tabelle, die das Wahrscheinlichkeits histogramm des Knotens enthält.

Übergeordneter Knoten Siehe die Einführung zu diesem Thema.

Clusterknoten Stellt die Verteilung von Attributen und Werten für Fälle dar, die in diesem Cluster enthalten sind.

NODE_SUPPORT
Die Anzahl der Fälle, die diesen Knoten unterstützen. Übergeordneter Knoten Gibt die Anzahl der Trainingsfälle für das gesamte Modell an.

Clusterknoten Gibt die Größe des Clusters als Anzahl von Fällen an.

Anmerkung Wenn das Modell K-Means-Clustering verwendet, kann jeder Fall nur zu einem Cluster gehören. Wenn das Modell jedoch EM-Clustering verwendet, kann jeder Fall zu einem anderen Cluster gehören, und dem Fall wird für jeden Cluster, zu dem es gehört, eine gewichtete Entfernung zugewiesen. Daher ist für EM-Modelle die Summe der Unterstützung für einen einzelnen Cluster größer als die Unterstützung für das Gesamtmodell.

MSOLAP_MODEL_COLUMN
Wird nicht für Clusteringmodelle verwendet.

MSOLAP_NODE_SCORE
Zeigt eine Bewertung an, die dem Knoten zugeordnet ist.

Übergeordneter Knoten Die Bayesian Information Criterion (BIC)-Bewertung für das Clustermodell.

Clusterknoten Immer 0.

MSOLAP_KNOTEN_KURZBESCHREIBUNG
Eine Bezeichnung, die für Anzeigezwecke verwendet wird. Sie können diese Beschriftung nicht ändern.

Übergeordneter Knoten Der Typ des Modells: Clustermodell

Clusterknoten Der Name des Clusters. Beispiel: Cluster 1.

Bemerkungen

Analysis Services stellt mehrere Methoden zum Erstellen eines Clusteringmodells bereit. Wenn Sie nicht wissen, mit welcher Methode das Modell erstellt wurde, mit dem Sie arbeiten, können Sie die Modellmetadaten programmgesteuert abrufen, indem Sie einen ADOMD-Client oder AMO verwenden oder das Data Mining-Schema-Rowset abfragen. Weitere Informationen finden Sie unter Abfragen der Parameter, die zum Erstellen eines Miningmodells verwendet werden.

Hinweis

Die Struktur und der Inhalt des Modells bleiben gleich, unabhängig davon, welche Clusteringmethode oder Parameter Sie verwenden.

Siehe auch

Inhalt des Mining-Modells (Analysis Services - Data Mining)
Data Mining-Modellanzeigen
Microsoft Clustering-Algorithmus
Data Mining-Abfragen