Freigeben über


Miningmodellinhalt für Sequenzclusteringmodelle (Analysis Services - Data Mining)

In diesem Thema werden Miningmodellinhalte beschrieben, die spezifisch für Modelle sind, die den Microsoft Sequence Clustering-Algorithmus verwenden. Eine Erläuterung allgemeiner und statistischer Terminologie im Zusammenhang mit Miningmodellinhalten, die für alle Modelltypen gelten, finden Sie unter Mining Model Content (Analysis Services - Data Mining).

Grundlegendes zur Struktur eines Sequenzclusteringmodells

Ein Sequenzclustermodell verfügt über einen einzelnen übergeordneten Knoten (NODE_TYPE = 1), der das Modell und seine Metadaten darstellt. Der übergeordnete Knoten, der mit der Bezeichnung "Alle" bezeichnet wird, weist einen zugehörigen Sequenzknoten (NODE_TYPE = 13) auf, der alle in den Schulungsdaten erkannten Übergänge auflistet.

Struktur des Sequenzclusteringmodells

Der Algorithmus erstellt auch eine Reihe von Clustern, basierend auf den Übergängen, die in den Daten gefunden wurden, und allen anderen Eingabeattributen, die beim Erstellen des Modells enthalten sind, z. B. Kundendemografien usw. Jeder Cluster (NODE_TYPE = 5) enthält einen eigenen Sequenzknoten (NODE_TYPE = 13), der nur die Übergänge auflistet, die zum Generieren dieses bestimmten Clusters verwendet wurden. Im Sequenzknoten können Sie einen Drilldown ausführen, um die Details einzelner Zustandsübergänge anzuzeigen (NODE_TYPE = 14).

Eine Erläuterung der Sequenz- und Zustandsübergänge mit Beispielen finden Sie unter Microsoft Sequence Clustering Algorithm.

Modellinhalt für ein Sequenzclusteringmodell

Dieser Abschnitt enthält zusätzliche Informationen zu Spalten im Miningmodellinhalt, die für die Sequenzclustering eine besondere Relevanz haben.

MODELL_KATALOG
Name der Datenbank, in der das Modell gespeichert ist.

MODEL_NAME
Name des Modells.

ATTRIBUTE_NAME
Immer leer.

NODE_NAME
Der Name des Knotens. Der Wert entspricht derzeit dem von NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Der eindeutige Name des Knotens.

NODE_TYPE
Ein Sequenzclustermodell gibt die folgenden Knotentypen aus:

Knotentyp-ID BESCHREIBUNG
1 (Modell) Stammknoten für Modell
5 (Cluster) Enthält eine Anzahl von Übergängen im Cluster, eine Liste der Attribute und Statistiken, die die Werte im Cluster beschreiben.
13 (Sequenz) Enthält eine Liste von Übergängen, die im Cluster enthalten sind.
14 (Übergang) Beschreibt eine Abfolge von Ereignissen als Tabelle, in der die erste Zeile den Anfangszustand enthält, und alle anderen Zeilen enthalten aufeinander folgende Zustände sowie Unterstützungs- und Wahrscheinlichkeitsstatistiken.

NODE_GUID
Leer.

NODE_BESCHRIFTUNG
Eine Beschriftung oder ein Untertitel, der dem Knoten für Anzeigezwecke zugeordnet ist.

Sie können die Clusterbeschriftungen umbenennen, während Sie das Modell verwenden. Der neue Name wird jedoch nicht beibehalten, wenn Sie das Modell schließen.

Kinderanzahl
Eine Schätzung der Anzahl der Kinder, die der Knoten hat.

Modellstamm Der Kardinalitätswert entspricht der Anzahl der Cluster plus 1. Weitere Informationen finden Sie unter Kardinalität.

Clusterknoten Kardinalität ist immer 1, da jeder Cluster über einen einzelnen untergeordneten Knoten verfügt, der die Liste der Sequenzen im Cluster enthält.

Sequenzknoten Kardinalität gibt die Anzahl der Übergänge an, die in diesem Cluster enthalten sind. Beispielsweise gibt die Kardinalität des Sequenzknotens für den Modellstamm An, wie viele Übergänge im gesamten Modell gefunden wurden.

ELTER_EINZIGARTIGER_NAME
Der eindeutige Name des übergeordneten Knotens.

NULL wird für alle Knoten auf der Stammebene zurückgegeben.

Knotenbeschreibung
Identisch mit der Knotenbeschriftung.

NODE_REGEL
Immer leer.

MARGINAL_REGEL
Immer leer.

KNOTENWAHRSCHEINLICHKEIT
Modellstamm Immer 0.

Clusterknoten Die angepasste Wahrscheinlichkeit des Clusters im Modell. Die angepassten Wahrscheinlichkeiten summieren sich nicht auf 1, da die in Sequenzclustering verwendete Clustermethode eine partielle Mitgliedschaft in mehreren Clustern zulässt.

Sequenzknoten Immer 0.

Übergangsknoten Immer 0.

Marginalwahrscheinlichkeit
Modellstamm Immer 0.

Clusterknoten Derselbe Wert wie NODE_PROBABILITY.

Sequenzknoten Immer 0.

Übergangsknoten Immer 0.

KNOTENVERTEILUNG
Eine Tabelle, die Wahrscheinlichkeiten und andere Informationen enthält. Weitere Informationen finden Sie in NODE_DISTRIBUTION Tabelle.

Node-Unterstützung
Die Anzahl der Übergänge, die diesen Knoten unterstützen. Wenn also 30 Beispiele für die Sequenz "Produkt A gefolgt von Produkt B" in den Schulungsdaten vorhanden sind, beträgt die Gesamtunterstützung 30.

Modellstamm Gesamtanzahl der Übergänge im Modell.

Clusterknoten Rohe Unterstützung für den Cluster, d. h. die Anzahl der Schulungsfälle, die zu diesem Cluster beitragen.

Sequenzknoten Immer 0.

Übergangsknoten Prozentsatz der Fälle im Cluster, die einen bestimmten Übergang darstellen. Kann 0 sein oder einen positiven Wert haben. Wird berechnet, indem die rohe Unterstützung für den Clusterknoten verwendet und mit der Wahrscheinlichkeit des Clusters multipliziert wird.

Anhand dieses Werts können Sie feststellen, wie viele Schulungsfälle zum Übergang beigetragen haben.

MSOLAP_MODEL_COLUMN
Nicht zutreffend.

MSOLAP_NODE_SCORE
Nicht zutreffend.

MSOLAP_KNOTEN_KURZBESCHREIBUNG
Identisch mit NODE_DESCRIPTION.

Grundlegendes zu Sequenzen, Zuständen und Übergängen

Ein Sequenzclustermodell verfügt über eine einzigartige Struktur, die zwei Arten von Objekten mit sehr unterschiedlichen Informationstypen kombiniert: die erste sind Cluster und die zweite sind Zustandsübergänge.

Die durch Sequenzclustering erstellten Cluster ähneln den Clustern, die vom Microsoft Clustering-Algorithmus erstellt wurden. Jeder Cluster verfügt über ein Profil und merkmale. In Sequenzclustering enthält jeder Cluster jedoch zusätzlich einen einzelnen untergeordneten Knoten, der die Sequenzen in diesem Cluster auflistet. Jeder Sequenzknoten enthält mehrere untergeordnete Knoten, die die Zustandsübergänge im Detail mit Wahrscheinlichkeiten beschreiben.

Es gibt fast immer mehr Sequenzen im Modell, als sie in jedem Fall finden können, da die Sequenzen miteinander verkettet werden können. Microsoft Analysis Services speichert Zeiger von einem Zustand zum anderen, sodass Sie die Häufigkeit der Einzelnen Übergänge zählen können. Sie können auch Informationen dazu finden, wie oft die Sequenz aufgetreten ist, und die Wahrscheinlichkeit des Auftretens im Vergleich zu den gesamten beobachteten Zuständen messen.

In der folgenden Tabelle wird zusammengefasst, wie Informationen im Modell gespeichert werden und wie die Knoten miteinander verknüpft sind.

Knoten Besitzt untergeordneten Knoten Die NODE_DISTRIBUTION-Tabelle
Modellwurzel Mehrere Clusterknoten

Knoten mit Sequenzen für das gesamte Modell
Listet alle Produkte im Modell mit Unterstützung und Wahrscheinlichkeit auf.

Da die Clustering-Methode partielle Mitgliedschaften in mehreren Clustern zulässt, können Unterstützungen und Wahrscheinlichkeiten Bruchwerte aufweisen. Das heißt, anstatt einmal einen einzelnen Fall zu zählen, kann jeder Fall potenziell zu mehreren Clustern gehören. Wenn die endgültige Clustermitgliedschaft bestimmt wird, wird der Wert daher durch die Wahrscheinlichkeit dieses Clusters angepasst.
Sequenzknoten für Modell Mehrere Übergangsknoten Listet alle Produkte im Modell mit Unterstützung und Wahrscheinlichkeit auf.

Da die Anzahl der Sequenzen für das Modell bekannt ist, sind Berechnungen für Unterstützung und Wahrscheinlichkeit einfach:

Support = Anzahl der Fälle

Wahrscheinlichkeit = Rohwahrscheinlichkeit jeder Sequenz im Modell. Alle Wahrscheinlichkeiten sollten auf 1 addiert werden.
Einzelne Clusterknoten Knoten mit Sequenzen nur für diesen Cluster Listet alle Produkte in einem Cluster auf, bietet jedoch nur Unterstützungs- und Wahrscheinlichkeitswerte für Produkte, die für den Cluster charakteristisch sind.

Die Unterstützung stellt den angepassten Supportwert für jeden Fall in diesem Cluster dar. Wahrscheinlichkeitswerte werden angepasst.
Sequenzknoten für einzelne Cluster Mehrere Knoten mit Übergängen nur für Sequenzen in diesem Cluster Genau die gleichen Informationen wie in einzelnen Clusterknoten.
Übergänge Keine Kinder Listet Übergänge für den zugehörigen ersten Zustand auf.

Der Support ist ein angepasster Unterstützungswert, der die Fälle angibt, die an den jeweiligen Übergängen beteiligt sind. Die Wahrscheinlichkeit ist die angepasste Wahrscheinlichkeit, dargestellt als Prozentsatz.

NODE_DISTRIBUTION Tabelle

Die tabelle NODE_DISTRIBUTION enthält detaillierte Wahrscheinlichkeits- und Unterstützungsinformationen für die Übergänge und Sequenzen für einen bestimmten Cluster.

Der Übergangstabelle wird immer eine Zeile hinzugefügt, um mögliche Missing Werte darzustellen. Informationen dazu, was der Wert bedeutet und wie er sich auf Berechnungen auswirkt, finden Sie unter Fehlende Werte (Analysis Services - Data Mining).For information about what the Missing value means, and how it affects calculations, see Missing Values (Analysis Services - Data Mining).

Die Berechnungen für Unterstützung und Wahrscheinlichkeit unterscheiden sich je nachdem, ob die Berechnung auf die Trainingsfälle oder auf das fertige Modell angewendet wird. Dies liegt daran, dass die Standardmäßige Clusteringmethode Erwartungsmaximierung (EM) davon ausgeht, dass jeder Fall zu mehreren Clustern gehören kann. Bei der Berechnung der Unterstützung für die Fälle im Modell ist es möglich, rohe Anzahlen und Rohwahrscheinlichkeiten zu verwenden. Die Wahrscheinlichkeiten für eine bestimmte Sequenz in einem Cluster müssen jedoch durch die Summe aller möglichen Sequenz- und Clusterkombinationen gewichtet werden.

Mächtigkeit

In einem Clusteringmodell gibt die Kardinalität des übergeordneten Knotens im Allgemeinen an, wie viele Cluster im Modell vorhanden sind. Ein Sequenzclustermodell verfügt jedoch über zwei Arten von Knoten auf Clusterebene: eine Art von Knoten enthält Cluster, und die andere Art von Knoten enthält eine Liste von Sequenzen für das Modell insgesamt.

Um die Anzahl der Cluster im Modell zu bestimmen, können Sie den Wert von NODE_CARDINALITY für den Knoten (Alle) verwenden und einen abziehen. Wenn das Modell beispielsweise 9 Cluster erstellt hat, lautet die Kardinalität des Modellstamms 10. Dies liegt daran, dass das Modell 9 Clusterknoten mit jeweils einem eigenen Sequenzknoten und einem zusätzlichen Sequenzknoten mit der Bezeichnung Cluster 10 enthält, der die Sequenzen für das Modell darstellt.

Durchgang der Struktur

Ein Beispiel kann helfen, zu verdeutlichen, wie die Informationen gespeichert werden und wie Sie sie interpretieren können. Beispielsweise können Sie die größte Reihenfolge finden, d. h. die längst beobachtete Kette in den zugrunde liegenden AdventureWorksDW2012-Daten , indem Sie die folgende Abfrage verwenden:

USE AdventureWorksDW2012  
SELECT DISTINCT OrderNumber, Count(*)  
FROM vAssocSeqLineItems  
GROUP BY OrderNumber  
ORDER BY Count(*) DESC  

Aus diesen Ergebnissen stellen Sie fest, dass die Bestellnummern "SO72656", "SO58845" und "SO70714" die größten Sequenzen enthalten, wobei jeweils acht Elemente enthalten sind. Mithilfe der Bestell-IDs können Sie die Details einer bestimmten Bestellung anzeigen, um zu sehen, welche Artikel gekauft wurden und in welcher Reihenfolge.

Bestellnummer Zeilennummer Modell
SO58845 1 Berg-500
SO58845 2 LL Bergreifen
SO58845 3 Mountainbike-Reifenschlauch
SO58845 4 Fender Set - Berg
SO58845 5 Flaschenhalter für Mountainbikes
SO58845 6 Wasserflasche
SO58845 7 Sport-100
SO58845 8 Long-Sleeve Logo-Trikot

Einige Kunden, die den Mountain-500 kaufen, können jedoch verschiedene Produkte kaufen. Sie können alle Produkte anzeigen, die dem Mountain-500 folgen, indem Sie die Liste der Sequenzen im Modell anzeigen. Die folgenden Verfahren führen Sie durch die Anzeige dieser Sequenzen mithilfe der beiden in Analysis Services bereitgestellten Viewer:

  1. Klicken Sie im Objekt-Explorer mit der rechten Maustaste auf das Modell [Sequenzclustering], und wählen Sie "Durchsuchen" aus.

  2. Klicken Sie im Sequenzclustering-Viewer auf die Registerkarte "Statusübergänge" .

  3. Stellen Sie in der Dropdownliste "Cluster " sicher, dass die Population (Alle) ausgewählt ist.

  4. Schieben Sie den Schieberegler auf der linken Seite des Fensterbereichs ganz nach oben, um alle Links anzuzeigen.

  5. Suchen Sie im Diagramm nach Mountain-500, und klicken Sie auf den Knoten im Diagramm.

  6. Die hervorgehobenen Linien zeigen auf die nächsten Zustände (die Produkte, die nach dem Mountain-500 erworben wurden), und die Zahlen geben die Wahrscheinlichkeit an. Vergleichen Sie diese mit den Resultaten im generischen Modellinhalt-Betrachter.

  1. Klicken Sie im Objekt-Explorer mit der rechten Maustaste auf das Modell [Sequenzclustering], und wählen Sie "Durchsuchen" aus.

  2. Wählen Sie in der Dropdownliste "Viewer" den Microsoft Generic Content Tree Viewer aus.

  3. Klicken Sie im Bereich "Knotenbeschriftung " auf den Knoten mit dem Namen "Sequenzebene" für Cluster 16.

  4. Suchen Sie im Bereich "Knotendetails" die Zeile NODE_DISTRIBUTION, und klicken Sie irgendwo in der geschachtelten Tabelle.

    Die oberste Zeile ist immer für den Fehlenden Wert vorgesehen. Diese Zeile ist Sequenzzustand 0.

  5. Drücken Sie die NACH-UNTEN-TASTE, oder verwenden Sie die Bildlaufleisten, um durch die geschachtelte Tabelle nach unten zu navigieren, bis die Zeile "Mountain-500" angezeigt wird.

    Diese Zeile ist Sequenzzustand 20.

    Hinweis

    Sie können die Zeilennummer für einen bestimmten Sequenzstatus programmgesteuert abrufen, aber wenn Sie gerade browsen, ist es möglicherweise einfacher, die geschachtelte Tabelle einfach in eine Excel-Arbeitsmappe zu kopieren.

  6. Kehren Sie zum Bereich "Knotenbeschriftung" zurück, und erweitern Sie den Knoten, die Sequenzebene für Cluster 16, falls er noch nicht erweitert ist.

  7. Suchen Sie unter den untergeordneten Knoten nach der Übergangsreihe für Sequenzzustand 20. Klicken Sie auf den Übergangsknoten.

  8. Die geschachtelte NODE_DISTRIBUTION Tabelle enthält die folgenden Produkte und Wahrscheinlichkeiten. Vergleichen Sie diese mit den Ergebnissen auf der Registerkarte "Statusübergang " des Sequenzclustering-Viewers.

In der folgenden Tabelle sind die Ergebnisse aus der tabelle NODE_DISTRIBUTION zusammen mit den gerundeten Wahrscheinlichkeitswerten dargestellt, die im grafischen Viewer angezeigt werden.

Produkt Unterstützung (NODE_DISTRIBUTION Tabelle) Wahrscheinlichkeitstabelle (NODE_DISTRIBUTION) Wahrscheinlichkeit (aus Diagramm)
Fehlend 48.447887 0.138028169 (nicht angezeigt)
Radkappe 10.876056 0.030985915 0,03
Fender Set - Berg 80.087324 0.228169014 0,23
Half-Finger Handschuhe 0.9887324 0.002816901 0,00
Trinkrucksack 0.9887324 0,002816901 0,00
LL BergReifen 51.414085 0.146478873 0,15
Long-Sleeve Logo-Trikot 2.9661972 0.008450704 0.01
, Mountain-Flaschenhalter 87.997183 0.250704225 0.25
Mountainbike-Reifenschlauch 16.808451 0.047887324 0.05
Short-Sleeve Klassisches Trikot 10.876056 0.030985915 0,03
Sport-100 20.76338 0.05915493 0.06
Wasserflasche 18.785915 0.053521127 0.25

Obwohl der Fall, den wir ursprünglich aus den Schulungsdaten ausgewählt haben, das Produkt "Mountain-500" gefolgt von "LL Mountain Tire" enthielt, können Sie sehen, dass es viele andere mögliche Sequenzen gibt. Um detaillierte Informationen für einen bestimmten Cluster zu finden, müssen Sie den Drilldownvorgang aus der Liste der Sequenzen im Cluster zu den tatsächlichen Übergängen für jeden Zustand oder Produkt wiederholen.

Sie können von der sequenz, die in einem bestimmten Cluster aufgeführt ist, zur Übergangszeile springen. In dieser Übergangszeile können Sie bestimmen, welches Produkt als Nächstes ist, und in der Liste der Sequenzen zurück zu diesem Produkt springen. Indem Sie diesen Vorgang für jeden ersten und zweiten Zustand wiederholen, können Sie lange Zustandsketten durchlaufen.

Verwenden von Sequenzinformationen

Ein häufiges Szenario für Sequenzclustering ist das Nachverfolgen von Benutzerklicks auf eine Website. Wenn die Daten z. B. aus Datensätzen von Kundenkäufen auf der Adventure Works-E-Commerce-Website stammen, könnte das resultierende Sequenzclusteringmodell verwendet werden, um das Benutzerverhalten abzuleiten, die E-Commerce-Website neu zu gestalten, um Navigationsprobleme zu lösen oder Umverkäufe zu fördern.

Beispielsweise kann eine Analyse zeigen, dass Benutzer unabhängig von demografischen Daten immer einer bestimmten Produktkette folgen. Außerdem stellen Sie möglicherweise fest, dass Benutzer die Website häufig verlassen, nachdem Sie auf ein bestimmtes Produkt geklickt haben. Angesichts dieser Feststellung können Sie fragen, welche zusätzlichen Möglichkeiten Sie den Nutzern zur Verfügung stellen könnten, die dazu führen würden, dass die Nutzer auf der Website bleiben.

Wenn Sie keine zusätzlichen Informationen zum Klassifizieren Ihrer Benutzer haben, können Sie einfach die Sequenzinformationen verwenden, um Daten zur Navigation zu sammeln, um das allgemeine Verhalten besser zu verstehen. Wenn Sie jedoch Informationen zu Kunden sammeln und diese Informationen mit Ihrer Kundendatenbank abgleichen können, können Sie die Leistungsfähigkeit des Clusterings mit Vorhersage von Sequenzen kombinieren, um Empfehlungen bereitzustellen, die auf den Benutzer zugeschnitten sind, oder vielleicht basierend auf dem Pfad der Navigation zur aktuellen Seite.

Eine weitere Verwendung der umfangreichen Zustands- und Übergangsinformationen, die von einem Sequenzclusteringmodell kompiliert werden, besteht darin, zu bestimmen, welche möglichen Pfade nie verwendet werden. Wenn Sie z. B. viele Besucher haben, die die Seiten 1-4 besuchen, jedoch nie auf Seite 5 weitergehen, könnten Sie untersuchen, ob es Probleme gibt, die die Navigation zu Seite 5 verhindern. Dazu können Sie den Modellinhalt abfragen und mit einer Liste möglicher Pfade vergleichen. Diagramme, die Ihnen alle Navigationspfade in einer Website mitteilen, können programmgesteuert oder mithilfe einer Vielzahl von Websiteanalysetools erstellt werden.

Informationen zum Abrufen der Liste beobachteter Pfade durch Abfragen des Modellinhalts und weitere Beispiele für Abfragen eines Sequenzclusteringmodells finden Sie unter Sequence Clustering Model Query Examples.

Siehe auch

Inhalt des Mining-Modells (Analysis Services - Data Mining)
Microsoft Sequence Clustering Algorithm
Beispiele für Sequenzclusteringmodellabfragen