Freigeben über


Erkundung des Sequenz-Clustering-Modells (Fortgeschrittenes Data-Mining-Lernprogramm)

Nachdem Sie nun das Sequence Clustering mit dem Region-Modell erstellt haben, können Sie es mithilfe des Microsoft Sequence Clustering-Viewers im Reiter "Mining Model Viewer" des Data-Mining-Designers erkunden. Der Microsoft Sequence Cluster Viewer enthält fünf Registerkarten: Clusterdiagramm, Clusterprofile, Clustermerkmale, ClusterErmittlung und Zustandsübergänge. Für weitere Informationen zur Verwendung dieses Viewers sehen Sie sich Modell durchsuchen mit dem Microsoft Sequence Cluster Viewer an.

Registerkarte "Clusterdiagramm"

Auf der Registerkarte "Clusterdiagramm " werden die Cluster grafisch angezeigt, die der Algorithmus in der Datenbank ermittelt hat. Das Layout im Diagramm stellt die Beziehungen der Cluster dar, wobei ähnliche Cluster in enger Verbindung gruppiert sind. Standardmäßig stellt der Schatten jedes Knotens die Dichte aller Fälle im Cluster dar: je dunkler der Schatten des Knotens, desto mehr Fälle enthält er. Sie können die Bedeutung der Schattierung der Knoten so ändern, dass sie die Unterstützung innerhalb jedes Clusters für ein Attribut und einen Zustand darstellt.

Sie können die Cluster auch umbenennen, um die Identifizierung und Arbeit mit Zielclustern zu vereinfachen. In diesem Lernprogramm benennen Sie den Cluster um, der den höchsten Prozentsatz der Kunden aus der Region "Pazifik" aufweist, und den Cluster, der die meisten Fälle insgesamt aufweist.

Hinweis

Die Fälle, die bestimmten Clustern zugewiesen sind, können sich je nach Daten und Modellparametern ändern, wenn Sie das Modell erneut verarbeiten. Wenn Sie Cluster umbenennen, gehen die Namen beim erneuten Verarbeiten des Miningmodells verloren.

So ändern Sie das Attribut, das zum Hervorheben von Clustern verwendet wird

  1. Wählen Sie in der Liste " Schattierungsvariable" die Option "Modell" aus.

  2. Wählen Sie in der Liste "Bundesland" die Option "Fahrradkappe" aus.

    Das Diagramm aktualisiert die Konzentration des ausgewählten Produkts in den einzelnen Clustern. Der Cluster mit der dunkelsten Schattierung enthält die höchste Dichte von Radkappen. Sie können die Schattierungsvariable so ändern, dass ein beliebiger Status einer beliebigen Eingabespalte verwendet wird.

  3. Wählen Sie in der Liste " Schattierungsvariable " die Option "Population" aus.

    Wenn Sie die Schattierungsvariable in die Population ändern, wird das Diagramm aktualisiert, um die Cluster nach Größe zu vergleichen. Der Cluster mit der dunkelsten Schattierung enthält mehr Fälle als die anderen Cluster.

Knoten im Modell umbenennen

  1. Ändern Sie die Schattierungsvariable in Region" , und legen Sie "State " auf "Pacific" fest.

  2. Markieren Sie den dunkelsten Knoten im Diagramm.

  3. Klicken Sie mit der rechten Maustaste auf diesen Cluster, und wählen Sie "Cluster umbenennen" aus.

  4. Geben Sie den NamenPacific Cluster ein.

  5. Ändern Sie den Wert der Schattierungsvariablen in "Population".

  6. Suchen Sie im aktualisierten Diagramm den dunkelsten Cluster, der der größte Cluster sein sollte. Wenn Sie nicht durch die Schattierung erkennen können, welcher Cluster am größten ist, zeigen Sie mit der Maus auf jeden Cluster, und zeigen Sie die QuickInfo an, und wählen Sie dann den Cluster aus, der die meisten Fälle enthält.

  7. Klicken Sie mit der rechten Maustaste auf diesen Cluster, und wählen Sie "Cluster umbenennen" aus. Geben Sie den neuen Namen ein, Largest Cluster.

Sie können einen Drilldown vom Knoten ausführen, der den Cluster darstellt, um Details der Fälle anzuzeigen, die sich in den einzelnen Clustern befinden. Dies kann nützlich sein, wenn Sie maßnahmen für die Ergebnisse Ihrer Analyse ergreifen möchten, z. B. das Senden von E-Mails an einen Kunden. Sie können auch die anderen Attribute der Fälle durchsuchen, die Sie in der Struktur enthalten, aber nicht im Modell verwendet haben, z. B. Region und IncomeGroup. Weitere Informationen zum Durchgriff von Miningmodellen auf die zugrunde liegenden Fälle finden Sie unter Drillthrough-Abfragen (Data Mining).

Um zu den Details aus der Clusterdarstellung durchzudringen

  1. Klicken Sie mit der rechten Maustaste, Pacific Clusterwählen Sie Drillthrough aus, und wählen Sie dann die Spalten "Modell" und "Struktur" aus.

    Das Dialogfeld "Drillthrough " wird geöffnet. Spalten, die nicht im Modell verwendet werden, aber für die Abfrage verfügbar sind, haben das Präfix "Struktur".

    Sie können sehen, dass dieser Cluster hauptsächlich Kunden aus der Region Pazifik mit nur wenigen Kunden aus anderen Regionen enthält.

  2. Klicken Sie auf das Pluszeichen in der geschachtelten Spalte v Assoc Seq Line Items, um die Reihenfolge der Elemente in einer bestimmten Kundenbestellung anzuzeigen.

  3. Schließen Sie das Drillthrough-Dialogfeld .

    Hinweis

    Mit der Schaltfläche " Wiedergeben " können Sie die Daten erneut abfragen. Das erneute Abfragen ändert jedoch nicht die angezeigten Daten, es sei denn, das Modell wurde durch einen anderen Prozess dynamisch im Hintergrund aktualisiert.

Zurück zum Anfang

Registerkarte "Clusterprofile"

Auf der Registerkarte "Clusterprofile " werden die Sequenzen angezeigt, die sich in den einzelnen Clustern befinden. Die Cluster sind in einzelnen Spalten rechts neben der Spalte "Staaten " aufgeführt.

In der Viewerzeile beschreibt die Modellzeile die Gesamtverteilung von Elementen in einem Cluster, und die Zeile "Model.samples " enthält Sequenzen der Elemente. Jede Zeile der Farbsequenzen in jeder Zelle der Zeile "Model.samples " stellt das Verhalten eines zufällig ausgewählten Benutzers im Cluster dar.

Jede Farbe in einem einzelnen Sequenz histogramm stellt ein Produktmodell dar. Die Mininglegende zeigt Ihnen die Sequenzen von Produkten mithilfe von Farbcodierung und produktmodellnamen an. Wenn Sie dem Modell weitere Spalten für das Clustering hinzugefügt haben, z. B. Region oder Einkommensgruppe, enthält der Viewer eine zusätzliche Zeile für jede Spalte, in der die Verteilung dieser Werte innerhalb jedes Clusters angezeigt wird.

So zeigen Sie die Sequenzen an, die in einem Cluster am häufigsten vorkommen

  1. Klicken Sie mit der rechten Maustaste auf die Modellzeile in der Spalte für den Cluster Largest Cluster, und wählen Sie "Legende anzeigen" aus.

    Die Spalte "Farbe " enthält einen schattierten Balken, der die Häufigkeit der in Sequenzen gefundenen Elemente angibt. Jedes Element wird durch eine andere Farbe dargestellt. In der Spalte "Bedeutung " werden die Produktmodellnamen für jede Farbe aufgelistet. Die Spalte "Verteilung " informiert Sie über den Prozentsatz der Fälle, in denen dieses Element in einer Sequenz enthalten ist.

  2. Schließen Sie die Bergbaulegende.

  3. Klicken Sie mit der rechten Maustaste auf die Zeile "Model.samples " in der Spalte mit der Überschrift, " Population", und wählen Sie " Legende anzeigen" aus.

  4. Scannen der Liste der Sequenzen im Gesamtmodell.

    Die Mininglegende listet zuerst die am häufigsten verwendeten Sequenzen auf, sodass Sie sehen können, dass Mountain Tire Tube das erste Element in vielen Sequenzen ist. Dies bedeutet, dass ein Kunde das Mountain Tire Tube sehr wahrscheinlich zuerst in den Einkaufskorb setzen wird.

So können Sie einen tieferen Einblick in Fälle aus dem Cluster-Viewer erhalten.

  1. Scrollen Sie im Attributbereich nach unten, bis Sie die Zeile für das Region Attribut gefunden haben.

    Die Zeile enthält ein Histogramm für jeden Cluster im Modell sowie ein zusätzliches Histogramm für "Population", was bedeutet, dass die gesamte Gruppe von Fällen, die im Modell verwendet werden, verwendet wird. Ein Histogramm ist ein Balken mit unterschiedlichen Farben darin, wobei jede Farbe ein Attribut darstellt, und die Größe des farbigen Abschnitts für dieses Attribut den Prozentsatz der Fälle mit diesem Attribut darstellt.

  2. Vergleichen Sie die Histogramme für die cluster, die Sie umbenannt Pacific Cluster haben, und Largest Cluster. Jeder Cluster wird in einer anderen Spalte angezeigt.

    Beide sehen wie Volltonfarben aus, aber die Farben sind unterschiedlich.

  3. Halten Sie die Maus in der Region Reihe über das farbige Histogramm für Largest Cluster.

    Die QuickInfo zeigt Werte an, die die tatsächlichen Prozentsätze der Fälle aus den einzelnen Regionen anzeigen.

  4. Klicken Sie mit der rechten Maustaste auf das farbige Histogramm in der Region Zeile für Pacific Cluster, wählen Sie "Drill Through" aus, und wählen Sie dann "Nur Modellspalten" aus.

  5. Verschieben Sie die Bildlaufleiste, um alle Kunden in diesem Cluster zu überprüfen.

    Vom Überblick bis ins Detail können Sie sehen, dass der Cluster hauptsächlich Bestellungen aus der Pazifikregion, aber auch einige aus der nordamerikanischen und europäischen Region enthält.

  6. Schließen Sie das Drillthrough-Dialogfeld .

Zurück zum Anfang

Registerkarte "Clustermerkmale"

Auf der Registerkarte "Clustermerkmale " werden die Übergänge zwischen Zuständen in einem Cluster zusammengefasst, indem Balken angezeigt werden, die die Bedeutung des Attributwerts für den ausgewählten Cluster visuell darstellen. In der Spalte "Variablen " erfahren Sie, was das Modell für den ausgewählten Cluster oder die Population wichtig ist: entweder ein bestimmter Wert oder die Beziehung zwischen Werten, die als Übergang bezeichnet werden. Die Spalte "Werte " enthält weitere Details zum Wert oder Übergang, und die Wahrscheinlichkeitsspalte stellt die Gewichtung dieses Attributs oder Übergangs visuell dar.

So zeigen Sie die wichtigen Attribute für einen Cluster an

  1. Wählen Sie in der Dropdownliste "Cluster " die Option Pacific Clusteraus.

    Die Liste aktualisiert die Merkmale des Clusters, den Sie umbenannt haben Pacific Cluster. In diesem Cluster ist Regiondas wichtigste Merkmal .

  2. Bewegen Sie die Maus über den schattierten Balken in der Zeile für Region.

    Die Wahrscheinlichkeit, dass der Wert pazifik ist, ist sehr hoch. Weitere Informationen zum Interpretieren dieser Werte finden Sie in der technischen Referenz zu Microsoft Sequence Clustering Algorithm.

  3. Sehen Sie sich die Liste der Merkmale für den Cluster an, bis Sie die erste Übergangszeile finden.

  4. Eine Übergangszeile enthält den Textübergang in der Spalte "Variablen " und eine Kombination aus sequenziellen Attributwerten in der Spalte "Wert ". Die Sequenz kann auch Startpunkte und fehlende Werte enthalten.

    Angenommen, der Übergang hat den Wert [Start] -> Road Tire Tube. Dies bedeutet, dass Kunden in diesem Cluster häufig zuerst den Straßenreifenschlauch in ihren Warenkorb legen. Dies kann bedeuten, dass das Produkt ein beliebter Artikel ist, den Kunden zuerst suchen, oder es kann nur darauf hinweisen, dass das Produkt auf der Einkaufswebsite leicht zu finden ist.

  5. Scrollen Sie durch die Liste, bis Sie den ersten Übergang gefunden haben, der weder [Start] noch missing enthält.

    Angenommen, Sie finden den Übergang „Touring Tire, Touring Tire Tube“. Dies bedeutet, dass Kunden in diesem Cluster diese Artikel in genau dieser Reihenfolge häufig zusammen gekauft haben.

  6. Halten Sie die Maus über den schattierten Bereich des Balkens, um diesen Übergang anzuzeigen.

    Die Wahrscheinlichkeit dieses Übergangs wird als Prozentsatz angezeigt.

  7. Wählen Sie in der Dropdownliste "Cluster " die Option "Population (Alle)" aus.

    Die Liste der Attribute aktualisiert, um die Merkmale aller Bestellungen anzuzeigen, die zum Erstellen des Modells verwendet werden. In diesem Bergbaumodell ist Regiondas wichtigste Merkmal für die Unterscheidung zwischen Clustern , mit einem Wert von Nordamerika.

Nachdem Sie diese Aufgaben überprüft haben, erkennen Sie zwei Dinge. Zunächst benötigen Sie viele Daten, um eine aussagekräftige Anzahl von Kombinationen zu erhalten. Beispielsweise werden die Sequenzen mit der höchsten Wahrscheinlichkeit wahrscheinlich einen [Start]-Status oder einen Zustand des Fehlens enthalten.

Die zweite ist, dass es einen starken Clusteringeffekt auf Attribute Regiongibt, was es schwieriger macht, die Gruppen von Sequenzen zu sehen. Daher entscheiden Sie sich, ein anderes Modell zu erstellen, das nur Sequenzen verwendet, und enthält nicht die Spalten für Region oder Einkommen.

Zurück zum Anfang

Registerkarte "Clusterdiskriminierung"

Auf der Registerkarte " Clusterdiskriminierung " können Sie zwei Cluster vergleichen, um zu bestimmen, welche Attribute einen bestimmten Cluster von einem anderen Cluster unterscheiden. Die Registerkarte enthält vier Spalten: Variablen, Werte, Cluster 1 und Cluster 2. Sie können einen beliebigen Cluster auswählen, der als Cluster 1 und Cluster 2 verwendet werden soll.

Die Spalte "Variablen" teilt Ihnen den Namen des Attributs mit, bei dem es sich entweder um einen Spaltennamen oder eine Kombination aus Spaltennamen und dem Wortübergang kann. In der Spalte "Werte " wird der genaue Wert des Attributs oder des Übergangs angezeigt. Die schattierten Balken in den Spalten für Cluster 1 und Cluster 2 geben die Stärke des Attributs in den Clustern an, die Sie vergleichen. Je länger der Balken ist, desto mehr wird der Cluster wahrscheinlich Fälle mit diesem Attribut enthalten.

So vergleichen Sie zwei Cluster mithilfe der Registerkarte "Clusterdiskriminierung"

  1. Wählen Sie auf der Registerkarte "Clusterdiskriminierung " für "Cluster 1" die Option Pacific Clusteraus.

    Standardmäßig ändert sich die Auswahl für Cluster 2 in "Complement of Pacific Cluster".

    Das herausragende Merkmal, das Pacific Cluster von allen anderen Fällen unterscheidet, ist die Region. Region ist ein so starkes Attribut für das Clustering, das andere Attribute verdeckt. Um diesen Effekt zu vermeiden, versuchen Sie, mehrere der kleineren Cluster miteinander zu vergleichen. In diesem Zusammenhang ändert sich die Liste der Attribute und enthält möglicherweise weitere Übergänge zwischen Modellen.

  2. Suchen Sie eine Übergangszeile, und halten Sie den Mauszeiger über der schattierten Leiste.

    Die Elemente in der Spalte "Werte " können sowohl Zustände als auch Übergänge enthalten. Die Schattierung für jedes Element gibt die Diskriminierungsbewertung an. Weitere Informationen zur Bedeutung verschiedener Punktzahlen finden Sie unter Inhalt von Miningmodellen für Sequenzclusteringmodelle (Analysis Services - Data Mining).

Zurück zum Anfang

Registerkarte "Statusübergänge"

Auf der Registerkarte "Statusübergänge" können Sie einen Cluster auswählen und dessen Zustandsübergänge durchsuchen. Wenn Sie die Population (Alle) aus der Dropdownliste des Clusters auswählen, zeigt das Diagramm die Verteilung der Zustände für das gesamte Miningmodell an.

Jeder Knoten im Diagramm stellt einen Zustand oder einen möglichen Wert der Sequenzen dar, die Sie analysieren möchten. Die Hintergrundfarbe der Knoten stellt die Häufigkeit dieses Zustands dar. Linien verbinden einige Zustände, die einen Übergang zwischen Zuständen angeben. Sie können den Schieberegler nach oben oder unten verschieben, um den Wahrscheinlichkeitsschwellenwert für die Übergänge zu ändern. Zahlen sind einigen Knoten zugeordnet, die die Wahrscheinlichkeit dieses Zustands angeben.

Um die Beziehungen auf der Registerkarte "Statusübergang" zu erkunden

  1. Wählen Sie Pacific Cluster auf der Registerkarte "Statusübergänge" des Miningmodell-Viewers aus der Liste der Cluster aus. Stellen Sie sicher, dass die Option "Edgebeschriftungen anzeigen " ausgewählt ist.

    Das Diagramm wird aktualisiert, um die Übergänge anzuzeigen, die in diesem Cluster am häufigsten vorkommen.

  2. Klicken Sie auf einen beliebigen Knoten, der von einer Linie mit einem anderen Knoten verbunden ist.

    Das Diagramm wird aktualisiert und hebt die zugehörigen Knoten hervor. Der numerische Wert neben der Zeile gibt die Wahrscheinlichkeit des Übergangs an.

  3. Erhöhen Sie den Schieberegler bis zu "Alle Verknüpfungen", um die Anzahl der im Diagramm enthaltenen Übergänge zu erhöhen.

  4. Wählen Sie "Population (Alle)" aus dem Cluster aus.

    Beachten Sie, dass das Diagramm beim Laden eines anderen Clusters auf die Standardanzeigeeinstellungen zurückgesetzt wird, sodass das Schieberegler-Steuerelement auf die mittlere Position zurückgesetzt wird.

  5. Klicken Sie auf den dunkelsten Knoten im Diagramm, der "Sport-100" sein soll.

    Beachten Sie, dass es keine Linien gibt, die dieses Produkt mit anderen Produkten verbinden.

  6. Heben Sie den Schieberegler um einen Schritt nach oben, um die Anzahl der im Diagramm enthaltenen Übergänge zu erhöhen. Gehen Sie noch nicht ganz zu Alle Links.

    Das Diagramm wird aktualisiert, indem mehrere weitere Übergänge zum Diagramm hinzugefügt werden, aber keine, die das Sport-100-Modell enthalten.

  7. Verschieben Sie den Schieberegler ganz auf Alle Links. Klicken Sie auf den Knoten "Sport-100", wenn er noch nicht ausgewählt ist.

    Das Diagramm wird aktualisiert, um viele Übergänge anzuzeigen, die das Sport-100-Produkt enthalten. Die Richtung des Pfeils auf der Verbindungslinie gibt An, ob das Sport-100-Element als erstes Element oder als zweites Element im Paar ausgewählt wurde.

  8. Klicken Sie auf den Knoten für Tourenreifen, und bewegen Sie das Schieberegler-Steuerelement zurück zur mittleren Position.

    Zunächst gibt es viele Übergangslinien, die Touring Tire mit anderen Produkten verbinden, aber wenn Sie die Wahrscheinlichkeitsschwelle erhöhen, werden die weniger wahrscheinlichen Übergänge aus dem Graph entfernt, wobei nur der Übergang, Touring Tire > Touring Tire Tube, übrig bleibt. Dieser Übergang bedeutet: Wenn ein Kunde einen Tourenreifen in den Warenkorb legt, gibt es eine starke Wahrscheinlichkeit, dass der Kunde als Nächstes ein Tourenreifenrohr in den Korb setzen wird.

Zurück zum Anfang

Generische Inhaltsstrukturanzeige

Dieser Viewer kann unabhängig vom Algorithmus oder Modelltyp für alle Modelle verwendet werden. Der MicrosoftGeneric Content Tree Viewer ist in der Dropdownliste "Viewer " verfügbar.

Ein Inhaltsbaum ist eine Darstellung eines Miningmodells als eine Reihe von Knoten, in der jeder Knoten erlerntes Wissen über die Trainingsdaten repräsentiert. Der Knoten kann ein Muster, eine Reihe von Regeln, einen Cluster oder die Definition eines Datumsbereichs enthalten, der einige Attribute gemeinsam verwendet. Der genaue Inhalt des Knotens unterscheidet sich je nach Algorithmus und vorhersagbarem Attribut, aber die allgemeine Darstellung des Inhalts ist identisch.

Sie können jeden Knoten erweitern, um die zunehmenden Detailebenen anzuzeigen und den Inhalt eines beliebigen Knotens in die Zwischenablage zu kopieren. Weitere Informationen finden Sie unter Durchsuchen eines Modells mithilfe der Microsoft Generic Content Tree Viewer.

So zeigen Sie Details für ein Sequenzclusteringmodell mithilfe des generischen Inhaltsstruktur-Viewers an

  1. Klicken Sie auf der Registerkarte Miningmodell-Viewer auf die Viewer-Liste, und wählen Sie „Microsoft Generic Content Tree Viewer“ aus.

  2. Klicken Sie im Bereich "Knotenbeschriftung " auf Pacific Cluster (1).

    Der Name für diesen Knoten enthält sowohl den freundlichen Namen, den Sie dem Cluster zugewiesen haben, als auch die unterliegende Knoten-ID. Sie können die Knoten-IDs verwenden, um einen Drilldown zu zusätzlichen Details im Modell durchzuführen.

  3. Erweitern Sie den ersten untergeordneten Knoten mit dem Namen Sequence-Ebene für Cluster 1.

    Der Knoten auf Sequenzebene für einen Cluster enthält Details zu den Zuständen und Übergängen, die in diesem Cluster enthalten sind. Sie können diese Details verwenden, die in der Spalte NODE_DISTRIBUTION verfügbar sind, um die Sequenzen und die Zustände für jeden Cluster oder das Modell insgesamt zu untersuchen.

  4. Erweitern Sie weiterhin Knoten, und zeigen Sie die Details im HTML-Viewerbereich an.

Weitere Informationen zum Inhalt des Miningmodells und zur Verwendung der Details im Viewer finden Sie unter Mining Model Content for Sequence Clustering Models (Analysis Services - Data Mining).

Zurück zum Anfang

Nächste Aufgabe in der Lektion

Erstellen eines verwandten Sequenz-Clustering-Modells (Tutorial zur fortgeschrittenen Datenanalyse)

Siehe auch

Microsoft Sequence Clustering Algorithm
Beispiele für Sequenzclusteringmodellabfragen