Freigeben über


Erkunden des Clusteringmodells (Grundlegendes Data Mining-Lernprogramm)

Der Microsoft Clustering-Algorithmus gruppiert Fälle in Clustern, die ähnliche Merkmale enthalten. Diese Gruppierungen sind nützlich, um Daten zu untersuchen, Anomalien in den Daten zu identifizieren und Vorhersagen zu erstellen.

Der Microsoft Cluster Viewer bietet die folgenden Registerkarten zum Untersuchen von Clustering-Miningmodellen:

Registerkarte "Clusterdiagramm"

Auf der Registerkarte "Clusterdiagramm" werden alle Cluster angezeigt, die sich in einem Miningmodell befinden. Die Linien zwischen den Clustern stellen "Nähe" dar und werden basierend darauf schattiert, wie ähnlich die Cluster sind. Die tatsächliche Farbe jedes Clusters stellt die Häufigkeit der Variablen und des Zustands im Cluster dar.

So erkunden Sie das Modell auf der Registerkarte "Clusterdiagramm"

  1. Verwenden Sie die Miningmodellliste oben auf der Registerkarte "Miningmodellanzeige", um zum Modell zu TM_Clustering wechseln.

  2. Wählen Sie in der Liste "Viewer"die Option "Microsoft Cluster Viewer" aus.

  3. Wählen Sie im Feld " Schattierungsvariable " die Option "Bike Buyer" aus.

    Die Standardvariable ist "Population". Sie können dies jedoch in ein beliebiges Attribut im Modell ändern, um zu ermitteln, welche Cluster Member mit den gewünschten Attributen enthalten.

  4. Wählen Sie im Feld "Bundesland" 1 aus, um die Fälle zu erkunden, in denen ein Fahrrad gekauft wurde.

    Die Dichtelegende beschreibt die Dichte des Attributstatuspaars, das in der Schattierungsvariable und im Zustand ausgewählt ist. In diesem Beispiel wird uns mitgeteilt, dass der Cluster mit der dunkelsten Schattierung den höchsten Prozentsatz der Fahrradkäufer hat.

  5. Fahren Sie mit der Maus über den Cluster mit der dunkelsten Schattierung.

    Ein Tooltip zeigt den Prozentsatz der Fälle an, die das Attribut aufweisen. Bike Buyer = 1

  6. Wählen Sie den Cluster mit der höchsten Dichte aus, klicken Sie mit der rechten Maustaste auf den Cluster, wählen Sie "Cluster umbenennen " aus, und geben Sie "Bike Buyers High " ein, um später zu identifizieren. Klicke auf OK.

  7. Suchen Sie den Cluster mit der hellsten Schattierung (und der niedrigsten Dichte). Klicken Sie mit der rechten Maustaste auf den Cluster, wählen Sie "Cluster umbenennen " aus, und geben Sie "Fahrradkäufer niedrig" ein. Klicke auf OK.

  8. Klicken Sie auf den Bike Buyers High-Cluster und ziehen Sie ihn in einen Bereich der Anzeige, der Ihnen eine klare Sicht auf seine Verbindungen zu den anderen Clustern gibt.

    Wenn Sie einen Cluster auswählen, werden die Linien, die diesen Cluster mit anderen Clustern verbinden, hervorgehoben, sodass Sie alle Beziehungen für diesen Cluster problemlos sehen können. Wenn der Cluster nicht ausgewählt ist, können Sie durch die Dunkelheit der Linien erkennen, wie stark die Beziehungen zwischen allen Clustern im Diagramm sind. Wenn die Schattierung hell oder nicht vorhanden ist, sind die Cluster nicht sehr ähnlich.

  9. Verwenden Sie den Schieberegler links vom Netzwerk, um die schwächeren Verknüpfungen herauszufiltern und die Cluster mit den nächstgelegenen Beziehungen zu finden. Die Marketingabteilung von Adventure Works Cycles möchte möglicherweise ähnliche Cluster zusammenführen, wenn sie die beste Methode zur Bereitstellung des zielgerichteten Mailings bestimmen.

Registerkarte "Clusterprofile"

Die Registerkarte "Clusterprofile " bietet eine Allgemeine Ansicht des TM_Clustering Modells. Die Registerkarte "Clusterprofile " enthält eine Spalte für jeden Cluster im Modell. In der ersten Spalte werden die Attribute aufgelistet, die mindestens einem Cluster zugeordnet sind. Der Rest des Viewers enthält die Verteilung der Zustände eines Attributs für jeden Cluster. Die Verteilung einer einzelnen Variablen wird als farbiger Balken mit der maximalen Anzahl von Balken angezeigt, die in der Liste der Histogramme angezeigt werden. Fortlaufende Attribute werden mit einem Rautendiagramm angezeigt, das die Mittel- und Standardabweichung in jedem Cluster darstellt.

So erkunden Sie das Modell auf der Registerkarte "Clusterprofile"

  1. Legen Sie Histogrammbalken auf 5 fest.

    In unserem Modell ist 5 die maximale Anzahl von Zuständen für eine variable.

  2. Wenn die Mining-Legende die Anzeige der Attributprofile blockiert, schieben Sie sie beiseite.

  3. Wählen Sie die Spalte "Bike Buyers High " aus, und ziehen Sie sie rechts neben der Spalte " Bevölkerung ".

  4. Wählen Sie die Spalte "Bike Buyers Low " aus, und ziehen Sie sie rechts neben der Spalte "Bike Buyers High ".

  5. Klicken Sie auf die Spalte "Bike Buyers High ".

    Die Spalte "Variablen" wird in der Reihenfolge sortiert, die für diesen Cluster von Bedeutung ist. Scrollen Sie durch die Spalte, und überprüfen Sie die Merkmale des Bike Buyer High Clusters. Zum Beispiel ist es wahrscheinlicher, dass sie einen kurzen Wegweg haben.

  6. Doppelklicken Sie in der Spalte "Bike Buyers High" auf die Zelle "Alter".

    Die Mininglegende zeigt eine detailliertere Ansicht an, und Sie können die Altersspanne dieser Kunden sowie das mittlere Alter sehen.

  7. Klicken Sie mit der rechten Maustaste auf die Spalte „Bike Buyers Low“, und wählen Sie „Spalte Ausblenden“ aus.

Registerkarte "Clustermerkmale"

Auf der Registerkarte "Clustermerkmale " können Sie die Merkmale eines Clusters genauer untersuchen. Anstatt die Merkmale aller Cluster (wie auf der Registerkarte "Clusterprofile") zu vergleichen, können Sie jeweils einen Cluster erkunden. Wenn Sie beispielsweise "Bike Buyers High " aus der Clusterliste auswählen, können Sie die Merkmale der Kunden in diesem Cluster sehen. Obwohl sich die Anzeige vom Clusterprofile-Viewer unterscheidet, sind die Ergebnisse identisch.

Hinweis

Wenn Sie nicht einen Anfangswert für "Holdoutseed" festlegen, variieren die Ergebnisse jedes Mal, wenn Sie das Modell verarbeiten. Weitere Informationen finden Sie unter "HoldoutSeed"-Element

Registerkarte "Clusterdiskriminierung"

Auf der Registerkarte " Clusterdiskriminierung " können Sie die Merkmale untersuchen, die einen Cluster voneinander unterscheiden. Nachdem Sie zwei Cluster ausgewählt haben, eine aus der Liste " Cluster 1 " und eine aus der Liste "Cluster 2 ", berechnet der Viewer die Unterschiede zwischen den Clustern und zeigt eine Liste der Attribute an, die die meisten Cluster unterscheiden.

So erkunden Sie das Modell auf der Registerkarte "Clusterdiskriminierung"

  1. Wählen Sie im Cluster 1-Feld die Option Bike Buyers High aus.

  2. Wählen Sie im Feld "Cluster 2 " die Option "Fahrradkäufer niedrig" aus.

  3. Klicken Sie auf Variablen , um alphabetisch zu sortieren.

    Einige der deutlicheren Unterschiede zwischen den Kunden in den Bike Buyers Low - und Bike Buyers High-Clustern sind Alter, Autobesitz, Anzahl von Kindern und Region.

Weitere Informationen zu den anderen Miningmodellen finden Sie in den folgenden Themen.

Nächste Aufgabe in der Lektion

Erkunden des Naive Bayes-Modells (Grundlegendes Data Mining-Lernprogramm)

Vorheriger Vorgang in Lektion

Erkunden des Entscheidungsstrukturmodells (Grundlegendes Data Mining-Lernprogramm)

Siehe auch

Durchsuchen eines Modells mithilfe des Microsoft Cluster Viewers
Reiter "Cluster-Diskriminierung" (Mining Model Viewer)
Registerkarte "Clusterprofile" (Miningmodell-Viewer)
Registerkarte "Clustermerkmale" (Miningmodell-Viewer)
Registerkarte "Clusterdiagramm" (Miningmodell-Viewer)