Freigeben über


Microsoft-Sequenz-Clustering-Algorithmus

Der Microsoft Sequence Clustering-Algorithmus ist ein Sequenzanalysealgorithmus, der von Microsoft SQL Server Analysis Services bereitgestellt wird. Mit diesem Algorithmus können Sie Daten untersuchen, die Ereignisse enthalten, die mithilfe von Pfaden oder Sequenzen verknüpft werden können. Der Algorithmus findet die am häufigsten verwendeten Sequenzen durch Gruppieren oder Clustering von Sequenzen, die identisch sind. Im Folgenden finden Sie einige Beispiele für Daten, die Sequenzen enthalten, die für data Mining verwendet werden können, um Einblicke in häufige Probleme oder Geschäftsszenarien zu bieten:

  • Klicken Sie auf Pfade, die beim Navigieren oder Durchsuchen einer Website erstellt werden.

  • Protokolliert ereignisse, die einem Vorfall vorausgehen, z. B. Festplattenfehler oder Server-Deadlocks.

  • Transaktionsdatensätze, die die Reihenfolge beschreiben, in der ein Kunde Einem Einkaufswagen in einem Onlinehändler Artikel hinzufügt.

  • Aufzeichnungen, die Kunden- (oder Patienten-) interaktionen über die Zeit verfolgen, um Dienstausfälle oder andere negative Ergebnisse vorherzusagen.

Dieser Algorithmus ähnelt in vielerlei Hinsicht dem Microsoft Clustering-Algorithmus. Anstatt Cluster von Fällen zu finden, die ähnliche Attribute enthalten, findet der Microsoft Sequence Clustering-Algorithmus Cluster von Fällen, die ähnliche Pfade in einer Sequenz aufweisen.

Beispiel

Die Adventure Works Cycles-Website sammelt Informationen darüber, welche Seiten Websitebenutzer besuchen, und über die Reihenfolge, in der die Seiten besucht werden. Da das Unternehmen Onlinebestellungen bereitstellt, müssen sich Kunden bei der Website anmelden. Dadurch erhält das Unternehmen Klickinformationen für jedes Kundenprofil. Mithilfe des Microsoft Sequence Clustering-Algorithmus für diese Daten kann das Unternehmen Gruppen oder Cluster von Kunden finden, die ähnliche Muster oder Sequenzen von Klicks haben. Das Unternehmen kann diese Cluster dann verwenden, um zu analysieren, wie Benutzer durch die Website navigieren, um zu ermitteln, welche Seiten am ehesten mit dem Verkauf eines bestimmten Produkts verbunden sind, und um vorherzusagen, welche Seiten am ehesten als nächstes besucht werden.

Funktionsweise des Algorithmus

Der Microsoft Sequence Clustering-Algorithmus ist ein Hybridalgorithmus, der Clustering-Techniken mit Markov-Kettenanalyse kombiniert, um Cluster und ihre Sequenzen zu identifizieren. Eines der Merkmale des Microsoft Sequence Clustering-Algorithmus besteht darin, dass sequenzische Daten verwendet werden. Diese Daten stellen in der Regel eine Reihe von Ereignissen oder Übergängen zwischen Zuständen in einem Dataset dar, z. B. eine Reihe von Produktkäufen oder Webklicks für einen bestimmten Benutzer. Der Algorithmus untersucht alle Übergangswahrscheinlichkeiten und misst die Unterschiede oder Abstände zwischen allen möglichen Sequenzen im Dataset, um zu bestimmen, welche Sequenzen am besten als Eingaben für clustering verwendet werden sollen. Nachdem der Algorithmus die Liste der Kandidatensequenzen erstellt hat, verwendet er die Sequenzinformationen als Eingabe für die EM-Methode des Clusterings.

Eine detaillierte Beschreibung der Implementierung finden Sie in der technischen Referenz zu Microsoft Sequence Clustering Algorithm.

Für Sequenzclusteringmodelle erforderliche Daten

Wenn Sie Daten für die Verwendung in der Schulung eines Sequenzclusteringmodells vorbereiten, sollten Sie die Anforderungen für den jeweiligen Algorithmus verstehen, einschließlich der benötigten Daten und der Verwendung der Daten.

Die Anforderungen für ein Sequenzclusteringmodell sind wie folgt:

  • Eine einzelne Schlüsselspalte Ein Sequenzclusteringmodell erfordert einen Schlüssel, der Datensätze identifiziert.

  • Eine Sequenzspalte Für Sequenzdaten muss das Modell über eine geschachtelte Tabelle verfügen, die eine Sequenz-ID-Spalte enthält. Die Sequenz-ID kann beliebige sortierbare Datentypen sein. Sie können z. B. einen Webseitenbezeichner, eine ganze Zahl oder eine Textzeichenfolge verwenden, solange die Spalte die Ereignisse in einer Sequenz identifiziert. Für jede Sequenz ist nur ein Sequenzbezeichner zulässig, und in jedem Modell ist nur ein Sequenztyp zulässig.

  • Optionale nicht sequenzielle Attribute Der Algorithmus unterstützt das Hinzufügen anderer Attribute, die nicht mit der Sequenzierung zusammenhängen. Diese Attribute können geschachtelte Spalten enthalten.

In dem beispiel, das weiter oben auf der Adventure Works Cycles-Website zitiert wurde, kann ein Sequenzclustermodell Bestellinformationen als Falltabelle, demografische Daten über den jeweiligen Kunden für jede Bestellung als nicht sequenzielle Attribute und eine geschachtelte Tabelle enthalten, in der der Kunde die Website durchsucht hat, oder Elemente als Sequenzinformationen in einen Einkaufswagen einfügen.

Ausführlichere Informationen zu den inhaltstypen und Datentypen, die für Sequenzclusteringmodelle unterstützt werden, finden Sie im Abschnitt "Anforderungen" des Technischen Verweises auf den Microsoft Sequence Clustering Algorithm.

Anzeigen eines Sequenzclusteringmodells

Das von diesem Algorithmus erstellten Miningmodell enthält Beschreibungen der am häufigsten verwendeten Sequenzen in den Daten. Um das Modell zu erkunden, können Sie den Microsoft Sequence Cluster Viewer verwenden. Wenn Sie ein Sequenzclusteringmodell anzeigen, zeigt Analysis Services Cluster an, die mehrere Übergänge enthalten. Sie können auch relevante Statistiken anzeigen. Weitere Informationen finden Sie unter Durchsuchen eines Modells mit dem Microsoft Sequence Cluster Viewer.

Wenn Sie weitere Details wissen möchten, können Sie das Modell im Microsoft Generic Content Tree Viewer durchsuchen. Der für das Modell gespeicherte Inhalt enthält die Verteilung für alle Werte in jedem Knoten, die Wahrscheinlichkeit jedes Clusters und Details zu den Übergängen. Weitere Informationen finden Sie unter Miningmodellinhalt für Sequenzclusteringmodelle (Analysis Services - Data Mining).For more information, see Mining Model Content for Sequence Clustering Models (Analysis Services - Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell trainiert wurde, werden die Ergebnisse als Eine Reihe von Mustern gespeichert. Sie können die Beschreibungen der am häufigsten verwendeten Sequenzen in den Daten verwenden, um den nächsten wahrscheinlichen Schritt einer neuen Sequenz vorherzusagen. Da der Algorithmus jedoch andere Spalten enthält, können Sie das resultierende Modell verwenden, um Beziehungen zwischen sequenzierten Daten und Eingaben zu identifizieren, die nicht sequenziell sind. Wenn Sie dem Modell beispielsweise demografische Daten hinzufügen, können Sie Vorhersagen für bestimmte Kundengruppen erstellen. Vorhersageabfragen können angepasst werden, um eine variable Anzahl von Vorhersagen zurückzugeben oder beschreibende Statistiken zurückzugeben.

Informationen zum Erstellen von Abfragen für ein Data Mining-Modell finden Sie unter Data Mining-Abfragen. Beispiele für die Verwendung von Abfragen mit einem Sequenzclusteringmodell finden Sie unter Sequence Clustering Model Query Examples.

Bemerkungen

  • Unterstützt nicht die Verwendung von Predictive Model Markup Language (PMML) zum Erstellen von Miningmodellen.

  • Unterstützt Drillthrough.

  • Unterstützt die Verwendung von OLAP-Miningmodellen und die Erstellung von Data Mining-Dimensionen.

Siehe auch

Data Mining-Algorithmen (Analysis Services - Data Mining)
Technische Referenz zu Microsoft Sequence Clustering Algorithm
Beispiele für Sequenzclusteringmodellabfragen
Durchsuchen eines Modells mithilfe des Microsoft Sequence Cluster Viewers