Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der Microsoft Sequence Clustering-Algorithmus ist ein Hybridalgorithmus, der Markov-Kettenanalyse verwendet, um sortierte Sequenzen zu identifizieren, und kombiniert die Ergebnisse dieser Analyse mit Clustering-Techniken, um Cluster basierend auf den Sequenzen und anderen Attributen im Modell zu generieren. In diesem Thema wird die Implementierung des Algorithmus, das Anpassen des Algorithmus und spezielle Anforderungen für Sequenzclusteringmodelle beschrieben.
Allgemeine Informationen zum Algorithmus, einschließlich der Vorgehensweise zum Durchsuchen und Abfragen von Clusteringmodellen, finden Sie unter Microsoft Sequence Clustering Algorithm.
Implementierung des Microsoft Sequence Clustering Algorithm
Das Microsoft Sequence Clustering-Modell verwendet Markov-Modelle, um Sequenzen zu identifizieren und die Wahrscheinlichkeit von Sequenzen zu bestimmen. Ein Markov-Modell ist ein gerichtetes Diagramm, das die Übergänge zwischen verschiedenen Zuständen speichert. Der Microsoft Sequence Clustering-Algorithmus verwendet n-order Markov-Ketten und kein Hidden Markov-Modell.
Die Anzahl der Ordnungen in einer Markov-Kette gibt an, wie viele Zustände verwendet werden, um die Wahrscheinlichkeit des aktuellen Zustands zu bestimmen. In einem First-Order-Markov-Modell hängt die Wahrscheinlichkeit des aktuellen Zustands nur vom vorherigen Zustand ab. In einer zweiten Markov-Kette hängt die Wahrscheinlichkeit eines Zustands von den vorherigen beiden Zuständen ab usw. ab. Für jede Markov-Kette speichert eine Übergangsmatrix die Übergänge für jede Kombination von Zuständen. Da sich die Länge der Markov-Kette erhöht, nimmt die Größe der Matrix ebenfalls exponentiell zu, und die Matrix wird extrem spärlich. Auch die Verarbeitungszeit erhöht sich proportional.
Es kann hilfreich sein, die Kette mithilfe des Beispiels der Clickstream-Analyse zu visualisieren, die Besuche auf Webseiten auf einer Website analysiert. Jeder Benutzer erstellt eine lange Sequenz von Klicks für jede Sitzung. Wenn Sie ein Modell zum Analysieren des Benutzerverhaltens auf einer Website erstellen, handelt es sich bei dem für die Schulung verwendeten Dataset um eine Sequenz von URLs, die in ein Diagramm konvertiert wird, das die Anzahl aller Instanzen desselben Klickpfads enthält. Beispielsweise enthält das Diagramm die Wahrscheinlichkeit, dass der Benutzer von Seite 1 zu Seite 2 (10%), die Wahrscheinlichkeit, dass der Benutzer von Seite 1 zu Seite 3 (20%) wechselt usw. Wenn Sie alle möglichen Pfade und Teile der Pfade zusammensetzen, erhalten Sie ein Diagramm, das viel länger und komplexer als jeder einzelne beobachtete Pfad sein kann.
Standardmäßig verwendet der Microsoft Sequence Clustering-Algorithmus die Em-Methode (Erwartungsmaximierung) des Clusterings. Weitere Informationen finden Sie in der technischen Referenz zum Microsoft Clustering-Algorithmus.
Die Ziele der Clustering sind sowohl die sequenziellen als auch die nichtsequentialen Attribute. Jeder Cluster wird zufällig mit einer Wahrscheinlichkeitsverteilung ausgewählt. Jeder Cluster verfügt über eine Markov-Kette, die den vollständigen Satz von Pfaden darstellt, und eine Matrix, die die Sequenzstatusübergänge und -wahrscheinlichkeiten enthält. Basierend auf der Anfangsverteilung wird die Bayes-Regel verwendet, um die Wahrscheinlichkeit eines Attributs, einschließlich einer Sequenz, in einem bestimmten Cluster zu berechnen.
Der Microsoft Sequence Clustering-Algorithmus unterstützt die zusätzlichen nichtsequentialen Attribute für das Modell. Dies bedeutet, dass diese zusätzlichen Attribute mit den Sequenzattributen kombiniert werden, um Cluster von Fällen mit ähnlichen Attributen zu erstellen, genau wie in einem typischen Clusteringmodell.
Ein Sequenzclustermodell tendiert dazu, viele mehr Cluster zu erstellen als ein typisches Clusteringmodell. Daher führt der Microsoft Sequence Clustering-Algorithmus die Clusterdekompositiondurch, um Cluster basierend auf Sequenzen und anderen Attributen zu trennen.
Featureauswahl in einem Sequenzclusteringmodell
Die Featureauswahl wird beim Erstellen von Sequenzen nicht aufgerufen. Die Featureauswahl gilt jedoch in der Clusterphase.
| Modelltyp | Merkmalsauswahl-Methode | Kommentare |
|---|---|---|
| Sequenzklassifizierung | Nicht verwendet | Die Featureauswahl wird nicht aufgerufen; Sie können jedoch das Verhalten des Algorithmus steuern, indem Sie den Wert der Parameter MINIMUM_SUPPORT und MINIMUM_PROBABILIITY festlegen. |
| Clusterbildung | Interessantheitsbewertung | Obwohl der Clusteringalgorithmus diskrete oder diskretisierte Algorithmen verwenden kann, wird die Bewertung jedes Attributs als Entfernung berechnet und ist fortlaufend; daher wird die Interessanteheitsbewertung verwendet. |
Weitere Informationen finden Sie unter Merkmalauswahl.
Optimieren der Leistung
Der Microsoft Sequence Clustering-Algorithmus unterstützt verschiedene Möglichkeiten zur Optimierung der Verarbeitung:
Steuern der Anzahl der generierten Cluster durch Festlegen eines Werts für den CLUSTER_COUNT-Parameter.
Verringern sie die Anzahl der Sequenzen, die als Attribute enthalten sind, indem Sie den Wert des MINIMUM_SUPPORT-Parameters erhöhen. Daher werden seltene Sequenzen eliminiert.
Verringern Der Komplexität vor der Verarbeitung des Modells durch Gruppieren verwandter Attribute.
Im Allgemeinen können Sie die Leistung einer Markow-Kette n-ter Ordnung auf unterschiedliche Weise optimieren.
Steuern der Länge der möglichen Sequenzen.
Programmgesteuerte Reduzierung des Werts von n.
Speichern sie nur Wahrscheinlichkeiten, die einen angegebenen Schwellenwert überschreiten.
Eine vollständige Erläuterung dieser Methoden geht über den Rahmen dieses Themas hinaus.
Anpassen des Sequenzclusteringalgorithmus
Der Microsoft Sequence Clustering-Algorithmus unterstützt Parameter, die sich auf das Verhalten, die Leistung und genauigkeit des resultierenden Miningmodells auswirken. Sie können auch das Verhalten des abgeschlossenen Modells ändern, indem Sie Modellierungskennzeichnungen festlegen, die steuern, wie der Algorithmus Schulungsdaten verarbeitet.
Festlegen von Algorithmusparametern
In der folgenden Tabelle werden die Parameter beschrieben, die mit dem Microsoft Sequence Clustering-Algorithmus verwendet werden können.
Clusteranzahl
Gibt die ungefähre Anzahl von Clustern an, die vom Algorithmus erstellt werden sollen. Wenn die ungefähre Anzahl von Clustern nicht aus den Daten erstellt werden kann, erstellt der Algorithmus so viele Cluster wie möglich. Das Festlegen des CLUSTER_COUNT-Parameters auf 0 bewirkt, dass der Algorithmus Heuristiken verwendet, um die Anzahl der zu erstellenden Cluster am besten zu bestimmen.
Der Standardwert ist 10.
Hinweis
Die Angabe einer Nicht-Null-Zahl dient als Hinweis auf den Algorithmus, der mit dem Ziel fortgeht, die angegebene Zahl zu finden, aber möglicherweise mehr oder weniger zu finden.
MINDESTUNTERSTÜTZUNG
Gibt die Mindestanzahl der Fälle an, die zur Unterstützung eines Attributs zum Erstellen eines Clusters erforderlich sind.
Der Standardwert ist 10.
MAXIMALE_SEQUENCE_ZUSTÄNDE
Gibt die maximale Anzahl von Zuständen an, die eine Sequenz aufweisen kann.
Das Festlegen dieses Werts auf eine Zahl größer als 100 kann dazu führen, dass der Algorithmus ein Modell erstellt, das keine aussagekräftigen Informationen bereitstellt.
Der Standardwert ist 64.
MAXIMALE_ZUSTÄNDE
Gibt die maximale Anzahl von Zuständen für ein nicht sequenzielles Attribut an, das der Algorithmus unterstützt. Wenn die Anzahl der Zustände für ein Nicht-Sequenz-Attribut größer als die maximale Anzahl von Zuständen ist, verwendet der Algorithmus die am häufigsten verwendeten Zustände des Attributs und behandelt die verbleibenden Zustände als Missing.
Der Standard ist 100.
Modellierung von Flaggen
Die folgenden Modellierungskennzeichnungen werden für die Verwendung mit dem Microsoft Sequence Clustering-Algorithmus unterstützt.
NICHT NULL
Gibt an, dass die Spalte keinen Nullwert enthalten kann. Ein Fehler führt dazu, dass Analysis Services während der Modellschulung auf einen Nullwert stößt.
Gilt für die Miningstrukturspalte.
N/A (No improvements necessary unless context provides a translatable equivalent requiring alteration).
Bedeutet, dass die Spalte mit zwei möglichen Zuständen behandelt wird: Missing und Existing. Ein Nullwert wird als Missing Wert behandelt.
Gilt für die Miningmodellspalte.
Weitere Informationen zur Verwendung fehlender Werte in Miningmodellen und dazu, wie sich fehlende Werte auf Wahrscheinlichkeitsergebnisse auswirken, finden Sie unter Fehlende Werte (Analysis Services - Data Mining).For more information about the use of Missing values in mining models, and how missing values affect probability score, see Missing Values (Analysis Services - Data Mining).
Anforderungen
Die Falltabelle muss über eine Fall-ID-Spalte verfügen. Optional kann die Falltabelle andere Spalten enthalten, die Attribute zu dem Fall speichern.
Der Microsoft Sequence Clustering-Algorithmus erfordert Sequenzinformationen, die als geschachtelte Tabelle gespeichert sind. Die geschachtelte Tabelle muss über eine einzelne Schlüsselsequenzspalte verfügen. Eine Key Sequence Spalte kann jeden Datentyp enthalten, der sortiert werden kann, einschließlich Zeichenfolgendatentypen, aber die Spalte muss eindeutige Werte für jeden Fall enthalten. Außerdem müssen Sie, bevor Sie das Modell verarbeiten, sicherstellen, dass sowohl die Falltabelle als auch die geschachtelte Tabelle in aufsteigender Reihenfolge auf dem Schlüssel sortiert werden, der die Tabellen bezieht.
Hinweis
Wenn Sie ein Modell erstellen, das den Microsoft Sequence-Algorithmus verwendet, aber keine Sequenzspalte verwendet, enthält das resultierende Modell keine Sequenzen, sondern gruppiert einfach Fälle basierend auf anderen Attributen, die im Modell enthalten sind.
Eingabe- und vorhersagbare Spalten
Der Microsoft Sequence Clustering-Algorithmus unterstützt die spezifischen Eingabespalten und vorhersagbare Spalten, die in der folgenden Tabelle aufgeführt sind. Weitere Informationen dazu, was die Inhaltstypen bedeuten, wenn sie in einem Miningmodell verwendet werden, finden Sie unter Content Types (Data Mining).
| Kolumne | Inhaltstypen |
|---|---|
| Eingabeattribute | Fortlaufend, zyklische, diskrete, diskretisierte, Schlüssel, Schlüsselsequenz, Tabelle und sortiert |
| Vorhersehbares Attribut | Fortlaufend, Zyklische, Diskrete, Diskretisierte, Tabelle und Sortiert |
Bemerkungen
Verwenden Sie die Funktion PredictSequence (DMX) für die Vorhersage von Sequenzen. Weitere Informationen zu den Editionen von SQL Server, die Sequenzvorhersage unterstützen, finden Sie unter Features, die von den Editionen von SQL Server 2012 (https://go.microsoft.com/fwlink/?linkid=232473) unterstützt werden.
Der Microsoft Sequence Clustering-Algorithmus unterstützt nicht die Verwendung der Predictive Model Markup Language (PMML) zum Erstellen von Miningmodellen.
Der Microsoft Sequence Clustering-Algorithmus unterstützt Drillthrough, die Verwendung von OLAP-Miningmodellen und die Verwendung von Data Mining-Dimensionen.
Siehe auch
Microsoft Sequence Clustering Algorithm
Beispiele für Sequenzclusteringmodellabfragen
Miningmodellinhalt für Sequenzclusteringmodelle (Analysis Services - Data Mining)