Freigeben über


Microsoft Clustering-Algorithmus

Der Microsoft Clustering-Algorithmus ist ein Segmentierungsalgorithmus, der von Analysis Services bereitgestellt wird. Der Algorithmus verwendet iterative Techniken, um Fälle in einem Dataset in Clustern zu gruppieren, die ähnliche Merkmale enthalten. Diese Gruppierungen sind nützlich, um Daten zu untersuchen, Anomalien in den Daten zu identifizieren und Vorhersagen zu erstellen.

Clusteringmodelle identifizieren Beziehungen in einem Dataset, die Sie möglicherweise nicht logisch durch zufällige Beobachtung ableiten. Beispielsweise können Sie logisch erkennen, dass Menschen, die mit dem Fahrrad zu ihren Arbeitsplätzen pendeln, in der Regel keine lange Entfernung davon leben, wo sie arbeiten. Der Algorithmus kann jedoch andere Merkmale von Fahrradpendlern finden, die nicht so offensichtlich sind. Im folgenden Diagramm stellt Cluster A Daten zu Personen dar, die dazu neigen, mit dem Auto zur Arbeit zu fahren, während Cluster B Daten zu Personen zeigt, die dazu neigen, mit dem Fahrrad zur Arbeit zu fahren.

Clustermuster von Pendlertendenzen

Der Clusteringalgorithmus unterscheidet sich von anderen Data Mining-Algorithmen, z. B. dem Microsoft Decision Trees-Algorithmus, da Sie keine vorhersagbare Spalte festlegen müssen, um ein Clusteringmodell erstellen zu können. Der Clusteringalgorithmus trainiert das Modell streng aus den Beziehungen, die in den Daten vorhanden sind, und aus den Clustern, die der Algorithmus identifiziert.

Beispiel

Betrachten Sie eine Gruppe von Personen, die ähnliche demografische Informationen teilen und ähnliche Produkte aus dem Adventure Works-Unternehmen kaufen. Diese Personengruppe stellt einen Datencluster dar. In einer Datenbank können mehrere solche Cluster vorhanden sein. Indem Sie die Spalten beobachten, aus denen ein Cluster besteht, können Sie deutlicher sehen, wie Datensätze in einem Dataset miteinander verknüpft sind.

Funktionsweise des Algorithmus

Der Microsoft Clustering-Algorithmus identifiziert zunächst Beziehungen in einem Dataset und generiert eine Reihe von Clustern basierend auf diesen Beziehungen. Ein Punktdiagramm ist eine nützliche Möglichkeit, um visuell darzustellen, wie der Algorithmus Daten gruppiert, wie im folgenden Diagramm dargestellt. Das Streudiagramm stellt alle Fälle im Datensatz dar, und jeder Fall ist ein Punkt auf dem Diagramm. Die Cluster gruppieren Punkte im Diagramm und veranschaulichen die Beziehungen, die der Algorithmus identifiziert.

Streudiagramm der Fälle in einem Datensatz

Nach dem ersten Definieren der Cluster berechnet der Algorithmus, wie gut die Cluster Gruppierungen der Punkte darstellen, und versucht dann, die Gruppierungen neu zu definieren, um Cluster zu erstellen, die die Daten besser darstellen. Der Algorithmus durchläuft diesen Prozess, bis er die Ergebnisse nicht mehr verbessern kann, indem die Cluster neu definiert werden.

Sie können die Funktionsweise des Algorithmus anpassen, indem Sie eine Angeben einer Clusteringtechnik auswählen, die maximale Anzahl von Clustern einschränken oder die Menge der Unterstützung ändern, die zum Erstellen eines Clusters erforderlich ist. Weitere Informationen finden Sie in der technischen Referenz zum Microsoft Clustering-Algorithmus.

Für Clusteringmodelle erforderliche Daten

Wenn Sie Daten für die Verwendung in der Schulung eines Clusteringmodells vorbereiten, sollten Sie die Anforderungen für den jeweiligen Algorithmus verstehen, einschließlich der benötigten Daten und der Verwendung der Daten.

Die Anforderungen für ein Clusteringmodell sind wie folgt:

  • Eine einzelne Schlüsselspalte Jedes Modell muss eine numerische oder Textspalte enthalten, die jeden Datensatz eindeutig identifiziert. Zusammengesetzte Schlüssel sind nicht zulässig.

  • Eingabespalten Jedes Modell muss mindestens eine Eingabespalte enthalten, die die Werte enthält, die zum Erstellen der Cluster verwendet werden. Sie können beliebig viele Eingabespalten haben, aber je nach Anzahl der Werte in jeder Spalte kann das Hinzufügen zusätzlicher Spalten die Zeit erhöhen, die zum Trainieren des Modells benötigt wird.

  • Optionale vorhersehbare Spalte Der Algorithmus benötigt keine vorhersagbare Spalte, um das Modell zu erstellen, aber Sie können eine vorhersagbare Spalte von fast jedem Datentyp hinzufügen. Die Werte der vorhersagbaren Spalte können als Eingabe für das Clusteringmodell behandelt werden, oder Sie können angeben, dass sie nur für die Vorhersage verwendet wird. Wenn Sie z. B. das Kundeneinkommen prognostizieren möchten, indem Sie demografische Daten wie Region oder Alter gruppieren, geben Sie ein Einkommen als PredictOnly und fügen alle anderen Spalten wie Region oder Alter als Eingaben hinzu.

Ausführlichere Informationen zu den für Clusteringmodellen unterstützten Inhaltstypen und Datentypen finden Sie im Abschnitt "Anforderungen" des Technischen Verweises auf den Microsoft Clustering-Algorithmus.

Anzeige eines Clustermodells

Um das Modell zu erkunden, können Sie den Microsoft Cluster Viewer verwenden. Wenn Sie ein Clustermodell anzeigen, zeigt Analysis Services die Cluster in einem Diagramm an, das die Beziehungen zwischen Clustern darstellt, und stellt außerdem ein detailliertes Profil der einzelnen Cluster, eine Liste der Attribute bereit, die jeden Cluster von den anderen unterscheiden, sowie die Merkmale des gesamten Schulungsdatensatzes. Weitere Informationen finden Sie unter Durchsuchen eines Modells mithilfe des Microsoft Cluster Viewers.

Wenn Sie weitere Details wissen möchten, können Sie das Modell im Microsoft Generic Content Tree Viewer durchsuchen. Der für das Modell gespeicherte Inhalt enthält die Verteilung für alle Werte in jedem Knoten, die Wahrscheinlichkeit jedes Clusters und andere Informationen. Weitere Informationen finden Sie unter Miningmodellinhalt für Clusteringmodelle (Analysis Services – Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell trainiert wurde, werden die Ergebnisse als eine Reihe von Mustern gespeichert, die Sie untersuchen oder verwenden können, um Vorhersagen zu erstellen.

Sie können Abfragen erstellen, um Vorhersagen darüber zurückzugeben, ob neue Daten in die ermittelten Cluster passen oder um beschreibende Statistiken zu den Clustern zu erhalten.

Informationen zum Erstellen von Abfragen für ein Data Mining-Modell finden Sie unter Data Mining-Abfragen. Beispiele für die Verwendung von Abfragen mit einem Clusteringmodell finden Sie unter Clustering Model Query Examples.

Bemerkungen

  • Unterstützt die Verwendung von Predictive Model Markup Language (PMML) zum Erstellen von Miningmodellen.

  • Unterstützt Drillthrough.

  • Unterstützt die Verwendung von OLAP-Miningmodellen und die Erstellung von Data Mining-Dimensionen.

Siehe auch

Daten-Mining-Algorithmen (Analyse-Services - Daten-Mining)Technische Referenz zum Microsoft-Clustering-AlgorithmusInhaltsdaten von Mining-Modellen für Clustering-Modelle (Analyse-Services - Daten-Mining)Beispiele für Anfragen an Clustering-Modelle