Microsoft Decision Trees-Algorithmus

Der Microsoft Decision Trees-Algorithmus ist ein Klassifizierungs- und Regressionsalgorithmus, der von Microsoft SQL Server Analysis Services zur Verwendung in der prädiktiven Modellierung von diskreten und kontinuierlichen Attributen bereitgestellt wird.

Bei diskreten Attributen erstellt der Algorithmus Vorhersagen basierend auf den Beziehungen zwischen Eingabespalten in einem Dataset. Es verwendet die Werte, die als Zustände bezeichnet werden, dieser Spalten, um die Zustände einer Spalte vorherzusagen, die Sie als vorhersagbar festlegen. Insbesondere identifiziert der Algorithmus die Eingabespalten, die mit der vorhersagbaren Spalte korreliert sind. In einem Szenario beispielsweise, um vorherzusagen, welche Kunden wahrscheinlich ein Fahrrad kaufen, wenn neun von zehn jüngeren Kunden ein Fahrrad kaufen, aber nur zwei von zehn älteren Kunden dies tun, leitet der Algorithmus ab, dass dieses Alter ein guter Prädiktor des Fahrradkaufs ist. Die Entscheidungsstruktur macht Vorhersagen basierend auf dieser Tendenz zu einem bestimmten Ergebnis.

Bei fortlaufenden Attributen verwendet der Algorithmus die lineare Regression, um zu bestimmen, wo eine Entscheidungsstruktur geteilt wird.

Wenn mehr als eine Spalte auf vorhersehbar festgelegt ist oder wenn die Eingabedaten eine geschachtelte Tabelle enthalten, die auf vorhersehbar festgelegt ist, erstellt der Algorithmus eine separate Entscheidungsstruktur für jede vorhersagbare Spalte.

Beispiel

Die Marketingabteilung des Adventure Works Cycles-Unternehmens möchte die Merkmale früherer Kunden identifizieren, die angeben können, ob diese Kunden in Zukunft ein Produkt kaufen werden. In der AdventureWorks2012-Datenbank werden demografische Informationen gespeichert, die frühere Kunden beschreiben. Mithilfe des Microsoft Decision Trees-Algorithmus zur Analyse dieser Informationen kann die Marketingabteilung ein Modell erstellen, das angibt, ob ein bestimmter Kunde Produkte kauft, basierend auf den Status bekannter Spalten zu diesem Kunden, z. B. demographischen oder früheren Kaufmustern.

Funktionsweise des Algorithmus

Der Microsoft Decision Trees-Algorithmus erstellt ein Data-Mining-Modell, indem eine Reihe von Aufteilungen im Baum vorgenommen wird. Diese Aufteilungen werden als Knoten dargestellt. Der Algorithmus fügt dem Modell jedes Mal einen Knoten hinzu, wenn eine Eingabespalte deutlich mit der vorhersagbaren Spalte korreliert wird. Die Art und Weise, wie der Algorithmus eine Teilung bestimmt, unterscheidet sich je nachdem, ob eine kontinuierliche oder diskrete Spalte vorhergesagt wird.

Der Microsoft Decision Trees-Algorithmus verwendet die Featureauswahl , um die Auswahl der nützlichsten Attribute zu leiten. Die Featureauswahl wird von allen Analysis Services Data Mining-Algorithmen verwendet, um die Leistung und die Qualität der Analyse zu verbessern. Die Featureauswahl ist wichtig, um zu verhindern, dass unwichtige Attribute Prozessorzeit verwenden. Wenn Sie beim Entwerfen eines Data Mining-Modells zu viele Eingabe- oder vorhersagbare Attribute verwenden, kann das Modell eine sehr lange Zeit in Anspruch nehmen oder sogar nicht genügend Arbeitsspeicher haben. Methoden, die verwendet werden, um zu bestimmen, ob der Baum aufgeteilt werden soll, umfassen Branchenstandardmetriken für Entropie und Bayesian-Netzwerke. Weitere Informationen zu den Methoden, die zum Auswählen von aussagekräftigen Attributen und anschließenden Bewerten und Rangieren der Attribute verwendet werden, finden Sie unter Feature Selection (Data Mining).

Ein häufiges Problem bei Data-Mining-Modellen besteht darin, dass das Modell zu empfindlich auf kleine Unterschiede in den Schulungsdaten reagiert. In diesem Fall heißt es, es ist überangepasst oder übertrainiert. Ein überangepasstes Modell kann nicht auf andere Datensätze übertragen werden. Um eine Übereinpassung für eine bestimmte Datengruppe zu vermeiden, verwendet der Microsoft Decision Trees-Algorithmus Techniken zum Steuern des Wachstums der Struktur. Eine ausführlichere Erläuterung der Funktionsweise des Microsoft Decision Trees-Algorithmus finden Sie in der technischen Referenz zum Microsoft Decision Trees-Algorithmus.

Prognostizieren einzelner Spalten

Die Art und Weise, wie der Microsoft Decision Trees-Algorithmus eine Struktur für eine diskrete vorhersagbare Spalte erstellt, kann mithilfe eines Histogramms veranschaulicht werden. Das folgende Diagramm zeigt ein Histogramm, das eine vorhersagbare Spalte, Bike Buyers, gegen eine Eingabespalte, Alter, darstellt. Das Histogramm zeigt, dass das Alter einer Person hilft zu unterscheiden, ob diese Person ein Fahrrad kaufen wird.

Histogramm des Microsoft Decision Trees-Algorithmus

Die Korrelation, die im Diagramm angezeigt wird, würde dazu führen, dass der Microsoft Decision Trees-Algorithmus einen neuen Knoten im Modell erstellt.

Decision tree node Decision

Wenn der Algorithmus einem Modell neue Knoten hinzufügt, entsteht eine Baumstruktur. Der obere Knoten der Struktur beschreibt die Aufschlüsselung der vorhersagbaren Spalte für die Gesamtpopulation der Kunden. Da das Modell weiter wächst, berücksichtigt der Algorithmus alle Spalten.

Vorhersagen fortlaufender Spalten

Wenn der Microsoft Decision Trees-Algorithmus eine Struktur basierend auf einer fortlaufenden vorhersagbaren Spalte erstellt, enthält jeder Knoten eine Regressionsformel. Eine Unterbrechung erfolgt an einem Punkt der Nicht-Linearität in der Regressionsformel. Betrachten Sie beispielsweise das folgende Diagramm.

Mehrere Regressionslinien mit Nicht-Linearität

Das Diagramm enthält Daten, die entweder mithilfe einer einzelnen Linie oder mit zwei verbundenen Linien modelliert werden können. Eine einzelne Zeile würde jedoch eine schlechte Aufgabe erfüllen, die Daten darzustellen. Wenn Sie stattdessen zwei Linien verwenden, wird das Modell eine wesentlich bessere Arbeit beim Angrenzen der Daten leisten. Der Punkt, an dem die beiden Linien zusammenkommen, ist der Punkt der Nicht-Linearität und der Punkt, an dem ein Knoten in einem Entscheidungsstrukturmodell aufgeteilt würde. Beispielsweise könnte der Knoten, der dem Punkt der Nicht-Linearität im vorherigen Diagramm entspricht, durch das folgende Diagramm dargestellt werden. Die beiden Formeln stellen die Regressionsgleichungen für die beiden Zeilen dar.

Formel, die einen Punkt der Nicht-Linearität darstellt

Für Entscheidungsstrukturmodelle erforderliche Daten

Wenn Sie Daten für die Verwendung in einem Entscheidungsstrukturenmodell vorbereiten, sollten Sie die Anforderungen für den jeweiligen Algorithmus verstehen, einschließlich der benötigten Daten und der Verwendung der Daten.

Die Anforderungen für ein Entscheidungsstrukturenmodell sind wie folgt:

Eine einzelne Schlüsselspalte Jedes Modell muss eine numerische oder Textspalte enthalten, die jeden Datensatz eindeutig identifiziert. Zusammengesetzte Schlüssel sind nicht zulässig.
Eine vorhersagbare Spalte Erfordert mindestens eine vorhersagbare Spalte. Sie können mehrere vorhersagbare Attribute in ein Modell einschließen, und die vorhersagbaren Attribute können von verschiedenen Typen sein, entweder numerisch oder diskret. Das Erhöhen der Anzahl vorhersagbarer Attribute kann jedoch die Verarbeitungszeit erhöhen.
Eingabespalten Erfordert Eingabespalten, die diskret oder fortlaufend sein können. Das Erhöhen der Anzahl von Eingabeattributen wirkt sich auf die Verarbeitungszeit aus.

Ausführlichere Informationen zu den inhaltstypen und Datentypen, die für Entscheidungsstrukturmodelle unterstützt werden, finden Sie im Abschnitt "Anforderungen" des Microsoft Decision Trees Algorithm Technical Reference.

Anzeigen eines Entscheidungsstrukturenmodells

Um das Modell zu erkunden, können Sie den Microsoft Tree Viewer verwenden. Wenn Ihr Modell mehrere Strukturen generiert, können Sie eine Struktur auswählen und der Viewer zeigt eine Aufschlüsselung der Kategorisierung der Fälle für jedes vorhersehbare Attribut. Sie können auch die Interaktion der Bäume mithilfe des Abhängigkeitsnetzwerk-Viewers anzeigen. Weitere Informationen finden Sie unter Durchsuchen eines Modells mithilfe des Microsoft Tree Viewers.

Wenn Sie weitere Details zu einer Verzweigung oder einem Knoten in der Struktur wissen möchten, können Sie das Modell auch mithilfe der Microsoft Generic Content Tree Viewer durchsuchen. Der für das Modell gespeicherte Inhalt enthält die Verteilung für alle Werte in jedem Knoten, Wahrscheinlichkeiten auf jeder Ebene der Struktur und Regressionsformeln für fortlaufende Attribute. Weitere Informationen finden Sie unter Miningmodellinhalt für Entscheidungsstrukturmodelle (Analysis Services - Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell verarbeitet wurde, werden die Ergebnisse als eine Reihe von Mustern und Statistiken gespeichert, mit denen Sie Beziehungen untersuchen oder Vorhersagen erstellen können.

Beispiele für Abfragen, die mit einem Entscheidungsstrukturenmodell verwendet werden sollen, finden Sie unter "Beispiele für Entscheidungsstrukturenmodellabfragen".

Allgemeine Informationen zum Erstellen von Abfragen für Miningmodelle finden Sie unter Data Mining-Abfragen.

Bemerkungen

Unterstützt die Verwendung von Predictive Model Markup Language (PMML) zum Erstellen von Miningmodellen.
Unterstützt Drillthrough.
Unterstützt die Verwendung von OLAP-Miningmodellen und die Erstellung von Data Mining-Dimensionen.

Siehe auch

Data-Mining-Algorithmen (Analysis Services - Data Mining)Microsoft Entscheidungsbäume-Algorithmus Technische Referenz Modellabfragebeispiele Mining-Modell-Inhalte für Entscheidungsbaum Modelle (Analysis Services - Data Mining)

Last updated on 2017-06-13

Freigeben über