Technische Referenz zum Microsoft-Algorithmus für Lineare Regression

Der Microsoft Linear Regression-Algorithmus ist eine spezielle Version des Microsoft Decision Trees-Algorithmus, der für die Modellierung von Paaren fortlaufender Attribute optimiert ist. In diesem Thema wird die Implementierung des Algorithmus erläutert, das Verhalten des Algorithmus angepasst und Links zu zusätzlichen Informationen zu Abfragemodellen bereitgestellt.

Implementierung des linearen Regressionsalgorithmus

Der Microsoft Decision Trees-Algorithmus kann für viele Aufgaben verwendet werden: lineare Regression, Klassifizierung oder Zuordnungsanalyse. Um diesen Algorithmus für die lineare Regression zu implementieren, werden die Parameter des Algorithmus gesteuert, um das Wachstum der Struktur einzuschränken und alle Daten im Modell in einem einzigen Knoten zu behalten. Anders ausgedrückt: Obwohl die lineare Regression auf einer Entscheidungsstruktur basiert, enthält die Struktur nur einen einzelnen Stamm und keine Verzweigungen: Alle Daten befinden sich im Stammknoten.

Zu diesem Zweck wird der MINIMUM_LEAF_CASES Parameter des Algorithmus auf größer oder gleich der Gesamtanzahl der Fälle festgelegt, die der Algorithmus zum Trainieren des Miningmodells verwendet. Wenn der Parameter auf diese Weise festgelegt wird, erstellt der Algorithmus nie eine Unterbrechung und führt daher eine lineare Regression aus.

Die Formel, die die Regressionslinie darstellt, verwendet die allgemeine Form von y = ax + b und wird als Regressionsgleichung bezeichnet. Die Variable Y stellt die Ausgabevariable dar, X stellt die Eingabevariable dar, und a und b sind anpassbare Koeffizienten. Sie können die Koeffizienten, Achsenabschnitte und andere Informationen zur Regressionsformel abrufen, indem Sie das fertiggestellte Miningmodell abfragen. Weitere Informationen finden Sie unter "Beispiele für lineare Regressionsmodellabfragen".

Bewertungsmethoden und Merkmalsauswahl

Alle Analysis Services Data Mining-Algorithmen verwenden automatisch die Featureauswahl, um die Analyse zu verbessern und die Verarbeitungslast zu reduzieren. Die Methode, die für die Auswahl von Features in der linearen Regression verwendet wird, ist die Interessantesbewertung, da das Modell nur fortlaufende Spalten unterstützt. Die folgende Tabelle zeigt den Unterschied bei der Featureauswahl für den Linear Regressionsalgorithmus und den Decision Trees-Algorithmus.

Algorithmus	Analysemethode	Kommentare
Lineare Regression	Interessantheitsbewertung	Vorgabe. Andere Featureauswahlmethoden, die mit dem Decision Trees-Algorithmus verfügbar sind, gelten nur für diskrete Variablen und gelten daher nicht für lineare Regressionsmodelle.
Entscheidungsbäume	Interessantheitsbewertung Shannons Entropie Bayesian mit K2 Prior Bayesian-Dirichlet mit gleichmäßiger Priorverteilung (Voreinstellung)	Wenn Spalten nicht binäre fortlaufende Werte enthalten, wird die Interessantesbewertung für alle Spalten verwendet, um die Konsistenz sicherzustellen. Andernfalls wird die Standard- oder angegebene Methode verwendet.

Die Algorithmusparameter, die die Featureauswahl für ein Entscheidungsstrukturenmodell steuern, sind MAXIMUM_INPUT_ATTRIBUTES und MAXIMUM_OUTPUT.

Anpassen des linearen Regressionsalgorithmus

Der Microsoft Linear Regressionsalgorithmus unterstützt Parameter, die sich auf das Verhalten, die Leistung und genauigkeit des resultierenden Miningmodells auswirken. Sie können auch Modellierungskennzeichnungen für die Miningmodellspalten oder Miningstrukturspalten festlegen, um die Verarbeitung von Daten zu steuern.

Festlegen von Algorithmusparametern

In der folgenden Tabelle sind die Parameter aufgeführt, die für den Microsoft Linear Regression-Algorithmus bereitgestellt werden.

Parameter	BESCHREIBUNG
MAXIMALE_EINGABEEIGENSCHAFTEN	Definiert die Anzahl der Eingabeattribute, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren. Der Standardwert ist 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Definiert die Anzahl der Ausgabeattribute, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren. Der Standardwert ist 255.
FORCE_REGRESSOR	Erzwingt den Algorithmus, die angegebenen Spalten als Regressoren zu verwenden, unabhängig von der Wichtigkeit der Spalten, die vom Algorithmus berechnet werden.

Modellierung von Flaggen

Der Microsoft Linear Regression-Algorithmus unterstützt die folgenden Modellierungskennzeichnungen. Wenn Sie die Miningstruktur oder das Miningmodell erstellen, definieren Sie Modellierungskennzeichnungen, um anzugeben, wie Werte in jeder Spalte während der Analyse behandelt werden. Weitere Informationen finden Sie unter Modeling Flags (Data Mining).

Modellierungsflagge	BESCHREIBUNG
NICHT NULL	Gibt an, dass die Spalte keinen Nullwert enthalten kann. Ein Fehler führt dazu, dass Analysis Services während der Modellschulung auf einen Nullwert stößt. Gilt für die Spalten von Miningstrukturen.
REGRESSOR	Gibt an, dass die Spalte fortlaufende numerische Werte enthält, die während der Analyse als potenzielle unabhängige Variablen behandelt werden sollen. Hinweis: Das Kennzeichnen einer Spalte als Regressor stellt nicht sicher, dass die Spalte als Regressor im endgültigen Modell verwendet wird. Gilt für Miningmodellspalten.

Regressoren in linearen Regressionsmodellen

Lineare Regressionsmodelle basieren auf dem Microsoft Decision Trees-Algorithmus. Auch wenn Sie den Microsoft Linear Regressionsalgorithmus nicht verwenden, kann jedes Entscheidungsstrukturmodell eine Struktur oder Knoten enthalten, die eine Regression für ein fortlaufendes Attribut darstellen.

Sie müssen nicht angeben, dass eine fortlaufende Spalte einen Regressor darstellt. Der Microsoft Decision Trees-Algorithmus partitioniert das Dataset in Regionen mit aussagekräftigen Mustern, auch wenn Sie das REGRESSOR-Flag in der Spalte nicht festlegen. Der Unterschied besteht darin, dass der Algorithmus beim Festlegen des Modellierungsflags versucht, Regressionsgleichungen der Form a*C1 + b*C2 + ... um die Muster in den Knoten der Struktur anzupassen. Die Summe der Residuen wird berechnet, und wenn die Abweichung zu groß ist, wird eine Teilung im Baum erzwungen.

Wenn Sie zum Beispiel das Einkaufsverhalten von Kunden mithilfe des Attributs Einkommen vorhersagen und das REGRESSOR-Modellierungskennzeichen für die Spalte festlegen, würde der Algorithmus zuerst versuchen, die Einkommenswerte mithilfe einer Standardregressionsformel anzupassen. Wenn die Abweichung zu groß ist, wird die Regressionsformel verworfen, und der Baum wird auf ein anderes Attribut aufgeteilt. Der Entscheidungsbaumalgorithmus würde dann versuchen, einen Regressor für das Einkommen in jedem der Zweige nach der Aufspaltung anzupassen.

Sie können den FORCED_REGRESSOR-Parameter verwenden, um sicherzustellen, dass der Algorithmus einen bestimmten Regressor verwendet. Dieser Parameter kann mit den Microsoft Decision Trees- und Microsoft Linear Regressionsalgorithmen verwendet werden.

Anforderungen

Ein lineares Regressionsmodell muss eine Schlüsselspalte, Eingabespalten und mindestens eine vorhersagbare Spalte enthalten.

Eingabe- und vorhersagbare Spalten

Der Microsoft Linear Regression-Algorithmus unterstützt die spezifischen Eingabespalten und vorhersehbaren Spalten, die in der folgenden Tabelle aufgeführt sind. Weitere Informationen dazu, was die Inhaltstypen bedeuten, wenn sie in einem Miningmodell verwendet werden, finden Sie unter Content Types (Data Mining).

Kolumne	Inhaltstypen
Eingabeattribute	Fortlaufend, Zyklisch, Schlüssel, Tabelle und Sortiert
Vorhersehbares Attribut	Kontinuierlich, zyklisch und sortiert

Hinweis

Cyclical und Ordered Inhaltstypen werden unterstützt, der Algorithmus behandelt sie jedoch als diskrete Werte und führt keine spezielle Verarbeitung durch.

Siehe auch

Microsoft Linear Regressionsalgorithmus
Beispiele für lineare Regressionsmodellabfragen
Miningmodellinhalt für lineare Regressionsmodelle (Analysis Services - Data Mining)

Last updated on 2017-06-13