Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der Microsoft Linear Regression-Algorithmus ist eine spezielle Version des Microsoft Decision Trees-Algorithmus, der für die Modellierung von Paaren fortlaufender Attribute optimiert ist. In diesem Thema wird die Implementierung des Algorithmus erläutert, das Verhalten des Algorithmus angepasst und Links zu zusätzlichen Informationen zu Abfragemodellen bereitgestellt.
Implementierung des linearen Regressionsalgorithmus
Der Microsoft Decision Trees-Algorithmus kann für viele Aufgaben verwendet werden: lineare Regression, Klassifizierung oder Zuordnungsanalyse. Um diesen Algorithmus für die lineare Regression zu implementieren, werden die Parameter des Algorithmus gesteuert, um das Wachstum der Struktur einzuschränken und alle Daten im Modell in einem einzigen Knoten zu behalten. Anders ausgedrückt: Obwohl die lineare Regression auf einer Entscheidungsstruktur basiert, enthält die Struktur nur einen einzelnen Stamm und keine Verzweigungen: Alle Daten befinden sich im Stammknoten.
Zu diesem Zweck wird der MINIMUM_LEAF_CASES Parameter des Algorithmus auf größer oder gleich der Gesamtanzahl der Fälle festgelegt, die der Algorithmus zum Trainieren des Miningmodells verwendet. Wenn der Parameter auf diese Weise festgelegt wird, erstellt der Algorithmus nie eine Unterbrechung und führt daher eine lineare Regression aus.
Die Formel, die die Regressionslinie darstellt, verwendet die allgemeine Form von y = ax + b und wird als Regressionsgleichung bezeichnet. Die Variable Y stellt die Ausgabevariable dar, X stellt die Eingabevariable dar, und a und b sind anpassbare Koeffizienten. Sie können die Koeffizienten, Achsenabschnitte und andere Informationen zur Regressionsformel abrufen, indem Sie das fertiggestellte Miningmodell abfragen. Weitere Informationen finden Sie unter "Beispiele für lineare Regressionsmodellabfragen".
Bewertungsmethoden und Merkmalsauswahl
Alle Analysis Services Data Mining-Algorithmen verwenden automatisch die Featureauswahl, um die Analyse zu verbessern und die Verarbeitungslast zu reduzieren. Die Methode, die für die Auswahl von Features in der linearen Regression verwendet wird, ist die Interessantesbewertung, da das Modell nur fortlaufende Spalten unterstützt. Die folgende Tabelle zeigt den Unterschied bei der Featureauswahl für den Linear Regressionsalgorithmus und den Decision Trees-Algorithmus.
| Algorithmus | Analysemethode | Kommentare |
|---|---|---|
| Lineare Regression | Interessantheitsbewertung | Vorgabe. Andere Featureauswahlmethoden, die mit dem Decision Trees-Algorithmus verfügbar sind, gelten nur für diskrete Variablen und gelten daher nicht für lineare Regressionsmodelle. |
| Entscheidungsbäume | Interessantheitsbewertung Shannons Entropie Bayesian mit K2 Prior Bayesian-Dirichlet mit gleichmäßiger Priorverteilung (Voreinstellung) |
Wenn Spalten nicht binäre fortlaufende Werte enthalten, wird die Interessantesbewertung für alle Spalten verwendet, um die Konsistenz sicherzustellen. Andernfalls wird die Standard- oder angegebene Methode verwendet. |
Die Algorithmusparameter, die die Featureauswahl für ein Entscheidungsstrukturenmodell steuern, sind MAXIMUM_INPUT_ATTRIBUTES und MAXIMUM_OUTPUT.
Anpassen des linearen Regressionsalgorithmus
Der Microsoft Linear Regressionsalgorithmus unterstützt Parameter, die sich auf das Verhalten, die Leistung und genauigkeit des resultierenden Miningmodells auswirken. Sie können auch Modellierungskennzeichnungen für die Miningmodellspalten oder Miningstrukturspalten festlegen, um die Verarbeitung von Daten zu steuern.
Festlegen von Algorithmusparametern
In der folgenden Tabelle sind die Parameter aufgeführt, die für den Microsoft Linear Regression-Algorithmus bereitgestellt werden.
| Parameter | BESCHREIBUNG |
|---|---|
| MAXIMALE_EINGABEEIGENSCHAFTEN | Definiert die Anzahl der Eingabeattribute, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren. Der Standardwert ist 255. |
| MAXIMUM_OUTPUT_ATTRIBUTES | Definiert die Anzahl der Ausgabeattribute, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren. Der Standardwert ist 255. |
| FORCE_REGRESSOR | Erzwingt den Algorithmus, die angegebenen Spalten als Regressoren zu verwenden, unabhängig von der Wichtigkeit der Spalten, die vom Algorithmus berechnet werden. |
Modellierung von Flaggen
Der Microsoft Linear Regression-Algorithmus unterstützt die folgenden Modellierungskennzeichnungen. Wenn Sie die Miningstruktur oder das Miningmodell erstellen, definieren Sie Modellierungskennzeichnungen, um anzugeben, wie Werte in jeder Spalte während der Analyse behandelt werden. Weitere Informationen finden Sie unter Modeling Flags (Data Mining).
| Modellierungsflagge | BESCHREIBUNG |
|---|---|
| NICHT NULL | Gibt an, dass die Spalte keinen Nullwert enthalten kann. Ein Fehler führt dazu, dass Analysis Services während der Modellschulung auf einen Nullwert stößt. Gilt für die Spalten von Miningstrukturen. |
| REGRESSOR | Gibt an, dass die Spalte fortlaufende numerische Werte enthält, die während der Analyse als potenzielle unabhängige Variablen behandelt werden sollen. Hinweis: Das Kennzeichnen einer Spalte als Regressor stellt nicht sicher, dass die Spalte als Regressor im endgültigen Modell verwendet wird. Gilt für Miningmodellspalten. |
Regressoren in linearen Regressionsmodellen
Lineare Regressionsmodelle basieren auf dem Microsoft Decision Trees-Algorithmus. Auch wenn Sie den Microsoft Linear Regressionsalgorithmus nicht verwenden, kann jedes Entscheidungsstrukturmodell eine Struktur oder Knoten enthalten, die eine Regression für ein fortlaufendes Attribut darstellen.
Sie müssen nicht angeben, dass eine fortlaufende Spalte einen Regressor darstellt. Der Microsoft Decision Trees-Algorithmus partitioniert das Dataset in Regionen mit aussagekräftigen Mustern, auch wenn Sie das REGRESSOR-Flag in der Spalte nicht festlegen. Der Unterschied besteht darin, dass der Algorithmus beim Festlegen des Modellierungsflags versucht, Regressionsgleichungen der Form a*C1 + b*C2 + ... um die Muster in den Knoten der Struktur anzupassen. Die Summe der Residuen wird berechnet, und wenn die Abweichung zu groß ist, wird eine Teilung im Baum erzwungen.
Wenn Sie zum Beispiel das Einkaufsverhalten von Kunden mithilfe des Attributs Einkommen vorhersagen und das REGRESSOR-Modellierungskennzeichen für die Spalte festlegen, würde der Algorithmus zuerst versuchen, die Einkommenswerte mithilfe einer Standardregressionsformel anzupassen. Wenn die Abweichung zu groß ist, wird die Regressionsformel verworfen, und der Baum wird auf ein anderes Attribut aufgeteilt. Der Entscheidungsbaumalgorithmus würde dann versuchen, einen Regressor für das Einkommen in jedem der Zweige nach der Aufspaltung anzupassen.
Sie können den FORCED_REGRESSOR-Parameter verwenden, um sicherzustellen, dass der Algorithmus einen bestimmten Regressor verwendet. Dieser Parameter kann mit den Microsoft Decision Trees- und Microsoft Linear Regressionsalgorithmen verwendet werden.
Anforderungen
Ein lineares Regressionsmodell muss eine Schlüsselspalte, Eingabespalten und mindestens eine vorhersagbare Spalte enthalten.
Eingabe- und vorhersagbare Spalten
Der Microsoft Linear Regression-Algorithmus unterstützt die spezifischen Eingabespalten und vorhersehbaren Spalten, die in der folgenden Tabelle aufgeführt sind. Weitere Informationen dazu, was die Inhaltstypen bedeuten, wenn sie in einem Miningmodell verwendet werden, finden Sie unter Content Types (Data Mining).
| Kolumne | Inhaltstypen |
|---|---|
| Eingabeattribute | Fortlaufend, Zyklisch, Schlüssel, Tabelle und Sortiert |
| Vorhersehbares Attribut | Kontinuierlich, zyklisch und sortiert |
Hinweis
Cyclical und Ordered Inhaltstypen werden unterstützt, der Algorithmus behandelt sie jedoch als diskrete Werte und führt keine spezielle Verarbeitung durch.
Siehe auch
Microsoft Linear Regressionsalgorithmus
Beispiele für lineare Regressionsmodellabfragen
Miningmodellinhalt für lineare Regressionsmodelle (Analysis Services - Data Mining)