Microsoft Linear Regression-Algorithmus
Der Microsoft Linear Regression-Algorithmus ist eine Variation des Microsoft Decision Trees-Algorithmus, bei dem der MINIMUM_LEAF_CASES-Parameter größer als oder gleich der Gesamtzahl der Fälle im Dataset ist, mit dem der Algorithmus das Miningmodell trainiert. Bei dieser Parametereinstellung erstellt der Algorithmus nie eine Teilung, was der Grund dafür ist, dass der Algorithmus eine lineare Regression ausführt.
Sie können die lineare Regression verwenden, um eine Beziehung zwischen zwei kontinuierlichen Spalten zu bestimmen. Die Beziehung nimmt die Form einer Formel für eine Linie an, die eine Reihe von Daten am besten darstellt. Die Linie des folgenden Diagramms ist z. B. die bestmögliche lineare Darstellung der Daten.
Die Formel, die die Linie im Diagramm darstellt, nimmt die allgemeine Form y = ax + b an, die als Regressionsformel bekannt ist. Die Variable Y stellt die Ausgabevariable, die Variable X die Eingabevariable dar; und a und b sind die anpassbaren Koeffizienten. Zu jedem Datenpunkt im Diagramm ist ein Fehler zugeordnet. Dieser wird durch seinen Abstand von der Regressionslinie dargestellt. Die Koeffizienten a und b der Regressionsformel passen den Winkel und den Ort der Regressionslinie an. Sie können die Regressionsformel erhalten, indem Sie die Koeffizienten a und b so anpassen, dass die Summe der Fehler, die Punkten zugeordnet sind, die kleinste Zahl ergibt.
Verwenden des Algorithmus
Verwenden Sie den Microsoft Struktur-Viewer, um ein lineares Regressionsminingmodell zu durchsuchen.
Ein lineares Regressionsmodell muss eine Schlüsselspalte, Eingabespalten und mindestens eine vorhersagbare Spalte enthalten.
Der Microsoft Linear Regression-Algorithmus unterstützt bestimmte Inhaltstypen für Eingabespalten und für vorhersagbare Spalten sowie Modellierungsflags, die in der folgenden Tabelle aufgelistet sind.
Inhaltstypen für Eingabespalten |
Continuous ,Cyclical, Key, Table und Ordered |
Inhaltstypen für vorhersagbare Spalten |
Continuous, Cyclical und Ordered |
Modellierungsflags |
NOT NULL und REGRESSOR |
Alle Microsoft-Algorithmen unterstützen gemeinsam eine Reihe von Funktionen. Allerdings unterstützt der Microsoft Linear Regression-Algorithmus zusätzliche Funktionen, die in der folgenden Tabelle aufgelistet sind.
|
Eine Liste der Funktionen, die von allen Microsoft-Algorithmen gemeinsam verwendet werden, finden Sie unter Data Mining-Algorithmen. Weitere Informationen zum Verwenden dieser Funktionen finden Sie unter Data Mining-Erweiterungen (DMX) - Funktionsreferenz.
Der Microsoft Linear Regression-Algorithmus unterstützt mehrere Parameter, die Auswirkungen auf die Leistung und die Genauigkeit des resultierenden Miningmodells haben. In der folgenden Tabelle werden die einzelnen Parameter beschrieben.
Parameter | Beschreibung |
---|---|
MAXIMUM_INPUT_ATTRIBUTES |
Definiert die Anzahl von Eingabeattributen, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren. Die Standardeinstellung ist 255. |
MAXIMUM_OUTPUT_ATTRIBUTES |
Definiert die Anzahl von Ausgabeattributen, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren. Die Standardeinstellung ist 255. |
FORCED_REGRESSOR |
Zwingt den Algorithmus, die angegebenen Spalten als Regressoren zu verwenden, unabhängig von ihrer durch den Algorithmus berechneten Wichtigkeit der Spalten. |
Siehe auch
Konzepte
Data Mining-Algorithmen
Data Mining-Assistent
Featureauswahl beim Data Mining
Anzeigen eines Miningmodells mit dem Microsoft Struktur-Viewer