Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Thema werden Miningmodellinhalte beschrieben, die spezifisch für Modelle sind, die den Microsoft Linear Regression-Algorithmus verwenden. Eine allgemeine Erläuterung des Miningmodellinhalts für alle Modelltypen finden Sie unter Mining-Modellinhalt (Analysis Services - Data Mining).
Grundlegendes zur Struktur eines linearen Regressionsmodells
Ein lineares Regressionsmodell hat eine extrem einfache Struktur. Jedes Modell verfügt über einen einzelnen übergeordneten Knoten, der das Modell und seine Metadaten darstellt, sowie einen Regressionsstrukturknoten (NODE_TYPE = 25), der die Regressionsformel für jedes vorhersagbare Attribut enthält.
Lineare Regressionsmodelle verwenden denselben Algorithmus wie Microsoft Decision Trees, aber verschiedene Parameter werden verwendet, um die Struktur einzuschränken, und nur fortlaufende Attribute werden als Eingaben akzeptiert. Da lineare Regressionsmodelle jedoch auf dem Microsoft Decision Trees-Algorithmus basieren, werden lineare Regressionsmodelle mithilfe der Microsoft Decision Tree Viewer angezeigt. Weitere Informationen finden Sie unter Durchsuchen eines Modells mit dem Microsoft Tree Viewer.
Im nächsten Abschnitt wird erläutert, wie Informationen im Regressionsformelknoten interpretiert werden. Diese Informationen gelten nicht nur für lineare Regressionsmodelle, sondern auch für Entscheidungsstrukturenmodelle, die Regressionen in einem Teil der Struktur enthalten.
Modellinhalt für ein lineares Regressionsmodell
Dieser Abschnitt enthält Details und Beispiele nur für diese Spalten im Miningmodellinhalt, die eine besondere Relevanz für die lineare Regression haben.
Informationen zu allgemeinen Spalten im Schema-Rowset finden Sie unter Mining Model Content (Analysis Services - Data Mining).For information about general-purpose columns in the schema rowset, see Mining Model Content (Analysis Services - Data Mining).
MODELL_KATALOG
Name der Datenbank, in der das Modell gespeichert ist.
MODEL_NAME
Name des Modells.
ATTRIBUTE_NAME
Stammknoten: Leer
Regressionsknoten: Der Name des vorhersagbaren Attributs.
NODE_NAME
Identisch mit NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME
Ein eindeutiger Bezeichner für den Knoten innerhalb des Modells. Dieser Wert kann nicht geändert werden.
NODE_TYPE
Ein lineares Regressionsmodell gibt die folgenden Knotentypen aus:
| Knotentyp-ID | Typ | BESCHREIBUNG |
|---|---|---|
| 25 | Regressionsbaumwurzel | Enthält die Formel, die die Beziehung zwischen der Eingabe- und Ausgabevariable beschreibt. |
NODE_CAPTION
Ein Etikett oder eine Beschriftung, die dem Knoten zugeordnet ist. Diese Eigenschaft dient vor allem zu Darstellungszwecken.
Stammknoten: Leer
Regressionsknoten: Alle.
CHILDREN_CARDINALITY
Eine Schätzung der Anzahl der Kinder, die der Knoten hat.
Stammknoten: Gibt die Anzahl der Regressionsknoten an. Für jedes vorhersagbare Attribut im Modell wird ein Regressionsknoten erstellt.
Regressionsknoten: Immer 0.
PARENT_UNIQUE_NAME
Der eindeutige Name des übergeordneten Knotens. NULL wird für alle Knoten auf der Stammebene zurückgegeben.
Knotenbeschreibung
Eine Beschreibung des Knotens.
Stammknoten: Leer
Regressionsknoten: Alle.
NODE_RULE
Wird nicht für lineare Regressionsmodelle verwendet.
MARGINAL_RULE
Wird nicht für lineare Regressionsmodelle verwendet.
KNOTENWAHRSCHEINLICHKEIT
Die wahrscheinlichkeit, die diesem Knoten zugeordnet ist.
Stammknoten: 0
Regressionsknoten: 1
Marginalwahrscheinlichkeit
Die Wahrscheinlichkeit, den Knoten vom übergeordneten Knoten zu erreichen.
Stammknoten: 0
Regressionsknoten: 1
KNOTENVERTEILUNG
Eine geschachtelte Tabelle, die Statistiken zu den Werten im Knoten bereitstellt.
Stammknoten: 0
Regressionsknoten: Eine Tabelle, die die Elemente enthält, die zum Erstellen der Regressionsformel verwendet werden. Ein Regressionsknoten enthält die folgenden Werttypen:
| WERTTYP |
|---|
| 1 (Fehlt) |
| 3 (fortlaufend) |
| 7 (Koeffizient) |
| 8 (Score Gain) |
| 9 (Statistik) |
| 11 (Intercept) |
NODE_SUPPORT
Die Anzahl der Fälle, die diesen Knoten unterstützen.
Stammknoten: 0
Regressionsknoten: Anzahl der Schulungsfälle.
MSOLAP_MODEL_COLUMN
Name des vorhersagbaren Attributs.
MSOLAP_NODE_SCORE
Identisch mit NODE_PROBABILITY
MSOLAP_NODE_SHORT_CAPTION
Bezeichnung, die für Anzeigezwecke verwendet wird.
Bemerkungen
Wenn Sie ein Modell mithilfe des Microsoft Linear Regression-Algorithmus erstellen, erstellt das Data Mining-Modul eine spezielle Instanz eines Entscheidungsstrukturenmodells und stellt Parameter bereit, die die Struktur einschränken, um alle Schulungsdaten in einem einzelnen Knoten zu enthalten. Alle fortlaufenden Eingaben werden als potenzielle Regressoren gekennzeichnet und ausgewertet, aber nur die Regressoren, die den Daten entsprechen, werden als Regressoren im endgültigen Modell aufbewahrt. Die Analyse erzeugt entweder eine einzelne Regressionsformel für jeden Regressor oder gar keine Regressionsformel.
Sie können die vollständige Regressionsformel in der Mininglegende anzeigen, indem Sie im Microsoft Tree Viewer auf den Knoten (Alle) klicken.
Wenn Sie ein Entscheidungsstrukturenmodell erstellen, das ein fortlaufendes vorhersagbares Attribut enthält, weist die Struktur manchmal Regressionsknoten auf, die die Eigenschaften von Regressionsstrukturknoten gemeinsam nutzen.
Knotenverteilung für fortlaufende Attribute
Die meisten wichtigen Informationen in einem Regressionsknoten sind in der NODE_DISTRIBUTION Tabelle enthalten. Das folgende Beispiel veranschaulicht das Layout der NODE_DISTRIBUTION Tabelle. In diesem Beispiel wurde die Targeted Mailing Mining-Struktur verwendet, um ein lineares Regressionsmodell zu erstellen, das das Kundeneinkommen basierend auf dem Alter vorhersagt. Das Modell dient nur zur Veranschaulichung, da es einfach mit der vorhandenen AdventureWorks2012-Beispieldaten- und Miningstruktur erstellt werden kann.
| ATTRIBUT_NAME | ATTRIBUT_WERT | Alias | WAHRSCHEINLICHKEIT | ABWEICHUNG | WERTTYP |
|---|---|---|---|---|---|
| Jahreseinkommen | Fehlend | 0 | 0.000457142857142857 | 0 | 1 |
| Jahreseinkommen | 57220.8876687257 | 17484 | 0.999542857142857 | 1041275619.52776 | 3 |
| Alter | 471.687717702463 | 0 | 0 | 126.969442359327 | 7 |
| Alter | 234,680904692439 | 0 | 0 | 0 | 8 |
| Alter | 45.4269617936399 | 0 | 0 | 126.969442359327 | 9 |
| 35793.5477381267 | 0 | 0 | 1012968919.28372 | 11 |
Die NODE_DISTRIBUTION Tabelle enthält mehrere Zeilen, die jeweils nach einer Variablen gruppiert sind. Die ersten beiden Zeilen sind immer Werttypen 1 und 3 und beschreiben das Zielattribute. Die nachfolgenden Zeilen enthalten Details zur Formel für einen bestimmten Regressor. Ein Regressor ist eine Eingabevariable, die eine lineare Beziehung mit der Ausgabevariable aufweist. Sie können mehrere Regressoren haben, und jeder Regressor verfügt über eine separate Zeile für den Koeffizienten (VALUETYPE = 7), Punktgewinn (WERTTYP = 8) und Statistiken (VALUETYPE = 9). Schließlich weist die Tabelle eine Zeile auf, die den Achsenabschnitt der Formel enthält (WERTTYP = 11).
Elemente der Regressionsformel
Die geschachtelte NODE_DISTRIBUTION Tabelle enthält jedes Element der Regressionsformel in einer separaten Zeile. Die ersten beiden Datenzeilen in den Beispielergebnissen enthalten Informationen zum vorhersagbaren Attribut "Yearly Income", das die abhängige Variable modelliert. In der Spalte "SUPPORT" wird die Anzahl der Fälle angezeigt, in der die beiden Zustände dieses Attributs unterstützt werden: entweder ein Jahreseinkommenswert war verfügbar, oder der Wert "Yearly Income " fehlte.
Die Spalte VARIANZ teilt Ihnen die berechnete Varianz des vorhersagbaren Attributs mit. Die Varianz ist ein Maß dafür, wie sich die Werte in einer Stichprobe befinden, wenn eine erwartete Verteilung gegeben ist. Die Abweichung wird hier berechnet, indem der Mittelwert der quadratischen Abweichung vom Mittelwert berücksichtigt wird. Die Quadratwurzel der Varianz wird auch als Standardabweichung bezeichnet. Analysis Services stellt die Standardabweichung nicht bereit, aber Sie können sie ganz einfach berechnen.
Für jeden Regressor werden drei Zeilen ausgegeben. Sie enthalten die Koeffizienten-, Score-Gain- und Regressorstatistiken.
Schließlich enthält die Tabelle eine Zeile, die den Schnittpunkt für die Formel bereitstellt.
Koeffizient
Für jeden Regressor wird ein Koeffizienten (VALUETYPE = 7) berechnet. Der Koeffizienten selbst wird in der Spalte ATTRIBUTE_VALUE angezeigt, während die Abweichungsspalte Die Varianz für den Koeffizienten angibt. Die Koeffizienten werden berechnet, um die Linearität zu maximieren.
Punktegewinn
Der Punktegewinn (VALUETYPE = 8) für jeden Regressor stellt die Interessantenheitsbewertung des Attributs dar. Sie können diesen Wert verwenden, um die Nützlichkeit mehrerer Regressoren zu schätzen.
Statistik
Die Regressorstatistik (VALUETYPE = 9) ist das Mittel für das Attribut für Fälle mit einem Wert. Die Spalte ATTRIBUTE_VALUE enthält den Mittelwert selbst, während die Spalte VARIANZ die Summe der Abweichungen vom Mittelwert enthält.
AchsenAbschnitt
Normalerweise gibt der Intercept (VALUETYPE = 11) oder Rest in einer Regressionsgleichung den Wert des vorhersagbaren Attributs an der Stelle an, an der das Eingabeattribute 0 ist. In vielen Fällen kann dies nicht geschehen und könnte zu kontraintuitiven Ergebnissen führen.
In einem Modell, das das Einkommen basierend auf dem Alter vorhersagt, ist es nutzlos, das Einkommen im Alter von 0 zu lernen. In der Praxis ist es in der Regel nützlicher, über das Verhalten der Linie in Bezug auf Durchschnittswerte zu wissen. Daher ändert SQL Server Analysis Services den Intercept so, dass jeder Regressor in einer Beziehung mit dem Mittelwert ausgedrückt wird.
Im Inhalt des Miningmodells ist diese Anpassung schwer zu erkennen, aber ersichtlich, wenn Sie die fertige Gleichung in der Mininglegende des Microsoft Tree Viewer anzeigen. Die Regressionsformel wird von dem Punkt 0 zum Punkt verschoben, der den Mittelwert darstellt. Dies stellt eine Ansicht dar, die aufgrund der aktuellen Daten intuitiver ist.
Angenommen, das mittlere Alter beträgt etwa 45, der Schnittpunkt (WERTTYP = 11) für die Regressionsformel teilt Ihnen das mittlere Einkommen mit.
Siehe auch
Inhalt des Mining-Modells (Analysis Services - Data Mining)
Microsoft Linear Regressionsalgorithmus
Technische Referenz zum Microsoft Linear Regressionsalgorithmus
Beispiele für lineare Regressionsmodellabfragen