Artikel
09/24/2010

Abfragen eines linearen Regressionsmodells (Analysis Services - Data Mining)

Beim Erstellen einer Abfrage für ein Data Mining-Modell können Sie eine Inhaltsabfrage erstellen, die Details über die bei der Analyse ermittelten Muster liefert. Alternativ dazu können Sie auch eine Vorhersageabfrage erstellen, die Vorhersagen für neue Daten anhand der im Modell befindlichen Muster vornimmt. Eine Inhaltsabfrage stellt beispielsweise zusätzliche Details über die Regressionsformel zur Verfügung, während eine Vorhersageabfrage Aufschluss darüber gibt, ob ein neuer Datenpunkt in das Modell passt. Mit einer Abfrage können Sie auch Metadaten zum Modell abrufen.

In diesem Abschnitt wird erläutert, wie Abfragen für Modelle erstellt werden, die auf dem Microsoft Linear Regression-Algorithmus basieren. Weitere Informationen zur Struktur eines linearen Regressionsmodells finden Sie unter Miningmodellinhalt von linearen Regressionsmodellen (Analysis Services - Data Mining).

Hinweis
Da die lineare Regression auf einem Sonderfall des Microsoft Decision Trees-Algorithmus basiert, können einige Entscheidungsstrukturmodelle, die kontinuierliche vorhersagbare Attribute verwenden, Regressionsformeln enthalten. Weitere Informationen finden Sie unter Technische Referenz für den Microsoft Decision Trees-Algorithmus.

Inhaltsabfragen

Zurückgeben von Modellparametern mit dem Data Mining-Schemarowset

Zurückgeben der Regressionsformel für das Modell per DMX

Zurückgeben des Koeffizienten für das Modell
Vorhersageabfragen

Treffen von Vorhersagen mit einer SINGLETON-Abfrage

Zurückgeben einer beschreibenden Statistik aus einem Regressionsmodell

Zurück zum Anfang

Um die Ergebnisse für die Beispielabfragen zu reproduzieren, können Sie wie im folgenden Thema beschrieben ein lineares Regressionsmodell erstellen. Das Modell ist sehr einfach, verdeutlicht jedoch die Grundlagen der Verwendung eines Data Mining-Designers zum Anpassen eines linearen Regressionsmodells.

Vorgehensweise: Erzwingen der Verwendung von Regressoren in einem Modell

Suchen von Informationen zum linearen Regressionsmodell

Die Struktur eines linearen Regressionsmodells ist äußerst einfach. Das Miningmodell repräsentiert die Daten als einzelnen Knoten, und dieser Knoten definiert die Regressionsformel.

Dieser Abschnitt enthält Beispiele dafür, wie Sie weitere Informationen zum Modell selbst abrufen können, einschließlich Regressionsformel und beschreibender Statistik für die Daten.

Beispielabfrage 1: Zurückgeben von Modellparametern mit dem Data Mining-Schemarowset

Metadaten für das Modell finden Sie, indem Sie das Data Mining-Schemarowset abfragen. Dazu gehören beispielsweise das Erstellungsdatum des Modells, das Datum der letzten Verarbeitung, der Name der Miningstruktur, auf der das Modell basiert, und der Name der als vorhersagbares Attribut verwendeten Spalte. Sie können auch die Parameter zurückgeben, die beim ersten Erstellen des Modells verwendet wurden.

SELECT MINING_PARAMETERS 
FROM $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'Call Center Regression'

Beispielergebnisse:

MINING_PARAMETERS
MINING_PARAMETERS MAXIMUM_INPUT_ATTRIBUTES=255, MAXIMUM_OUTPUT_ATTRIBUTES=255, FORCE_REGRESSOR=[Average Time Per Issue],[Total Operators]

MINING_PARAMETERS

MAXIMUM_INPUT_ATTRIBUTES=255, MAXIMUM_OUTPUT_ATTRIBUTES=255, FORCE_REGRESSOR=[Average Time Per Issue],[Total Operators]

Hinweis
Wenn Sie keine Regressoren angegeben haben, hat der FORCE_REGRESSOR-Parameter den Wert "FORCE_REGRESSOR =".

Zurück zum Anfang

Beispielabfrage 2: Zurückgeben der Regressionsformel für das Modell per DMX

Die folgende Abfrage gibt den Miningmodellinhalt für das lineare Regressionsmodell zurück. Die Abfrage gibt den Inhalt des Knotens zurück, der die Regressionsformel enthält. Sie können diese Abfrage auch in einem Entscheidungsstrukturmodell verwenden, wenn einer der Knoten eine Regressionsformel enthält.

Jede Variable und jeder Koeffizient wird in einer separaten Zeile der geschachtelten NODE_DISTRIBUTION-Tabelle gespeichert. Wenn Sie die vollständige Regressionsformel anzeigen möchten, verwenden Sie den Microsoft Tree-Viewer, klicken Sie auf den Knoten (All), und öffnen Sie die Mininglegende.

SELECT FLATTENED NODE_DISTRIBUTION as t
FROM [Call Center Regression].CONTENT

Hinweis
Wenn Sie auf einzelne Spalten der geschachtelten Tabelle durch Verwenden einer Abfrage wie SELECT <column name> from NODE_DISTRIBUTION verweisen, müssen einige Spalten, wie SUPPORT oder PROBABILITY, in Klammern eingeschlossen werden, um sie von den gleichnamigen reservierten Schlüsselwörtern zu unterscheiden.

Erwartete Ergebnisse:

t.ATTRIBUTE_NAME	t.ATTRIBUTE_VALUE	t.SUPPORT	t.PROBABILITY	t.VARIANCE	t.VALUETYPE
Service Grade	Missing	0	0	0	1
Service Grade	0.09875	120	1	0.00157927083333334	3
Average Time Per Issue	0.00136989326310586	0	0	187.866597222222	7
Average Time Per Issue	12.0822151449249	0	0	0	8
Average Time Per Issue	79.8416666666667	0	0	187.866597222222	9
Gesamtzahl Telefonisten	-0.000426156789860463	0	0	24.0799305555556	7
Gesamtzahl Telefonisten	-3.19762422385219	0	0	0	8
Gesamtzahl Telefonisten	10.6916666666667	0	0	24.0799305555556	9
	-0.00606823493688524	0	0	0.00121526993847281	11

In Vergleich dazu wird die Regressionsformel in der Mininglegende wie folgt angezeigt:

Dienstqualität = 0,070+0,001*(Average Time Per Issue-79,842)-0,0004*(Total Operators-10,692)

In der Mininglegende sind einige Zahlen ggf. gerundet. Die NODE_DISTRIBUTION-Tabelle und die Mininglegende enthalten im Wesentlichen jedoch die gleichen Werte.

Die Werte in der VALUETYPE-Spalte geben Aufschluss über die Art der in jeder Zeile enthaltenen Informationen. Dies ist nützlich, wenn Sie die Ergebnisse programmgesteuert verarbeiten. In der folgenden Tabelle werden die Werttypen, die für eine lineare Regressionsformel ausgegeben werden, angezeigt.

VALUETYPE
1 (Missing)
3 (Continuous)
7 (Koeffizient)
8 (Score Gain)
9 (Statistik)
7 (Koeffizient)
8 (Score Gain)
9 (Statistik)
11 (Intercept)

Weitere Informationen über die Bedeutung der einzelnen Werttypen für Regressionsmodelle finden Sie unter Miningmodellinhalt von linearen Regressionsmodellen (Analysis Services - Data Mining).

Zurück zum Anfang

Beispielabfrage 3: Zurückgeben des Koeffizienten für das Modell

Mit der VALUETYPE-Enumeration können Sie nur den Koeffizienten für die Regressionsgleichung zurückgeben, wie in der folgenden Abfrage veranschaulicht:

SELECT FLATTENED MODEL_NAME,
    (SELECT ATTRIBUTE_VALUE, VALUETYPE
     FROM NODE_DISTRIBUTION
     WHERE VALUETYPE = 11) 
AS t
FROM [Call Center Regression].CONTENT

Mit dieser Abfrage werden zwei Zeilen zurückgegeben, eine Zeile aus dem Miningmodellinhalt und die Zeile der geschachtelten Tabelle, die den Koeffizienten enthält. Die Spalte ATTRIBUTE_NAME ist hier nicht eingeschlossen, da sie für den Koeffizienten stets leer ist.

MODEL_NAME	t.ATTRIBUTE_VALUE	t.VALUETYPE
Call Center Regressors2	-0.00606823493688524	11

Treffen von Vorhersagen mit dem Modell

Mit der Registerkarte Miningmodellvorhersage im Data Mining-Designer können Sie Vorhersageabfragen für lineare Regressionsmodelle erstellen. Der Generator für Vorhersageabfragen ist sowohl in SQL Server Management Studio als auch in Business Intelligence Development Studio verfügbar.

Hinweis
Abfragen für Regressionsmodelle können Sie auch mit SQL Server 2005 Data Mining-Add-Ins für Excel oder SQL Server 2008 Data Mining-Add-Ins für Excel erstellen. Auch wenn die Data Mining-Add-Ins für Excel keine Regressionsmodelle erstellen, können Sie jedes Miningmodell, das in einer Analysis Services-Instanz gespeichert ist, durchsuchen und abfragen.

Zurück zum Anfang

Beispielabfrage 4: Treffen von Vorhersagen mit einer SINGLETON-Abfrage

Die einfachste Möglichkeit zum Erstellen einer SINGLETON-Abfrage für ein Regressionsmodell bietet das Dialogfeld SINGLETON-Abfrageeingabe. Sie können die folgende DMX-Abfrage erstellen, indem Sie das entsprechende Regressionsmodell auswählen und anschließend SINGLETON-Abfrage auswählen. Geben Sie für "Total Operators" anschließend den Wert 10 ein.

SELECT
  Predict([Call Center Regression].[Service Grade])
FROM
  [Call Center Regression]
NATURAL PREDICTION JOIN
(SELECT 10 AS [Total Operators]) AS t

Beispielergebnisse:

Yearly Income
0.0992841946529471

Zurück zum Anfang

Beispielabfrage 5: Zurückgeben einer beschreibenden Statistik aus einem Regressionsmodell

Sie können viele der Standardvorhersagefunktionen mit linearen Regressionsmodellen verwenden. Im folgenden Beispiel wird veranschaulicht, wie den Vorhersageabfrageergebnissen einige aussagekräftige statistische Daten hinzugefügt werden.

SELECT
  Predict([Call Center Regression].[Service Grade]) as [Predicted Service],
  PredictStdev([Call Center Regression].[Service Grade]) as [Standard Deviation]
FROM
  [Call Center Regression]
NATURAL PREDICTION JOIN
(SELECT 10 AS [Total Operators]) AS t

Beispielergebnisse:

Vorhergesagter Dienst	Standardabweichung
0.0990447584463201	0.0348607220015996

Zurück zum Anfang

Liste der Vorhersagefunktionen

Alle Algorithmen von Microsoft unterstützen einen gemeinsamen Funktionssatz. Allerdings unterstützt der Microsoft Linear Regression-Algorithmus zusätzliche Funktionen, die in der folgenden Tabelle aufgelistet sind.

IsDescendant (DMX)	PredictStdev (DMX)
IsInNode (DMX)	PredictSupport (DMX)
PredictHistogram (DMX)	PredictVariance (DMX)
PredictNodeId (DMX)

Eine Liste der Funktionen, die von allen Microsoft-Algorithmen gemeinsam verwendet werden, finden Sie unter Data Mining-Algorithmen (Analysis Services - Data Mining). Weitere Informationen zum Verwenden dieser Funktionen finden Sie unter Data Mining-Erweiterungen (DMX) - Funktionsreferenz.

Änderungsverlauf

Aktualisierter Inhalt
Themenbezogene Links wurden hinzugefügt, um das Prüfen der Abfragebeispiele zu vereinfachen.
Das Beispiel wurde geändert. Es wird jetzt ein passenderes Modell verwendet. Link zu einem neuen Thema hinzugefügt, in dem beschrieben wird, wie das Beispiel für ein lineares Regressionsmodell erstellt wird.