Beispiele für Abfragen von logistischen Regressionsmodellen

Wenn Sie eine Abfrage für ein Data Mining-Modell erstellen, können Sie eine Inhaltsabfrage erstellen, die Details zu den in der Analyse ermittelten Mustern bereitstellt, oder Sie können eine Vorhersageabfrage erstellen, die die Muster im Modell verwendet, um Vorhersagen mithilfe neuer Daten zu erstellen.

In diesem Abschnitt wird erläutert, wie Abfragen für Modelle erstellt werden, die auf dem Microsoft Logistic Regression-Algorithmus basieren.

Inhaltsabfragen

Abrufen von Modellparametern mithilfe der Data Mining-Schema-Zeilenmenge

Zusätzliche Details zum Modell mithilfe von DMX finden

Vorhersageabfragen

Erstellen von Vorhersagen für einen fortlaufenden Wert

Erstellen von Vorhersagen für einen diskreten Wert

Abrufen von Informationen zum Logistischen Regressionsmodell

Logistische Regressionsmodelle werden mithilfe des Microsoft Neural Network-Algorithmus mit einem speziellen Satz von Parametern erstellt; Daher verfügt ein Logistisches Regressionsmodell über einige der gleichen Informationen wie ein neurales Netzmodell, ist aber weniger komplex. Um die Struktur des Modellinhalts zu verstehen und welche Knotentypen welche Art von Informationen speichern, finden Sie unter Mining Model Content for Logistic Regression Models (Analysis Services - Data Mining).

Um in den Abfrageszenarien zu folgen, können Sie ein logistisches Regressionsmodell erstellen, wie im folgenden Abschnitt des Lernprogramms "Intermediate Data Mining" beschrieben : Lektion 5: Building Neural Network and Logistic Regression Models (Intermediate Data Mining Tutorial).

Sie können auch die Miningstruktur „Targeted Mailing“ aus dem Basic Data Mining Tutorial verwenden.

ALTER MINING STRUCTURE [Targeted Mailing]  
ADD MINING MODEL [TM_Logistic Regression]  
([Customer Key],  
[Age],  
[Bike Buyer] PREDICT,  
[Yearly Income] PREDICT,  
[Commute Distance],  
[English Education],  
Gender,  
[House Owner Flag],  
[Marital Status],  
[Number Cars Owned],  
[Number Children At Home],  
[Region],  
[Total Children]  
)  
USING Microsoft_Logistic_Regression

Beispielabfrage 1: Abrufen von Modellparametern mithilfe des Data Mining-Schema-Rowsets

Durch Abfragen des Data Mining-Schema-Rowsets finden Sie Metadaten zum Modell, z. B. wann es erstellt wurde, wann das Modell zuletzt verarbeitet wurde, den Namen der Miningstruktur, auf der das Modell basiert, und den Namen der Spalte, die als vorhersagbares Attribut verwendet wird. Im folgenden Beispiel werden die Parameter zurückgegeben, die beim ersten Erstellen des Modells verwendet wurden, zusammen mit dem Namen und typ des Modells und dem Erstellungsdatum.

SELECT MODEL_NAME, SERVICE_NAME, DATE_CREATED, MINING_PARAMETERS   
FROM $system.DMSCHEMA_MINING_MODELS  
WHERE MODEL_NAME = 'Call Center_LR'

Beispielergebnisse:

MODEL_NAME	SERVICE_NAME	ERSTELLUNGSDATUM	MINING_PARAMETERS
Center_LR anrufen	Microsoft_Logistic_Regression	04/07/2009 20:38:33	HOLDOUT_PERCENTAGE=30, HOLDOUT_SEED=1, MAXIMUM_INPUT_ATTRIBUTES=255, MAXIMUM_OUTPUT_ATTRIBUTES=255, MAXIMUM_STATES=100, SAMPLE_SIZE=10000

Beispielabfrage 2: Finden von zusätzlichen Details zum Modell mithilfe von DMX

Die folgende Abfrage gibt einige grundlegende Informationen zum logistischen Regressionsmodell zurück. Ein logistisches Regressionsmodell ähnelt einem neuralen Netzwerkmodell auf vielfältige Weise, einschließlich des Vorhandenseins eines marginalen Statistikknotens (NODE_TYPE = 24), der die als Eingaben verwendeten Werte beschreibt. Diese Beispielabfrage verwendet das Targeted Mailing-Modell und ruft die Werte aller Eingaben ab, indem sie aus der geschachtelten Tabelle abgerufen werden, NODE_DISTRIBUTION.

SELECT FLATTENED NODE_DISTRIBUTION AS t  
FROM [TM_Logistic Regression].CONTENT

Teilergebnisse:

t.ATTRIBUTE_NAME	t.ATTRIBUTE_VALUE	t.UNTERSTÜTZUNG	t.W'keit	t.Varianz	t.VALUETYPE
Alter	Fehlend	0	0	0	1
Alter	45.43491192	17484	1	126.9544114	3
Fahrradkäufer	Fehlend	0	0	0	1
Fahrradkäufer	0	8869	0.507263784	0	4
Fahrradkäufer	1	8615	0.492736216	0	4
Pendlerdistanz	Fehlend	0	0	0	1
Pendlerdistanz	5-10 Meilen	3033	0.173472889	0	4

Die tatsächliche Abfrage gibt viele weitere Zeilen zurück; In diesem Beispiel wird jedoch die Art der Informationen veranschaulicht, die über die Eingaben bereitgestellt werden. Für diskrete Eingaben wird jeder mögliche Wert in der Tabelle aufgeführt. Für fortlaufende Eingaben wie "Age" ist eine vollständige Auflistung unmöglich, sodass die Eingabe als Mittelwert diskretisiert wird. Weitere Informationen zur Verwendung der Informationen im Knoten "Marginale Statistiken" finden Sie unter Mining Model Content for Logistic Regression Models (Analysis Services - Data Mining).

Hinweis

Die Ergebnisse wurden für eine einfachere Anzeige vereinfacht, aber Sie können die geschachtelte Tabelle in einer einzelnen Spalte zurückgeben, wenn Ihr Anbieter hierarchische Rowsets unterstützt.

Vorhersageabfragen für ein Logistisches Regressionsmodell

Mit jeder Art von Miningmodell können Sie die Funktion Predict (DMX) verwenden, um dem Modell neue Daten bereitzustellen und Prognosen basierend auf den neuen Werten zu erstellen. Sie können auch Funktionen verwenden, um zusätzliche Informationen zur Vorhersage zurückzugeben, z. B. die Wahrscheinlichkeit, dass eine Vorhersage korrekt ist. Dieser Abschnitt enthält einige Beispiele für Vorhersageabfragen für ein logistisches Regressionsmodell.

Beispielabfrage 3: Erstellen von Vorhersagen für einen fortlaufenden Wert

Da die logistische Regression die Verwendung fortlaufender Attribute sowohl für Eingabe als auch für Vorhersage unterstützt, ist es einfach, Modelle zu erstellen, die verschiedene Faktoren in Ihren Daten korrelieren. Mithilfe von Vorhersageabfragen können Sie die Beziehung zwischen diesen Faktoren untersuchen.

Das folgende Abfragebeispiel basiert auf dem Call Center-Modell aus dem Zwischentutorial und erstellt eine Singleton-Abfrage, die die Dienstnote für die Frühschicht am Freitag vorhersagt. Die Funktion PredictHistogram (DMX) gibt eine geschachtelte Tabelle zurück, die Statistiken bereitstellt, die für das Verständnis der Gültigkeit des vorhergesagten Werts relevant sind.

SELECT  
  Predict([Call Center_LR].[Service Grade]) as Predicted ServiceGrade,  
  PredictHistogram([Call Center_LR].[Service Grade]) as [Results],  
FROM  
  [Call Center_LR]  
NATURAL PREDICTION JOIN  
(SELECT 'Friday' AS [Day Of Week],  
  'AM' AS [Shift]) AS t

Beispielergebnisse:

Vorhergesagte Dienstklasse: 0.102601830123659

Ergebnisse

Servicequalität	$UNTERSTÜTZUNG	$PROBABILITY	Angepasste Wahrscheinlichkeit	$VARIANZ	$STDEV
0.102601830123659	83.0232558139535	0.988372093023256	0	0.00120552660600087	0.034720694203902
	0.976744186046512	0.0116279069767442	0.0116279069767442	0	0

Weitere Informationen zu den Wahrscheinlichkeits-, Support- und Standardabweichungswerten in der geschachtelten NODE_DISTRIBUTION Tabelle finden Sie unter Mining Model Content for Logistic Regression Models (Analysis Services - Data Mining).

Beispielabfrage 4: Erstellen von Vorhersagen für einen diskreten Wert

Logistische Regression wird in der Regel in Szenarien verwendet, in denen Sie die Faktoren analysieren möchten, die zu einem binären Ergebnis beitragen. Obwohl das in der Anleitung verwendete Modell einen kontinuierlichen Wert vorhersagt, könnte man das Modell in einem realen Szenario so einrichten, dass es vorhersagt, ob die Dienstklasse einen diskretisierten Zielwert erfüllt. Alternativ können Sie die Vorhersagen mithilfe eines fortlaufenden Werts ausgeben, später aber die vorhergesagten Ergebnisse in "Gut", " Fair" oder "Schlecht" gruppieren.

Im folgenden Beispiel wird veranschaulicht, wie Sie die Art und Weise ändern, wie das vorhersagbare Attribut gruppiert wird. Dazu erstellen Sie eine Kopie der Miningstruktur und ändern dann die Diskretisierungsmethode der Zielspalte so, dass die Werte gruppiert werden, anstatt fortlaufend.

Im folgenden Verfahren wird beschrieben, wie Sie die Gruppierung der Werte der Dienstnoten in den Call Center-Daten ändern.

So erstellen Sie eine diskretisierte Version der Call Center-Miningstruktur und -modelle

Erweitern Sie in den SQL Server Data Tools (SSDT) im Projektmappen-Explorer die Miningstrukturen.
Klicken Sie mit der rechten Maustaste auf Call Center.dmm, und wählen Sie "Kopieren" aus.
Klicken Sie mit der rechten Maustaste auf Mining-Strukturen, und wählen Sie Einfügen aus. Es wird eine neue Miningstruktur mit dem Namen Call Center 1 hinzugefügt.
Klicken Sie mit der rechten Maustaste auf die neue Miningstruktur, und wählen Sie "Umbenennen" aus. Geben Sie den neuen Namen ein, "Call Center Discretized".
Doppelklicken Sie auf die neue Miningstruktur, um sie im Designer zu öffnen. Beachten Sie, dass auch die Miningmodelle kopiert wurden und alle über die Erweiterung 1 verfügen. Belassen Sie die Namen wie bisher.
Klicken Sie auf der Registerkarte "Miningstruktur" mit der rechten Maustaste auf die Spalte für Servicegrad, und wählen Sie "Eigenschaften" aus.
Ändern Sie die Content Eigenschaft von "Fortlaufend" in "Diskretized". Ändern Sie die DiscretizationMethod Eigenschaft in Cluster. Geben Sie für Diskretisierung BucketCount 3 ein.

Hinweis

Diese Parameter werden nur zur Veranschaulichung des Prozesses verwendet und erzeugen nicht unbedingt ein gültiges Modell,
Wählen Sie im Menü "Miningmodell " die Option "Prozessstruktur" und alle Modelle aus.

Die folgende Beispielabfrage basiert auf diesem diskretisierten Modell und prognostiziert die Dienstklasse für den angegebenen Wochentag zusammen mit den Wahrscheinlichkeiten für jedes vorhergesagte Ergebnis.

SELECT  
  (PredictHistogram([Call Center_LR 1].[Service Grade])) as [Predictions]  
FROM  
  [Call Center_LR 1]  
NATURAL PREDICTION JOIN  
(SELECT 'Saturday' AS [Day Of Week]) AS t

Erwartete Ergebnisse:

Vorhersagen

Servicestufe	$UNTERSTÜTZUNG	$PROBABILITY	$ADJUSTEDPROBABILITY
0.10872718383125	35.7246504770641	0.425293458060287	0.0170168360030293
0.05855769230625	31.7098880800703	0.377498667619885	0.020882020060454
0.170169491525	15.6109159883202	0.185844237956192	0.0661386571386049
	0.954545454545455	0.0113636363636364	0.0113636363636364

Beachten Sie, dass die vorhergesagten Ergebnisse wie angegeben in drei Kategorien gruppiert wurden; Diese Gruppierungen basieren jedoch auf dem Clustering tatsächlicher Werte in den Daten, nicht auf beliebigen Werten, die Sie als Geschäftsziele festlegen können.

Liste der Vorhersagefunktionen

Alle Microsoft-Algorithmen unterstützen einen gemeinsamen Satz von Funktionen. Der Microsoft Logistic Regression-Algorithmus unterstützt jedoch die in der folgenden Tabelle aufgeführten zusätzlichen Funktionen.


Vorhersagefunktion	Verwendung
IsDescendant (DMX)	Bestimmt, ob ein Knoten ein Kindknoten eines anderen Knotens im Modell ist.
PredictAdjustedProbability (DMX)	Gibt die angepasste Wahrscheinlichkeit eines angegebenen Zustands zurück.
PredictHistogram (DMX)	Gibt einen vorhergesagten Wert oder wertesatz für eine angegebene Spalte zurück.
PredictProbability (DMX)	Gibt die Wahrscheinlichkeit für einen angegebenen Zustand zurück.
PredictStdev (DMX)	Gibt die Standardabweichung für den vorhergesagten Wert zurück.
PredictSupport (DMX)	Gibt den Unterstützungswert für einen angegebenen Zustand zurück.
PredictVariance (DMX)	Gibt die Varianz einer angegebenen Spalte zurück.

Eine Liste der Funktionen, die allen Microsoft-Algorithmen gemeinsam sind, finden Sie unter General Prediction Functions (DMX). Informationen zur Syntax bestimmter Funktionen finden Sie unter Data Mining Extensions (DMX) Funktion Referenz.