Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wenn Sie eine Abfrage für ein Data Mining-Modell erstellen, können Sie eine Inhaltsabfrage erstellen, die Details zu den in der Analyse ermittelten Mustern bereitstellt, oder Sie können eine Vorhersageabfrage erstellen, die die Muster im Modell verwendet, um Vorhersagen mithilfe neuer Daten zu erstellen.
In diesem Abschnitt wird erläutert, wie Abfragen für Modelle erstellt werden, die auf dem Microsoft Logistic Regression-Algorithmus basieren.
Inhaltsabfragen
Abrufen von Modellparametern mithilfe der Data Mining-Schema-Zeilenmenge
Zusätzliche Details zum Modell mithilfe von DMX finden
Vorhersageabfragen
Erstellen von Vorhersagen für einen fortlaufenden Wert
Erstellen von Vorhersagen für einen diskreten Wert
Abrufen von Informationen zum Logistischen Regressionsmodell
Logistische Regressionsmodelle werden mithilfe des Microsoft Neural Network-Algorithmus mit einem speziellen Satz von Parametern erstellt; Daher verfügt ein Logistisches Regressionsmodell über einige der gleichen Informationen wie ein neurales Netzmodell, ist aber weniger komplex. Um die Struktur des Modellinhalts zu verstehen und welche Knotentypen welche Art von Informationen speichern, finden Sie unter Mining Model Content for Logistic Regression Models (Analysis Services - Data Mining).
Um in den Abfrageszenarien zu folgen, können Sie ein logistisches Regressionsmodell erstellen, wie im folgenden Abschnitt des Lernprogramms "Intermediate Data Mining" beschrieben : Lektion 5: Building Neural Network and Logistic Regression Models (Intermediate Data Mining Tutorial).
Sie können auch die Miningstruktur „Targeted Mailing“ aus dem Basic Data Mining Tutorial verwenden.
ALTER MINING STRUCTURE [Targeted Mailing]
ADD MINING MODEL [TM_Logistic Regression]
([Customer Key],
[Age],
[Bike Buyer] PREDICT,
[Yearly Income] PREDICT,
[Commute Distance],
[English Education],
Gender,
[House Owner Flag],
[Marital Status],
[Number Cars Owned],
[Number Children At Home],
[Region],
[Total Children]
)
USING Microsoft_Logistic_Regression
Beispielabfrage 1: Abrufen von Modellparametern mithilfe des Data Mining-Schema-Rowsets
Durch Abfragen des Data Mining-Schema-Rowsets finden Sie Metadaten zum Modell, z. B. wann es erstellt wurde, wann das Modell zuletzt verarbeitet wurde, den Namen der Miningstruktur, auf der das Modell basiert, und den Namen der Spalte, die als vorhersagbares Attribut verwendet wird. Im folgenden Beispiel werden die Parameter zurückgegeben, die beim ersten Erstellen des Modells verwendet wurden, zusammen mit dem Namen und typ des Modells und dem Erstellungsdatum.
SELECT MODEL_NAME, SERVICE_NAME, DATE_CREATED, MINING_PARAMETERS
FROM $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'Call Center_LR'
Beispielergebnisse:
| MODEL_NAME | SERVICE_NAME | ERSTELLUNGSDATUM | MINING_PARAMETERS |
|---|---|---|---|
| Center_LR anrufen | Microsoft_Logistic_Regression | 04/07/2009 20:38:33 | HOLDOUT_PERCENTAGE=30, HOLDOUT_SEED=1, MAXIMUM_INPUT_ATTRIBUTES=255, MAXIMUM_OUTPUT_ATTRIBUTES=255, MAXIMUM_STATES=100, SAMPLE_SIZE=10000 |
Beispielabfrage 2: Finden von zusätzlichen Details zum Modell mithilfe von DMX
Die folgende Abfrage gibt einige grundlegende Informationen zum logistischen Regressionsmodell zurück. Ein logistisches Regressionsmodell ähnelt einem neuralen Netzwerkmodell auf vielfältige Weise, einschließlich des Vorhandenseins eines marginalen Statistikknotens (NODE_TYPE = 24), der die als Eingaben verwendeten Werte beschreibt. Diese Beispielabfrage verwendet das Targeted Mailing-Modell und ruft die Werte aller Eingaben ab, indem sie aus der geschachtelten Tabelle abgerufen werden, NODE_DISTRIBUTION.
SELECT FLATTENED NODE_DISTRIBUTION AS t
FROM [TM_Logistic Regression].CONTENT
Teilergebnisse:
| t.ATTRIBUTE_NAME | t.ATTRIBUTE_VALUE | t.UNTERSTÜTZUNG | t.W'keit | t.Varianz | t.VALUETYPE |
|---|---|---|---|---|---|
| Alter | Fehlend | 0 | 0 | 0 | 1 |
| Alter | 45.43491192 | 17484 | 1 | 126.9544114 | 3 |
| Fahrradkäufer | Fehlend | 0 | 0 | 0 | 1 |
| Fahrradkäufer | 0 | 8869 | 0.507263784 | 0 | 4 |
| Fahrradkäufer | 1 | 8615 | 0.492736216 | 0 | 4 |
| Pendlerdistanz | Fehlend | 0 | 0 | 0 | 1 |
| Pendlerdistanz | 5-10 Meilen | 3033 | 0.173472889 | 0 | 4 |
Die tatsächliche Abfrage gibt viele weitere Zeilen zurück; In diesem Beispiel wird jedoch die Art der Informationen veranschaulicht, die über die Eingaben bereitgestellt werden. Für diskrete Eingaben wird jeder mögliche Wert in der Tabelle aufgeführt. Für fortlaufende Eingaben wie "Age" ist eine vollständige Auflistung unmöglich, sodass die Eingabe als Mittelwert diskretisiert wird. Weitere Informationen zur Verwendung der Informationen im Knoten "Marginale Statistiken" finden Sie unter Mining Model Content for Logistic Regression Models (Analysis Services - Data Mining).
Hinweis
Die Ergebnisse wurden für eine einfachere Anzeige vereinfacht, aber Sie können die geschachtelte Tabelle in einer einzelnen Spalte zurückgeben, wenn Ihr Anbieter hierarchische Rowsets unterstützt.
Vorhersageabfragen für ein Logistisches Regressionsmodell
Mit jeder Art von Miningmodell können Sie die Funktion Predict (DMX) verwenden, um dem Modell neue Daten bereitzustellen und Prognosen basierend auf den neuen Werten zu erstellen. Sie können auch Funktionen verwenden, um zusätzliche Informationen zur Vorhersage zurückzugeben, z. B. die Wahrscheinlichkeit, dass eine Vorhersage korrekt ist. Dieser Abschnitt enthält einige Beispiele für Vorhersageabfragen für ein logistisches Regressionsmodell.
Beispielabfrage 3: Erstellen von Vorhersagen für einen fortlaufenden Wert
Da die logistische Regression die Verwendung fortlaufender Attribute sowohl für Eingabe als auch für Vorhersage unterstützt, ist es einfach, Modelle zu erstellen, die verschiedene Faktoren in Ihren Daten korrelieren. Mithilfe von Vorhersageabfragen können Sie die Beziehung zwischen diesen Faktoren untersuchen.
Das folgende Abfragebeispiel basiert auf dem Call Center-Modell aus dem Zwischentutorial und erstellt eine Singleton-Abfrage, die die Dienstnote für die Frühschicht am Freitag vorhersagt. Die Funktion PredictHistogram (DMX) gibt eine geschachtelte Tabelle zurück, die Statistiken bereitstellt, die für das Verständnis der Gültigkeit des vorhergesagten Werts relevant sind.
SELECT
Predict([Call Center_LR].[Service Grade]) as Predicted ServiceGrade,
PredictHistogram([Call Center_LR].[Service Grade]) as [Results],
FROM
[Call Center_LR]
NATURAL PREDICTION JOIN
(SELECT 'Friday' AS [Day Of Week],
'AM' AS [Shift]) AS t
Beispielergebnisse:
Vorhergesagte Dienstklasse: 0.102601830123659
Ergebnisse
| Servicequalität | $UNTERSTÜTZUNG | $PROBABILITY | Angepasste Wahrscheinlichkeit | $VARIANZ | $STDEV |
|---|---|---|---|---|---|
| 0.102601830123659 | 83.0232558139535 | 0.988372093023256 | 0 | 0.00120552660600087 | 0.034720694203902 |
| 0.976744186046512 | 0.0116279069767442 | 0.0116279069767442 | 0 | 0 |
Weitere Informationen zu den Wahrscheinlichkeits-, Support- und Standardabweichungswerten in der geschachtelten NODE_DISTRIBUTION Tabelle finden Sie unter Mining Model Content for Logistic Regression Models (Analysis Services - Data Mining).
Beispielabfrage 4: Erstellen von Vorhersagen für einen diskreten Wert
Logistische Regression wird in der Regel in Szenarien verwendet, in denen Sie die Faktoren analysieren möchten, die zu einem binären Ergebnis beitragen. Obwohl das in der Anleitung verwendete Modell einen kontinuierlichen Wert vorhersagt, könnte man das Modell in einem realen Szenario so einrichten, dass es vorhersagt, ob die Dienstklasse einen diskretisierten Zielwert erfüllt. Alternativ können Sie die Vorhersagen mithilfe eines fortlaufenden Werts ausgeben, später aber die vorhergesagten Ergebnisse in "Gut", " Fair" oder "Schlecht" gruppieren.
Im folgenden Beispiel wird veranschaulicht, wie Sie die Art und Weise ändern, wie das vorhersagbare Attribut gruppiert wird. Dazu erstellen Sie eine Kopie der Miningstruktur und ändern dann die Diskretisierungsmethode der Zielspalte so, dass die Werte gruppiert werden, anstatt fortlaufend.
Im folgenden Verfahren wird beschrieben, wie Sie die Gruppierung der Werte der Dienstnoten in den Call Center-Daten ändern.
So erstellen Sie eine diskretisierte Version der Call Center-Miningstruktur und -modelle
Erweitern Sie in den SQL Server Data Tools (SSDT) im Projektmappen-Explorer die Miningstrukturen.
Klicken Sie mit der rechten Maustaste auf Call Center.dmm, und wählen Sie "Kopieren" aus.
Klicken Sie mit der rechten Maustaste auf Mining-Strukturen, und wählen Sie Einfügen aus. Es wird eine neue Miningstruktur mit dem Namen Call Center 1 hinzugefügt.
Klicken Sie mit der rechten Maustaste auf die neue Miningstruktur, und wählen Sie "Umbenennen" aus. Geben Sie den neuen Namen ein, "Call Center Discretized".
Doppelklicken Sie auf die neue Miningstruktur, um sie im Designer zu öffnen. Beachten Sie, dass auch die Miningmodelle kopiert wurden und alle über die Erweiterung 1 verfügen. Belassen Sie die Namen wie bisher.
Klicken Sie auf der Registerkarte "Miningstruktur" mit der rechten Maustaste auf die Spalte für Servicegrad, und wählen Sie "Eigenschaften" aus.
Ändern Sie die
ContentEigenschaft von "Fortlaufend" in "Diskretized". Ändern Sie dieDiscretizationMethodEigenschaft in Cluster. Geben Sie für Diskretisierung BucketCount 3 ein.Hinweis
Diese Parameter werden nur zur Veranschaulichung des Prozesses verwendet und erzeugen nicht unbedingt ein gültiges Modell,
Wählen Sie im Menü "Miningmodell " die Option "Prozessstruktur" und alle Modelle aus.
Die folgende Beispielabfrage basiert auf diesem diskretisierten Modell und prognostiziert die Dienstklasse für den angegebenen Wochentag zusammen mit den Wahrscheinlichkeiten für jedes vorhergesagte Ergebnis.
SELECT
(PredictHistogram([Call Center_LR 1].[Service Grade])) as [Predictions]
FROM
[Call Center_LR 1]
NATURAL PREDICTION JOIN
(SELECT 'Saturday' AS [Day Of Week]) AS t
Erwartete Ergebnisse:
Vorhersagen
| Servicestufe | $UNTERSTÜTZUNG | $PROBABILITY | $ADJUSTEDPROBABILITY | $VARIANZ | $STDEV |
|---|---|---|---|---|---|
| 0.10872718383125 | 35.7246504770641 | 0.425293458060287 | 0.0170168360030293 | 0 | 0 |
| 0.05855769230625 | 31.7098880800703 | 0.377498667619885 | 0.020882020060454 | 0 | 0 |
| 0.170169491525 | 15.6109159883202 | 0.185844237956192 | 0.0661386571386049 | 0 | 0 |
| 0.954545454545455 | 0.0113636363636364 | 0.0113636363636364 | 0 | 0 |
Beachten Sie, dass die vorhergesagten Ergebnisse wie angegeben in drei Kategorien gruppiert wurden; Diese Gruppierungen basieren jedoch auf dem Clustering tatsächlicher Werte in den Daten, nicht auf beliebigen Werten, die Sie als Geschäftsziele festlegen können.
Liste der Vorhersagefunktionen
Alle Microsoft-Algorithmen unterstützen einen gemeinsamen Satz von Funktionen. Der Microsoft Logistic Regression-Algorithmus unterstützt jedoch die in der folgenden Tabelle aufgeführten zusätzlichen Funktionen.
| Vorhersagefunktion | Verwendung |
| IsDescendant (DMX) | Bestimmt, ob ein Knoten ein Kindknoten eines anderen Knotens im Modell ist. |
| PredictAdjustedProbability (DMX) | Gibt die angepasste Wahrscheinlichkeit eines angegebenen Zustands zurück. |
| PredictHistogram (DMX) | Gibt einen vorhergesagten Wert oder wertesatz für eine angegebene Spalte zurück. |
| PredictProbability (DMX) | Gibt die Wahrscheinlichkeit für einen angegebenen Zustand zurück. |
| PredictStdev (DMX) | Gibt die Standardabweichung für den vorhergesagten Wert zurück. |
| PredictSupport (DMX) | Gibt den Unterstützungswert für einen angegebenen Zustand zurück. |
| PredictVariance (DMX) | Gibt die Varianz einer angegebenen Spalte zurück. |
Eine Liste der Funktionen, die allen Microsoft-Algorithmen gemeinsam sind, finden Sie unter General Prediction Functions (DMX). Informationen zur Syntax bestimmter Funktionen finden Sie unter Data Mining Extensions (DMX) Funktion Referenz.
Hinweis
Bei Neurale Netzwerk- und logistische Regressionsmodelle gibt die Funktion PredictSupport (DMX) einen einzelnen Wert zurück, der die Größe des Trainingssatzes für das gesamte Modell darstellt.
Siehe auch
Data Mining-Abfragen
Microsoft Logistic Regression Algorithm
Technische Referenz zum Microsoft Logistics Regressionsalgorithmus
Miningmodellinhalt für Logistische Regressionsmodelle (Analysis Services - Data Mining)
Lektion 5: Erstellen von neuronalen Netzwerk- und logistischen Regressionsmodellen (Tutorial für fortgeschrittenes Data Mining)