Artikel
09/24/2010

Microsoft Naive Bayes-Algorithmus

Der Microsoft Naive Bayes-Algorithmus ist ein Klassifikationsalgorithmus, der in MicrosoftSQL ServerAnalysis Services zum Verwenden bei der Vorhersagemodellierung bereitgestellt wird. Der Name "Naive Bayes" leitet sich davon ab, dass der Algorithmus das Bayes-Theorem verwendet, dabei aber keine ggf. vorhandenen Kontoabhängigkeiten berücksichtigt, weshalb die Annahmen als "naiv" bezeichnet werden.

Der Rechenaufwand für diesen Algorithmus ist geringer als der der anderen Microsoft-Algorithmen und ist daher hilfreich für das schnelle Generieren von Miningmodellen, um Beziehungen zwischen Eingabespalten und vorhersagbaren Spalten zu ermitteln. Sie können diesen Algorithmus zunächst dazu verwenden, um Daten zu durchsuchen. Später können Sie dann die Ergebnisse anwenden, um zusätzliche Miningmodelle mit anderen Algorithmen zu erstellen, deren Rechenaufwand größer ist und die präziser sind.

Beispiel

Als fortlaufende Werbestrategie hat die Marketingabteilung der Firma Adventure Works Cycle beschlossen, potenzielle Kunden durch den E-Mail-Versand von Flyern anzuwerben. Zur Reduzierung von Kosten sollen die Flyer nur an jene Kunden gesendet werden, die mit höherer Wahrscheinlichkeit auf diese Flyer reagieren. Das Unternehmen speichert die Informationen in einer Datenbank mit demographischen Daten und Reaktionen auf vorherige Mailingaktionen. Anhand dieser demographischen Daten, wie z. B. über das Alter und den Standort, möchten sie die Reaktion auf eine Werbekampagne vorhersagen, indem sie potenzielle Kunden mit Kunden vergleichen, die ähnliche Merkmale aufweisen und die bereits in der Vergangenheit Produkte des Unternehmens gekauft haben. Insbesondere sollen die Unterschiede zwischen jenen Kunden gezeigt werden, die ein Fahrrad gekauft haben, und jenen, die keins gekauft haben.

Mithilfe des Microsoft Naive Bayes-Algorithmus kann die Marketingabteilung die Ausgabe eines Kundenprofils schnell vorhersagen und kann daher bestimmen, welche Kunden mit größerer Wahrscheinlichkeit auf die Flyer reagieren. Mit dem Microsoft Naive Bayes-Viewer in Business Intelligence Development Studio können Sie auch insbesondere visuell untersuchen, welche Eingabespalten zu positiven Reaktionen beitragen.

Funktionsweise des Algorithmus

Der Microsoft Naive Bayes-Algorithmus berechnet die Wahrscheinlichkeit für jeden Status jeder einzelnen Eingabespalte. Jeder mögliche Status der vorhersagbaren Spalte ist dabei gegeben. Sie können den Microsoft Naive Bayes-Viewer in Business Intelligence Development Studio verwenden, um visuell anzuzeigen, wie der Algorithmus die Status, wie in der folgenden Grafik dargestellt, verteilt.

Statusverteilung für naives Bayes-Verfahren

Im Microsoft Naive Bayes-Viewer werden alle Eingabespalten im Dataset aufgelistet und die Verteilung der Status der einzelnen Spalten angezeigt. Jeder Status der vorhersagbaren Spalte ist dabei gegeben. Sie können diese Anzeige zur Identifizierung der Eingabespalten verwenden, die zur Unterscheidung zwischen den verschiedenen Status der vorhersagbaren Spalten wichtig sind. In der hier angezeigten Commute Distance-Spalte liegt die Wahrscheinlichkeit, dass ein Kunde ein Fahrrad kauft, bei 0,387, wenn der Arbeitsweg 1 bis 2 Meilen beträgt. Die Wahrscheinlichkeit, dass der Kunde kein Fahrrad kauft, liegt bei 0,287. In diesem Beispiel verwendet der Algorithmus die numerische Information, die von den Kundenmerkmalen, wie z. B. der Pendelstrecke, abgeleitet werden, um vorherzusagen, ob ein Kunde ein Fahrrad kauft. Weitere Informationen zum Verwenden des Microsoft Naive Bayes-Viewers finden Sie unter Anzeigen eines Miningmodells mit dem Microsoft-Viewer für naives Bayes-Verfahren.

Erforderliche Daten für Naive Bayes-Modelle

Wenn Sie Daten für die Verwendung beim Training eines Naive Bayes-Modells aufbereiten, müssen Sie sich mit den Anforderungen des Algorithmus, dessen Anforderungen an die Daten und der Verwendung der Daten vertraut machen.

Für ein Naive Bayes-Modell gelten die folgenden Anforderungen:

Nur eine Schlüsselspalte: Jedes Modell muss eine numerische Spalte oder Textspalte enthalten, die jeden Datensatz eindeutig identifiziert. Verbundschlüssel sind nicht zulässig.
Eingabespalten: In einem Naive Bayes-Modell müssen alle Spalten entweder diskrete oder diskretisierte Spalten sein. Weitere Informationen zur Diskretisierung von Spalten finden Sie unter Diskretisierungsmethoden (Data Mining). Bei einem Naive Bayes-Modell ist es wichtig sicherzustellen, dass die Eingabeattribute unabhängig voneinander sind.
Mindestens eine vorhersagbare Spalte: Das vorhersagbare Attribut muss diskrete oder diskretisierte Werte enthalten. Die Werte der vorhersagbaren Spalte können als Eingabe behandelt werden. Dies wird häufig verwendet, um Beziehungen zwischen Spalten zu ermitteln.

Anzeigen des Modells

Zum Durchsuchen des Modells können Sie den Microsoft-Viewer für naives Bayes-Verfahren verwenden. Der Viewer zeigt an, wie die Eingabeattribute mit dem vorhersagbaren Attribut in Beziehung stehen. Der Viewer stellt ein detailliertes Profil für jedes Cluster, eine Liste der Attribute, um die sich die einzelnen Cluster von anderen Clustern unterscheiden, und die Eigenschaften des gesamten Trainingsdatasets bereit. Weitere Informationen finden Sie unter Anzeigen eines Miningmodells mit dem Microsoft-Viewer für naives Bayes-Verfahren.

Wenn Sie detailliertere Informationen benötigen, können Sie sich das Modell unter Microsoft Generic Content Tree-Viewer (Data Mining-Designer) ansehen. Weitere Informationen zur Art der Daten, die im Modell gespeichert werden, finden Sie unter Miningmodellinhalt von Naive Bayes-Modellen (Analysis Services - Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell trainiert wurde, werden die Ergebnisse als Mustersatz gespeichert, den Sie durchsuchen oder zum Erstellen von Vorhersagen verwenden können.

Sie können Abfragen erstellen, um Vorhersagen dazu zurückzugeben, wie neue Daten mit dem vorhersagbaren Attribut in Beziehung stehen, oder Sie können Statistiken abrufen, die die vom Modell gefundenen Korrelationen beschreiben.

Informationen zum Erstellen von Abfragen für ein Data Mining-Modell finden Sie unter Abfragen von Data Mining-Modellen (Analysis Services - Data Mining). Beispiele zur Verwendung von Abfragen in Verbindung mit einem Naive Bayes-Modell finden Sie unter Abfragen eines Naive Bayes-Modells (Analysis Services - Data Mining).

Hinweise

Unterstützt die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.
Unterstützt Drillthrough.
Unterstützt nicht die Erstellung von Data Mining-Dimensionen.
Unterstützt die Verwendung von OLAP-Miningmodellen.