Freigeben über


Microsoft Naive Bayes-Algorithmus

Der Microsoft Naive Bayes-Algorithmus ist ein Klassifizierungsalgorithmus, der auf den Theoremen von Bayes basiert und von Microsoft SQL Server Analysis Services für die Verwendung in der Predictive Modeling bereitgestellt wird. Das Wort naïve im Namen Naïve Bayes leitet sich von der Tatsache ab, dass der Algorithmus Bayesische Techniken verwendet, berücksichtigt jedoch keine Abhängigkeiten, die vorhanden sein können.

Dieser Algorithmus ist weniger rechenintensiv als andere Microsoft-Algorithmen und ist daher nützlich, um Miningmodelle schnell zu generieren, um Beziehungen zwischen Eingabespalten und vorhersagbaren Spalten zu ermitteln. Sie können diesen Algorithmus verwenden, um die erste Untersuchung von Daten durchzuführen, und dann später können Sie die Ergebnisse anwenden, um zusätzliche Miningmodelle mit anderen Algorithmen zu erstellen, die rechenintensiver und genauer sind.

Beispiel

Als fortlaufende Werbestrategie hat die Marketingabteilung des Unternehmens Adventure Works Cycle beschlossen, potenzielle Kunden zu erreichen, indem Flugblätter versendet werden. Um die Kosten zu senken, möchten sie Prospekte nur an die Kunden senden, die wahrscheinlich reagieren. Das Unternehmen speichert Informationen in einer Datenbank über demografische Daten und die Antwort auf einer vorherigen Sendung. Sie möchten diese Daten verwenden, um zu sehen, wie demografische Daten wie Alter und Standort dazu beitragen können, die Reaktion auf eine Werbeaktion vorherzusagen, indem potenzielle Kunden mit Kunden verglichen werden, die ähnliche Merkmale haben und die in der Vergangenheit im Unternehmen erworben haben. Insbesondere möchten sie die Unterschiede zwischen den Kunden sehen, die ein Fahrrad gekauft haben, und den Kunden, die das nicht getan haben.

Mithilfe des Microsoft Naive Bayes-Algorithmus kann die Marketingabteilung schnell ein Ergebnis für ein spezifisches Kundenprofil vorhersagen und somit bestimmen, welche Kunden am wahrscheinlichsten auf die Flugblätter reagieren. Mithilfe des Microsoft Naive Bayes Viewers in SQL Server Data Tools (SSDT) können sie auch visuell analysieren, welche Eingabespalten zu positiven Reaktionen auf Flugblätter beitragen.

Funktionsweise des Algorithmus

Der Microsoft Naive Bayes-Algorithmus berechnet die Wahrscheinlichkeit jedes Zustands jeder Eingabespalte, je nach jedem möglichen Zustand der vorhersehbaren Spalte.

Um zu verstehen, wie dies funktioniert, verwenden Sie den Microsoft Naive Bayes Viewer in SQL Server Data Tools (SSDT) (wie in der folgenden Grafik dargestellt), um visuell zu untersuchen, wie der Algorithmus Zustände verteilt.

Naive Bayes Verteilung von Staaten

Hier listet der Microsoft Naive Bayes Viewer jede Eingabespalte im Dataset auf und zeigt, wie die Zustände jeder Spalte verteilt werden, je nach Zustand der vorhersagbaren Spalte.

Sie würden diese Ansicht des Modells verwenden, um die Eingabespalten zu identifizieren, die für die Unterscheidung zwischen den Zuständen der vorhersagbaren Spalte wichtig sind.

Beispielsweise unterscheidet sich in der Zeile für die hier gezeigte Pendlerdistanz die Verteilung der Eingabewerte für Käufer gegenüber Nichtkäufern deutlich. Dies sagt Ihnen, dass die Eingabe, Pendlerdistanz = 0-1 Meilen, ein potenzieller Vorhersager ist.

Der Betrachter liefert auch Werte für die Verteilungen, sodass Sie sehen können, dass bei Kunden, die von einer bis zwei Meilen zur Arbeit pendeln, die Wahrscheinlichkeit, dass sie ein Fahrrad kaufen, bei 0.387 liegt und die Wahrscheinlichkeit, dass sie kein Fahrrad kaufen, bei 0.287 liegt. In diesem Beispiel verwendet der Algorithmus die numerischen Informationen, die von Kundenmerkmalen (z. B. Der Wegweg) abgeleitet werden, um vorherzusagen, ob ein Kunde ein Fahrrad kauft.

Weitere Informationen zur Verwendung des Microsoft Naive Bayes Viewers finden Sie unter Durchsuchen eines Modells mithilfe des Microsoft Naive Bayes Viewers.

Für Naive Bayes-Modelle erforderliche Daten

Wenn Sie Daten für die Verwendung in der Schulung eines Naive Bayes-Modells vorbereiten, sollten Sie die Anforderungen für den Algorithmus verstehen, einschließlich der benötigten Daten und der Verwendung der Daten.

Die Anforderungen für ein Naive Bayes-Modell sind wie folgt:

  • Eine einzelne Schlüsselspalte Jedes Modell muss eine numerische oder Textspalte enthalten, die jeden Datensatz eindeutig identifiziert. Zusammengesetzte Schlüssel sind nicht zulässig.

  • Eingabespalten In einem Naive Bayes-Modell müssen alle Spalten entweder diskrete oder diskretisierte Säulen sein. Informationen zum Diskretisieren von Spalten finden Sie unter Diskretisierungsmethoden (Data Mining).

    Für ein Naive Bayes-Modell ist es auch wichtig sicherzustellen, dass die Eingabeattribute voneinander unabhängig sind. Dies ist besonders wichtig, wenn Sie das Modell für die Vorhersage verwenden.

    Der Grund dafür ist, dass bei Verwendung von zwei Datenspalten, die bereits eng miteinander verknüpft sind, der Effekt darin besteht, den Einfluss dieser Spalten zu multiplizieren, wodurch andere Faktoren verdeckt werden können, die das Ergebnis beeinflussen.

    Umgekehrt ist die Fähigkeit des Algorithmus, Korrelationen zwischen Variablen zu identifizieren, nützlich, wenn Sie ein Modell oder Dataset untersuchen, um Beziehungen zwischen Eingaben zu identifizieren.

  • Mindestens eine vorhersagbare Spalte Das vorhersagbare Attribut muss diskrete oder diskretisierte Werte enthalten.

    Die Werte der vorhersagbaren Spalte können als Eingaben behandelt werden. Diese Vorgehensweise kann nützlich sein, wenn Sie ein neues Dataset untersuchen, um Beziehungen zwischen den Spalten zu finden.

Anzeigen des Modells

Um das Modell zu erkunden, können Sie den Microsoft Naive Bayes Viewer verwenden. Der Viewer zeigt, wie die Eingabeattribute mit dem vorhersagbaren Attribut zusammenhängen. Der Viewer bietet außerdem ein detailliertes Profil jedes Clusters, eine Liste der Attribute, die jeden Cluster von den anderen unterscheiden, und die Merkmale des gesamten Schulungsdatensatzes. Weitere Informationen finden Sie unter Durchsuchen eines Modells mithilfe des Microsoft Naive Bayes Viewers.

Wenn Sie weitere Details wissen möchten, können Sie das Modell im Microsoft Generic Content Tree Viewer (Data Mining) durchsuchen. Weitere Informationen zum Typ der im Modell gespeicherten Informationen finden Sie unter Mining Model Content for Naive Bayes Models (Analysis Services - Data Mining).

Erstellen von Vorhersagen

Nachdem das Modell trainiert wurde, werden die Ergebnisse als eine Reihe von Mustern gespeichert, die Sie untersuchen oder verwenden können, um Vorhersagen zu erstellen.

Sie können Abfragen erstellen, um Vorhersagen darüber zurückzugeben, wie neue Daten mit dem vorhersagbaren Attribut zusammenhängen, oder Sie können Statistiken abrufen, die die vom Modell gefundenen Korrelationen beschreiben.

Informationen zum Erstellen von Abfragen für ein Data Mining-Modell finden Sie unter Data Mining-Abfragen. Beispiele für die Verwendung von Abfragen mit einem Naive Bayes-Modell finden Sie unter Naive Bayes Model Query Examples.

Bemerkungen

  • Unterstützt die Verwendung von Predictive Model Markup Language (PMML) zum Erstellen von Miningmodellen.

  • Unterstützt Drillthrough.

  • Unterstützt nicht die Erstellung von Data Mining-Dimensionen.

  • Unterstützt die Verwendung von OLAP-Miningmodellen.

Siehe auch

Data Mining-Algorithmen (Analysis Services - Data Mining)Merkmalselektion (Data Mining)Beispielanfragen für Naive-Bayes-ModelleInhaltsanalyse des Mining-Modells für Naive-Bayes-Modelle (Analysis Services – Data Mining)Technische Referenz des Microsoft Naive Bayes-Algorithmus