Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der Microsoft Naive Bayes-Algorithmus ist ein Klassifizierungsalgorithmus, der von Microsoft SQL Server Analysis Services zur Verwendung in der Predictive Modeling bereitgestellt wird. Der Algorithmus berechnet die bedingte Wahrscheinlichkeit zwischen Eingabe- und vorhersagbaren Spalten und geht davon aus, dass die Spalten unabhängig sind. Diese Unabhängigkeitsannahme führt zum Namen Naive Bayes.
Implementierung des Microsoft Naive Bayes-Algorithmus
Dieser Algorithmus ist weniger rechenintensiv als andere Microsoft-Algorithmen und ist daher nützlich, um Miningmodelle schnell zu generieren, um Beziehungen zwischen Eingabespalten und vorhersagbaren Spalten zu ermitteln. Der Algorithmus berücksichtigt jedes Paar von Eingabeattributewerten und Ausgabe-Attributwerten.
Eine Beschreibung der mathematischen Eigenschaften von Bayes Theorem liegt außerhalb des Umfangs dieser Dokumentation; weitere Informationen finden Sie im Dokument von Microsoft Research mit dem Titel Learning Bayesian Networks: The Combination of Knowledge and Statistical Data.
Eine Beschreibung, wie Wahrscheinlichkeiten in allen Modellen angepasst werden, um potenzielle fehlende Werte zu berücksichtigen, finden Sie unter Fehlende Werte (Analysis Services - Data Mining).
Featureauswahl
Der Microsoft Naive Bayes-Algorithmus führt eine automatische Featureauswahl durch, um die Anzahl der Werte zu begrenzen, die beim Erstellen des Modells berücksichtigt werden. Weitere Informationen finden Sie unter Feature Selection (Data Mining).
| Algorithmus | Analysemethode | Kommentare |
|---|---|---|
| Naïve Bayes | Shannons Entropie Bayesian mit K2 Prior Bayesian-Dirichlet mit gleichmäßiger Priorverteilung (Voreinstellung) |
Naive Bayes akzeptiert nur diskrete oder diskretisierte Attribute; daher kann der Interessantheitswert nicht verwendet werden. |
Der Algorithmus dient dazu, die Verarbeitungszeit zu minimieren und die Attribute, die die größte Bedeutung haben, effizient auszuwählen; Sie können jedoch die Daten steuern, die vom Algorithmus verwendet werden, indem Sie Parameter wie folgt festlegen:
Um die Werte zu begrenzen, die als Eingaben verwendet werden, verringern Sie den Wert von MAXIMUM_INPUT_ATTRIBUTES.
Um die Anzahl der vom Modell analysierten Attribute zu begrenzen, verringern Sie den Wert von MAXIMUM_OUTPUT_ATTRIBUTES.
Um die Anzahl der Werte zu begrenzen, die für ein beliebiges Attribut berücksichtigt werden können, verringern Sie den Wert von MINIMUM_STATES.
Anpassen des Naive Bayes-Algorithmus
Der Microsoft Naive Bayes-Algorithmus unterstützt mehrere Parameter, die sich auf das Verhalten, die Leistung und genauigkeit des resultierenden Miningmodells auswirken. Sie können auch Modellierungskennzeichnungen für die Modellspalten festlegen, um zu steuern, wie Daten verarbeitet werden, oder die Miningstruktur kennzeichnen, um anzugeben, wie fehlende Werte oder Nullen behandelt werden sollen.
Festlegen von Algorithmusparametern
Der Microsoft Naive Bayes-Algorithmus unterstützt mehrere Parameter, die sich auf die Leistung und Genauigkeit des resultierenden Miningmodells auswirken. In der folgenden Tabelle werden die einzelnen Parameter beschrieben.
MAXIMALE_EINGABEEIGENSCHAFTEN
Gibt die maximale Anzahl von Eingabeattributen an, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Durch Festlegen dieses Werts auf 0 wird die Featureauswahl für Eingabeattribute deaktiviert.
Der Standardwert ist 255.
MAXIMUM_OUTPUT_ATTRIBUTES
Gibt die maximale Anzahl von Ausgabeattributen an, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Durch Festlegen dieses Werts auf 0 wird die Featureauswahl für Ausgabeattribute deaktiviert.
Der Standardwert ist 255.
MINIMALE_ABHÄNGIGKEITSWAHRSCHEINLICHKEIT
Gibt die Minimale Abhängigkeitswahrscheinlichkeit zwischen Eingabe- und Ausgabeattributen an. Dieser Wert wird verwendet, um die Größe des Inhalts zu begrenzen, der vom Algorithmus generiert wird. Diese Eigenschaft kann von 0 bis 1 festgelegt werden. Größere Werte verringern die Anzahl der Attribute im Inhalt des Modells.
Der Standardwert ist 0.5.
MAXIMUM_STATES
Gibt die maximale Anzahl von Attributzuständen an, die der Algorithmus unterstützt. Wenn die Anzahl der Zustände, die ein Attribut hat, größer als die maximale Anzahl von Zuständen ist, verwendet der Algorithmus die am häufigsten verwendeten Zustände des Attributs und behandelt die verbleibenden Zustände als fehlt.
Der Standardwert ist 100.
Modellierung von Flaggen
Der Microsoft Decision Trees-Algorithmus unterstützt die folgenden Modellierungskennzeichnungen. Wenn Sie die Miningstruktur oder das Miningmodell erstellen, definieren Sie Modellierungskennzeichnungen, um anzugeben, wie Werte in jeder Spalte während der Analyse behandelt werden. Weitere Informationen finden Sie unter Modeling Flags (Data Mining).
| Modellierungsflagge | BESCHREIBUNG |
|---|---|
| N/A (No improvements necessary unless context provides a translatable equivalent requiring alteration). | Bedeutet, dass die Spalte mit zwei möglichen Zuständen behandelt wird: Fehlender und vorhandener Zustand. Ein Nullwert ist ein fehlender Wert. Gilt für die Miningmodell-Spalte. |
| NICHT NULL | Gibt an, dass die Spalte keinen Nullwert enthalten kann. Ein Fehler führt dazu, dass Analysis Services während der Modellschulung auf einen Nullwert stößt. Gilt für Miningstrukturspalte. |
Anforderungen
Ein Naive Bayes-Strukturmodell muss eine Schlüsselspalte, mindestens ein vorhersagbares Attribut und mindestens ein Eingabeattribute enthalten. Kein Attribut kann fortlaufend sein; Wenn Ihre Daten fortlaufende numerische Daten enthalten, werden sie ignoriert oder diskretisiert.
Eingabe- und vorhersagbare Spalten
Der Microsoft Naive Bayes-Algorithmus unterstützt die spezifischen Eingabespalten und vorhersehbaren Spalten, die in der folgenden Tabelle aufgeführt sind. Weitere Informationen dazu, was die Inhaltstypen bedeuten, wenn sie in einem Miningmodell verwendet werden, finden Sie unter Content Types (Data Mining).
| Kolumne | Inhaltstypen |
|---|---|
| Eingabeattribute | Zyklisch, diskret, diskretisiert, Schlüssel, Tabelle und sortiert |
| Vorhersehbares Attribut | Zyklische, diskrete, diskretisierte, Tabelle und sortierte |
Hinweis
Zyklische und sortierte Inhaltstypen werden unterstützt, der Algorithmus behandelt sie jedoch als diskrete Werte und führt keine spezielle Verarbeitung durch.
Siehe auch
Microsoft Naive Bayes-Algorithmus
Beispiele für Naive Bayes-Modellabfragen
Miningmodellinhalt für Naive Bayes-Modelle (Analysis Services - Data Mining)