Références techniques relatives à l'algorithme MNB (Microsoft Naive Bayes)
L'algorithme MNB (Microsoft Naive Bayes) est un algorithme de classification fourni par MicrosoftSQL ServerAnalysis Services qui est conçu pour la modélisation prédictive. Cet algorithme calcule la probabilité conditionnelle entre les colonnes d'entrée et les colonnes prédictibles, et suppose que les colonnes sont indépendantes. Naive Bayes tire son nom de cette hypothèse d'indépendance.
Implémentation de l'algorithme MNB (Microsoft Naive Bayes)
Cet algorithme est informatiquement moins lourd que d'autres algorithmes Microsoft. Par conséquent, il est utile pour générer rapidement des modèles d'exploration de données permettant de découvrir les relations entre les colonnes d'entrée et les colonnes prévisibles. L'algorithme prend en considération chaque paire de valeurs d'attribut d'entrée et valeurs d'attribut de sortie.
La description des propriétés mathématiques du théorème de Bayes n'est pas traitée dans cette documentation. Pour plus d'informations, consultez le document Microsoft Research intitulé Learning Bayesian Networks:.
Pour une description de la façon dont les probabilités dans tous les modèles sont ajustées pour expliquer des valeurs manquantes potentielles, consultez Valeurs manquantes (Analysis Services - Exploration de données).
Sélection des fonctionnalités
L'algorithme MNB Microsoft effectue une sélection des fonctionnalités automatique pour limiter le nombre de valeurs prises en considération lors de la génération du modèle. Pour plus d'informations, consultez Sélection des fonctionnalités pour l'exploration de données.
Algorithme |
Méthode d'analyse |
Commentaires |
---|---|---|
Naive Bayes |
Entropie de Shannon Bayésien avec a priori K2 Équivalent bayésien de Dirichlet avec a priori uniforme (par défaut) |
L'algorithme Naive Bayes accepte uniquement les attributs discrets ou discrétisés ; par conséquent, il ne peut pas utiliser le score d'intérêt et de pertinence. |
L'algorithme est conçu pour réduire le temps de traitement et sélectionner efficacement les attributs qui ont la plus grande importance. Toutefois, vous peut contrôler les données utilisées par l'algorithme en définissant des paramètres comme suit :
Pour limiter les valeurs utilisées comme entrées, réduisez la valeur de MAXIMUM_INPUT_ATTRIBUTES.
Pour limiter le nombre d'attributs analysés par le modèle, réduisez la valeur de MAXIMUM_OUTPUT_ATTRIBUTES.
Pour limiter le nombre de valeurs qui peuvent être prise en considération pour n'importe quel attribut, réduisez la valeur de MINIMUM_STATES.
Personnalisation de l'algorithme Naive Bayes
L'algorithme MNB (Microsoft Naive Bayes) prend en charge plusieurs paramètres qui affectent le comportement, les performances et la précision du modèle d'exploration de données obtenu. Vous pouvez également définir des indicateurs de modélisation sur les colonnes du modèle pour contrôler le mode de traitement des données ou sur la structure d'exploration de données por spécifier la gestion des valeurs manquantes ou Null.
Définition des paramètres d'algorithme
L'algorithme MNB (Microsoft Naive Bayes) prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d'exploration de données obtenu. La table ci-dessous décrit chaque paramètre.
MAXIMUM_INPUT_ATTRIBUTES
Spécifie le nombre maximal d'attributs d'entrée que l'algorithme peut gérer avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités pour les attributs d'entrée.La valeur par défaut est 255.
MAXIMUM_OUTPUT_ATTRIBUTES
Spécifie le nombre maximal d'attributs de sortie que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités pour les attributs de sortie.La valeur par défaut est 255.
MINIMUM_DEPENDENCY_PROBABILITY
Spécifie la probabilité de dépendance minimale entre les attributs d'entrée et les attributs de sortie. Cette valeur sert à limiter la taille du contenu généré par l'algorithme. Cette propriété peut être définie entre 0 et 1. Les plus grandes valeurs réduisent le nombre d'attributs dans le contenu du modèle.La valeur par défaut est 0,5.
MAXIMUM_STATES
Spécifie le nombre maximal d'états d'attribut que l'algorithme prend en charge. Si le nombre d'états d'un attribut est supérieur au nombre maximal d'états, l'algorithme emploie les états les plus utilisés de l'attribut et traite les autres comme étant manquants.La valeur par défaut est 100.
Indicateurs de modélisation
L'algorithme MDT (Microsoft Decision Trees) prend en charge les indicateurs de modélisation suivants. Lorsque vous créez la structure d'exploration de données ou le modèle d'exploration de données, vous définissez des indicateurs de modélisation pour spécifier la façon dont les valeurs de chaque colonne sont gérées pendant l'analyse. Pour plus d'informations, consultez Indicateurs de modélisation (Exploration de données).
Indicateur de modélisation |
Description |
---|---|
MODEL_EXISTENCE_ONLY |
Signifie que la colonne sera considérée comme ayant deux états possibles : manquant et existant. Null est une valeur manquante. S'applique à la colonne de modèle d'exploration de données. |
NON NULL |
Indique que la colonne ne peut pas contenir de valeur Null. Une erreur est générée si Analysis Services rencontre une valeur Null au cours de l'apprentissage du modèle. S'applique à la colonne de structure d'exploration de données. |
Conditions requises
Un modèle d'arbre Naive Bayes doit contenir une colonne de clés, au moins un attribut prévisible et au moins un attribut d'entrée. Aucun attribut ne peut être continu ; si vos données contiennent des données numériques continues, elles seront ignorées ou discrétisées.
Colonnes d'entrée et prévisibles
L'algorithme MNB (MicrosoftNaive Bayes) prend en charge les colonnes d'entrée et les colonnes prévisibles répertoriées dans le tableau suivant. Pour plus d'informations sur ce que les types de contenu impliquent lorsqu'ils sont utilisés dans un modèle d'exploration de données, consultez Types de contenu (Exploration de données).
Colonne |
Types de contenu |
---|---|
Attribut d'entrée |
Cyclique, Discret, Discrétisé, Clé, Table et Trié |
Attribut prévisible |
Cyclique, Discret, Discrétisé, Table et Trié |
[!REMARQUE]
Les types de contenu Cyclique et Trié sont pris en charge, mais l'algorithme les traite comme des valeurs discrètes et n'effectue pas de traitement spécial.