Artigo
09/28/2010

Referência técnica do algoritmo Microsoft Naive Bayes

O algoritmo Naïve Bayes da Microsoft é um algoritmo de classificação fornecido pelo MicrosoftSQL ServerAnalysis Services para uso em modelagem de previsão. O algoritmo calcula a probabilidade condicional entre as colunas de entrada e as previsíveis e assume que as colunas são independentes. Esta pressuposição de independência leva ao nome Naive Bayes.

Implementação do algoritmo Naive Bayes da Microsoft

Esse algoritmo é computacionalmente menos intenso de que outros algoritmos da Microsoft e, portanto, é útil para gerar modelos de mineração rapidamente para descobrir as relações entre as colunas de entrada e as colunas previsíveis. O algoritmo considera cada par de valores de atributo de entrada e valores de atributo de saída.

Uma descrição das propriedades matemáticas do Teorema de Bayes está além do escopo desta documentação; para obter mais informações, consulte o documento da Microsoft Research denominado Learning Bayesian Networks:.

Para obter uma descrição de como são ajustadas as probabilidades em todos os modelos para considerar valores ausentes, consulte Valores ausentes (Analysis Services - Mineração de dados).

Seleção de Recursos

O algoritmo Microsoft Naive Bayes executa a seleção de recursos automática para limitar o número de valores considerados durante a criação do modelo. Para obter mais informações, consulte Seleção de recursos em mineração de dados.

Algoritmo	Método de análise	Comentários
Naive Bayes	Entropia de Shannon Bayesiano com precedência K2 Bayesiano Dirichlet com precedência uniforme (padrão)	Naive Bayes aceita somente atributos discretos ou diferenciados; portanto, não pode usar a pontuação de interesse.

Naive Bayes

Entropia de Shannon

Bayesiano com precedência K2

Bayesiano Dirichlet com precedência uniforme (padrão)

Naive Bayes aceita somente atributos discretos ou diferenciados; portanto, não pode usar a pontuação de interesse.

O algoritmo foi projetado para minimizar o tempo de processamento e selecionar com eficiência os atributos que têm a maior importância; no entanto, você pode controlar os dados usados pelo algoritmo definindo parâmetros da seguinte forma:

Para limitar os valores usados como entradas, diminua o valor de MAXIMUM_INPUT_ATTRIBUTES.
Para limitar o número de atributos analisados pelo modelo, diminua o valor de MAXIMUM_OUTPUT_ATTRIBUTES.
Para limitar o número de valores que podem ser considerados para qualquer atributo, diminua o valor de MINIMUM_STATES.

Personalizando o algoritmo Naive Bayes

O algoritmo Naive Bayes da Microsoft tem suporte para vários parâmetros que afetam o comportamento, o desempenho e precisão do modelo de mineração resultante. Também é possível definir sinalizadores de modelagem nas colunas de modelo para controlar o modo como os dados são processados ou definir sinalizadores na estrutura de mineração para especificar como valores ausentes ou nulos devem ser manipulados.

Definindo parâmetros de algoritmo

O algoritmo Naive Bayes da Microsoft tem suporte para vários parâmetros que afetam o desempenho e exatidão do modelo de mineração resultante. A tabela a seguir descreve cada parâmetro.

MAXIMUM_INPUT_ATTRIBUTES
Define o número máximo de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recurso. Definir esse valor como 0 desabilita a seleção do recurso para os atributos de entrada.

O padrão é 255.
MAXIMUM_OUTPUT_ATTRIBUTES
Define o número máximo de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recurso. Definir esse valor como 0 desabilita a seleção do recurso para os atributos de saída.

O padrão é 255.
MINIMUM_DEPENDENCY_PROBABILITY
Especifica a probabilidade mínima de dependência entre os atributos de entrada e de saída. Esse valor é usado para limitar o tamanho do conteúdo gerado pelo algoritmo. Essa propriedade pode ser definida de 0 a 1. Valores maiores reduzem o número de atributos no conteúdo do modelo.

O padrão é 0.5.
MAXIMUM_STATES
Especifica o número máximo de estados de atributo para os quais o algoritmo dá suporte. Se o número de estados que um atributo tiver for maior do que o número máximo de estados, o algoritmo usará os estados mais populares do atributo e tratará os demais estados como ausentes.

O padrão é 100.

Sinalizadores de modelagem

O algoritmo Árvores de Decisão da Microsoft oferece suporte aos seguintes sinalizadores de modelagem. Ao criar um modelo ou uma estrutura de mineração, você define sinalizadores de modelagem para especificar como os valores em cada coluna são manipulados durante a análise. Para obter mais informações, consulte Sinalizadores de modelagem (Mineração de Dados).

Sinalizador de modelagem	Descrição
MODEL_EXISTENCE_ONLY	Significa que a coluna será tratada como tendo dois estados possíveis: Ausente e Existente. Nulo é um valor ausente. Aplica-se à coluna de modelo de mineração.
NOT NULL	Indica que a coluna não pode conter um nulo. Um erro ocorrerá se o Analysis Services encontrar um valor nulo durante o treinamento do modelo. Aplica-se à coluna de estrutura de mineração.

MODEL_EXISTENCE_ONLY

Significa que a coluna será tratada como tendo dois estados possíveis: Ausente e Existente. Nulo é um valor ausente.

Aplica-se à coluna de modelo de mineração.

NOT NULL

Indica que a coluna não pode conter um nulo. Um erro ocorrerá se o Analysis Services encontrar um valor nulo durante o treinamento do modelo.

Aplica-se à coluna de estrutura de mineração.

Requisitos

Um modelo de árvore Naive Bayes deve conter uma coluna de chave, pelo menos um atributo previsível e pelo menos um atributo de entrada. Nenhum atributo pode ser contínuo; se seus dados contiverem dados numéricos contínuos, eles serão ignorados ou diferenciados.

Colunas de entrada e colunas previsíveis

O algoritmo Naive Bayes da Microsoft dá suporte a colunas de entrada e colunas previsíveis específicas que são listadas na tabela a seguir. Para obter mais informações sobre o significado do tipo de conteúdo quando usado em um modelo de mineração, consulte Tipos de conteúdo (mineração de dados).

Coluna	Tipos de conteúdo
Atributo de entrada	Cíclico, discreto, diferenciado, chave, tabela, e ordenado
Atributo previsível	Cíclico, discreto, diferenciado, tabela, e ordenado