Partilhar via


Referência técnica do algoritmo Microsoft Naive Bayes

O algoritmo Microsoft Naive Bayes é um algoritmo de classificação fornecido pelo Microsoft SQL Server Analysis Services para uso na modelagem preditiva. O algoritmo calcula a probabilidade condicional entre as colunas de entrada e previsíveis e pressupõe que as colunas sejam independentes. Essa suposição de independência leva ao nome Naive Bayes.

Implementação do algoritmo Microsoft Naive Bayes

Esse algoritmo é menos computacionalmente intenso do que outros algoritmos da Microsoft e, portanto, é útil para gerar rapidamente modelos de mineração para descobrir relações entre colunas de entrada e colunas previsíveis. O algoritmo considera cada par de valores de atributo de entrada e valores de atributo de saída.

Uma descrição das propriedades matemáticas do Teorema de Bayes está além do escopo desta documentação; para obter mais informações, consulte o artigo da Microsoft Research intitulado Learning Bayesian Networks: The Combination of Knowledge and Statistical Data.

Para obter uma descrição de como as probabilidades em todos os modelos são ajustadas para considerar possíveis valores ausentes, consulte Valores Ausentes (Analysis Services – Mineração de Dados).

Seleção de recursos

O algoritmo Microsoft Naive Bayes executa a seleção automática de recursos para limitar o número de valores considerados ao compilar o modelo. Para obter mais informações, consulte Seleção de Recursos (Mineração de Dados).

Algoritmo Método de análise Comentários
Naive Bayes Entropia de Shannon

Bayesian com K2 Prior

Dirichlet bayesiano com prévio uniforme (padrão)
Naive Bayes aceita apenas atributos discretos ou discretizados; portanto, ele não pode usar a pontuação de interesse.

O algoritmo foi projetado para minimizar o tempo de processamento e selecionar com eficiência os atributos que têm a maior importância; no entanto, você pode controlar os dados usados pelo algoritmo definindo parâmetros da seguinte maneira:

  • Para limitar os valores usados como entradas, diminua o valor de MAXIMUM_INPUT_ATTRIBUTES.

  • Para limitar o número de atributos analisados pelo modelo, diminua o valor de MAXIMUM_OUTPUT_ATTRIBUTES.

  • Para limitar o número de valores que podem ser considerados para qualquer atributo, diminua o valor de MINIMUM_STATES.

Personalizando o algoritmo Naive Bayes

O algoritmo Microsoft Naive Bayes dá suporte a vários parâmetros que afetam o comportamento, o desempenho e a precisão do modelo de mineração resultante. Você também pode definir sinalizadores de modelagem nas colunas de modelo para controlar como os dados são processados ou definir sinalizadores na estrutura de mineração para especificar como valores ou nulos ausentes devem ser tratados.

Definindo parâmetros de algoritmo

O algoritmo Microsoft Naive Bayes dá suporte a vários parâmetros que afetam o desempenho e a precisão do modelo de mineração resultante. A tabela a seguir descreve cada parâmetro.

ATRIBUTOS_MÁXIMOS_DE_ENTRADA
Especifica o número máximo de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recursos. Definir esse valor como 0 desabilita a seleção de recursos para atributos de entrada.

O padrão é 255.

MAXIMUM_OUTPUT_ATTRIBUTES
Especifica o número máximo de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recursos. Definir esse valor como 0 desabilita a seleção de recursos para atributos de saída.

O padrão é 255.

PROBABILIDADE_MÍNIMA_DE_DEPENDÊNCIA
Especifica a probabilidade mínima de dependência entre os atributos de entrada e saída. Esse valor é usado para limitar o tamanho do conteúdo gerado pelo algoritmo. Essa propriedade pode ser definida de 0 a 1. Valores maiores reduzem o número de atributos no conteúdo do modelo.

O padrão é 0,5.

MAXIMUM_STATES
Especifica o número máximo de estados de atributo aos quais o algoritmo dá suporte. Se o número de estados que um atributo tem for maior que o número máximo de estados, o algoritmo usará os estados mais populares do atributo e tratará os estados restantes como ausentes.

O padrão é 100.

Bandeiras de modelagem

O algoritmo Árvores de Decisão da Microsoft dá suporte aos seguintes sinalizadores de modelagem. Ao criar a estrutura de mineração ou o modelo de mineração, você define sinalizadores de modelagem para especificar como os valores em cada coluna são tratados durante a análise. Para obter mais informações, consulte Sinalizadores de Modelagem (Mineração de Dados).

Bandeira de Modelagem Descrição
Existência_somente_modelo Significa que a coluna será tratada como tendo dois estados possíveis: Ausente e Existente. Um valor nulo é um valor ausente.

Aplica-se à coluna do modelo de mineração.
NÃO NULO Indica que a coluna não pode conter um nulo. Um erro resultará se o Analysis Services encontrar um valor nulo durante o treinamento do modelo.

Aplica-se à coluna de estrutura de mineração.

Requisitos

Um modelo de árvore naive Bayes deve conter uma coluna de chave, pelo menos um atributo previsível e pelo menos um atributo de entrada. Nenhum atributo pode ser contínuo; se os dados contiverem dados numéricos contínuos, eles serão ignorados ou discretos.

Colunas de entrada e de previsão

O algoritmo Microsoft Naive Bayes dá suporte às colunas de entrada específicas e colunas previsíveis listadas na tabela a seguir. Para obter mais informações sobre o que os tipos de conteúdo significam quando usados em um modelo de mineração, consulte Tipos de Conteúdo (Mineração de Dados).

Coluna Tipos de conteúdo
Atributo de entrada Cíclico, discreto, discretizado, chave, tabela e ordenado
Atributo previsível Cíclico, discreto, discretizado, tabela e ordenado

Observação

Tipos de conteúdo cíclico e ordenado têm suporte, mas o algoritmo os trata como valores discretos e não executa processamento especial.

Consulte Também

Algoritmo Microsoft Naive Bayes
Exemplos de consulta de modelo naive Bayes
Conteúdo do modelo de mineração para Modelos Bayesianos Ingênuos (Serviços de Análise – Mineração de Dados)