Partilhar via


Algoritmo Microsoft Naive Bayes

O algoritmo Microsoft Naive Bayes é um algoritmo de classificação baseado nos teoremas de Bayes e fornecido pelo Microsoft SQL Server Analysis Services para uso na modelagem preditiva. A palavra ingênua no nome Naïve Bayes deriva do fato de que o algoritmo usa técnicas bayesianas, mas não leva em conta dependências que podem existir.

Esse algoritmo é menos computacionalmente intenso do que outros algoritmos da Microsoft e, portanto, é útil para gerar rapidamente modelos de mineração para descobrir relações entre colunas de entrada e colunas previsíveis. Você pode usar esse algoritmo para fazer a exploração inicial de dados e, posteriormente, pode aplicar os resultados para criar modelos de mineração adicionais com outros algoritmos que são mais intensos computacionalmente e mais precisos.

Exemplo

Como uma estratégia promocional contínua, o departamento de marketing da empresa Adventure Works Cycle decidiu direcionar potenciais clientes ao enviar panfletos. Para reduzir os custos, eles querem enviar panfletos apenas para os clientes que provavelmente responderão. A empresa armazena informações em um banco de dados sobre dados demográficos e resposta a uma correspondência anterior. Eles querem usar esses dados para ver como a demografia, como idade e localização, pode ajudar a prever a resposta a uma promoção, comparando potenciais clientes com clientes que têm características semelhantes e que compraram da empresa no passado. Especificamente, eles querem ver as diferenças entre os clientes que compraram uma bicicleta e os clientes que não compraram.

Usando o algoritmo Microsoft Naive Bayes, o departamento de marketing pode prever rapidamente um resultado para um perfil de cliente específico e, portanto, pode determinar quais clientes são mais propensos a responder aos folhetos. Usando o Visualizador do Microsoft Naive Bayes no SSDT (SQL Server Data Tools), eles também podem investigar visualmente quais colunas de entrada contribuem especificamente para respostas positivas em panfletos.

Como o algoritmo funciona

O algoritmo Microsoft Naive Bayes calcula a probabilidade de cada estado de cada coluna de entrada, considerando cada estado possível da coluna previsível.

Para entender como isso funciona, use o Visualizador do Microsoft Naive Bayes no SSDT (SQL Server Data Tools) (conforme mostrado no gráfico a seguir) para explorar visualmente como o algoritmo distribui estados.

Distribuição Naive Bayes de estados

Aqui, o Visualizador do Microsoft Naive Bayes lista cada coluna de entrada no conjunto de dados e mostra como os estados de cada coluna são distribuídos, considerando cada estado da coluna previsível.

Você usaria essa exibição do modelo para identificar as colunas de entrada que são importantes para diferenciar entre estados da coluna previsível.

Por exemplo, na linha de Distância de Deslocamento mostrada aqui, a distribuição de valores de entrada é visivelmente diferente para compradores versus não compradores. O que isso informa é que a variável de entrada, distância percorrida = 0-1 quilômetros, é um potencial preditor.

O visualizador também fornece valores para as distribuições, para que você possa ver que para os clientes que se deslocam de uma a duas milhas para o trabalho, a probabilidade deles comprarem uma bicicleta é 0,387 e a probabilidade de não comprarem uma bicicleta é 0,287. Neste exemplo, o algoritmo usa as informações numéricas, derivadas das características do cliente (como a distância do trajeto), para prever se um cliente comprará uma bicicleta.

Para obter mais informações sobre como usar o Visualizador do Microsoft Naive Bayes, consulte Procurar um modelo usando o Visualizador do Microsoft Naive Bayes.

Dados necessários para modelos Naive Bayes

Ao preparar dados para uso no treinamento de um modelo naive Bayes, você deve entender os requisitos para o algoritmo, incluindo a quantidade de dados necessária e como os dados são usados.

Os requisitos para um modelo naive Bayes são os seguintes:

  • Uma única coluna de chave Cada modelo deve conter uma coluna numérica ou de texto que identifique exclusivamente cada registro. Chaves compostas não são permitidas.

  • Colunas de entrada Em um modelo Naive Bayes, todas as colunas devem ser colunas discretas ou discretizadas. Para obter informações sobre colunas discretas, consulte Métodos de Discretização (Mineração de Dados).

    Para um modelo naive Bayes, também é importante garantir que os atributos de entrada sejam independentes uns dos outros. Isso é particularmente importante quando você usa o modelo para previsão.

    O motivo é que, se você usar duas colunas de dados que já estão intimamente relacionadas, o efeito seria multiplicar a influência dessas colunas, o que pode obscurecer outros fatores que influenciam o resultado.

    Por outro lado, a capacidade do algoritmo de identificar correlações entre variáveis é útil quando você está explorando um modelo ou conjunto de dados, para identificar relações entre entradas.

  • Pelo menos uma coluna previsível O atributo preditivo deve conter valores discretos ou discretizados.

    Os valores da coluna previsível podem ser tratados como entradas. Essa prática pode ser útil quando você está explorando um novo conjunto de dados, para encontrar relações entre as colunas.

Exibindo o modelo

Para explorar o modelo, você pode usar o Visualizador do Microsoft Naive Bayes. O visualizador mostra como os atributos de entrada se relacionam com o atributo previsível. O visualizador também fornece um perfil detalhado de cada cluster, uma lista dos atributos que distinguem cada cluster dos outros e as características de todo o conjunto de dados de treinamento. Para obter mais informações, consulte Procurar um modelo usando o Visualizador do Microsoft Naive Bayes.

Se quiser saber mais detalhes, navegue pelo modelo no Visualizador de Árvore de Conteúdo Genérico da Microsoft (Mineração de Dados). Para obter mais informações sobre o tipo de informações armazenadas no modelo, consulte Conteúdo do Modelo de Mineração para Modelos Naive Bayes (Analysis Services – Mineração de Dados).

Fazendo previsões

Depois que o modelo for treinado, os resultados serão armazenados como um conjunto de padrões, que você pode explorar ou usar para fazer previsões.

Você pode criar consultas para retornar previsões sobre como novos dados se relacionam com o atributo previsível ou recuperar estatísticas que descrevem as correlações encontradas pelo modelo.

Para obter informações sobre como criar consultas em um modelo de mineração de dados, consulte Consultas de mineração de dados. Para obter exemplos de como usar consultas com um modelo Naive Bayes, consulte exemplos de consulta de modelo naive bayes.

Observações

  • Dá suporte ao uso da PMML (Predictive Model Markup Language) para criar modelos de mineração.

  • Permite detalhamento por meio de drill-through.

  • Não dá suporte à criação de dimensões de mineração de dados.

  • Dá suporte ao uso de modelos de mineração OLAP.

Consulte Também

Algoritmos de Mineração de Dados (Analysis Services – Mineração de Dados)Seleção de Características (Mineração de Dados)Exemplos de Consulta do Modelo Naive BayesConteúdo do Modelo de Mineração para Modelos Naive Bayes (Analysis Services - Mineração de Dados)Referência Técnica do Algoritmo Microsoft Naive Bayes