Algoritmo de regressão logística da Microsoft

A regressão logística é uma técnica estatística conhecida que é usada para modelar resultados binários.

Há várias implementações de regressão logística na pesquisa de estatísticas, usando diferentes técnicas de aprendizagem. O algoritmo regressão logística da Microsoft foi implementado usando uma variação do algoritmo de Rede Neural da Microsoft. Esse algoritmo compartilha muitas das qualidades das redes neurais, mas é mais fácil de treinar.

Uma vantagem da regressão logística é que o algoritmo é altamente flexível, usando qualquer tipo de entrada e dá suporte a várias tarefas analíticas diferentes:

Use a demografia para fazer previsões sobre resultados, como risco para uma determinada doença.
Explore e pondere os fatores que contribuem para um resultado. Por exemplo, localize os fatores que influenciam os clientes a fazer uma visita recorrente a uma loja.
Classifique documentos, emails ou outros objetos que tenham muitos atributos.

Exemplo

Considere um grupo de pessoas que compartilham informações demográficas semelhantes e que compram produtos da empresa Adventure Works. Ao modelar os dados a serem relacionados a um resultado específico, como a compra de um produto de destino, você pode ver como as informações demográficas contribuem para a probabilidade de alguém comprar o produto de destino.

Como o algoritmo funciona

A regressão logística é um método estatístico bem conhecido para determinar a contribuição de vários fatores para um par de resultados. A implementação da Microsoft usa uma rede neural modificada para modelar as relações entre entradas e saídas. O efeito de cada entrada na saída é medido e as várias entradas são ponderadas no modelo concluído. A regressão logística do nome vem do fato de que a curva de dados é compactada usando uma transformação logística, para minimizar o efeito de valores extremos. Para obter mais informações sobre a implementação e como personalizar o algoritmo, consulte a Referência Técnica do Algoritmo de Regressão Logística da Microsoft.

Dados necessários para modelos de regressão logística

Ao preparar dados para uso no treinamento de um modelo de regressão logística, você deve entender os requisitos para o algoritmo específico, incluindo a quantidade de dados necessária e como os dados são usados.

Os requisitos para um modelo de regressão logística são os seguintes:

Uma única coluna de chave Cada modelo deve conter uma coluna numérica ou de texto que identifique exclusivamente cada registro. Chaves compostas não são permitidas.

Colunas de entrada Cada modelo deve conter pelo menos uma coluna de entrada que contenha os valores usados como fatores na análise. Você pode ter quantas colunas de entrada desejar, mas dependendo do número de valores em cada coluna, a adição de colunas extras pode aumentar o tempo necessário para treinar o modelo.

Pelo menos uma coluna previsível O modelo deve conter pelo menos uma coluna previsível de qualquer tipo de dados, incluindo dados numéricos contínuos. Os valores da coluna previsível também podem ser tratados como entradas para o modelo ou você pode especificar que ele seja usado apenas para previsão. Tabelas aninhadas não são permitidas para colunas previsíveis, mas podem ser usadas como entradas.

Para obter informações mais detalhadas sobre os tipos de conteúdo e tipos de dados com suporte para modelos de regressão logística, consulte a seção Requisitos da Referência Técnica do Algoritmo de Regressão Logística da Microsoft.

Exibindo um modelo de regressão logística

Para explorar o modelo, você pode usar o Visualizador de Rede Neural da Microsoft ou o Visualizador de Árvore de Conteúdo Genérico da Microsoft.

Quando você exibe o modelo usando o Visualizador de Rede Neural da Microsoft, o Analysis Services mostra os fatores que contribuem para um resultado específico, classificados por sua importância. Você pode escolher um atributo e valores a serem comparados. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Rede Neural da Microsoft.

Se quiser saber mais, navegue pelos detalhes do modelo usando o Visualizador de Árvore de Conteúdo Genérico da Microsoft. O conteúdo do modelo para um modelo de regressão logística inclui um nó marginal que mostra todas as entradas usadas para o modelo e sub-redes para os atributos previsíveis. Para obter mais informações, consulte o Conteúdo do Modelo de Mineração para Modelos de Regressão Logística (Analysis Services – Mineração de Dados).

Criando previsões

Depois que o modelo tiver sido treinado, você poderá criar consultas no conteúdo do modelo para obter os coeficientes de regressão e outros detalhes ou usar o modelo para fazer previsões.

Para obter informações gerais sobre como criar consultas em um modelo de mineração de dados, consulte Consultas de mineração de dados.
Para obter exemplos de consultas em um modelo de regressão logística, consulte exemplos de consulta de modelo de clustering.

Observações

Não dá suporte a drillthrough. Isso ocorre porque a estrutura de nós no modelo de mineração não corresponde necessariamente diretamente aos dados subjacentes.
Não dá suporte à criação de dimensões de mineração de dados.
Dá suporte ao uso de modelos de mineração OLAP.
Não dá suporte ao uso da PMML (Predictive Model Markup Language) para criar modelos de mineração.

Consulte Também

Conteúdo do modelo de mineração para modelos de regressão logística (Analysis Services – Mineração de dados)
Referência técnica do algoritmo de regressão logística da Microsoft
Exemplos de consulta de modelo de regressão logística

Last updated on 2017-06-13

Compartilhar via