Referência técnica do algoritmo de regressão logística da Microsoft

O algoritmo regressão logística da Microsoft é uma variação do algoritmo Microsoft Neural Network, em que o parâmetro HIDDEN_NODE_RATIO é definido como 0. Essa configuração criará um modelo de rede neural que não contém uma camada oculta e que, portanto, é equivalente à regressão logística.

Implementação do algoritmo de regressão logística da Microsoft

Suponha que a coluna previsível contenha apenas dois estados, mas você ainda deseja executar uma análise de regressão, relacionando colunas de entrada à probabilidade de que a coluna previsível contenha um estado específico. O diagrama a seguir ilustra os resultados que você obterá se atribuir 1 e 0 aos estados da coluna previsível, calcular a probabilidade de que a coluna conterá um estado específico e executar uma regressão linear em relação a uma variável de entrada.

Dados mal modelados usando regressão linear

O eixo x contém valores de uma coluna de entrada. O eixo y contém as probabilidades de que a coluna previsível seja um estado ou outro. O problema com isso é que a regressão linear não restringe a coluna a ser entre 0 e 1, embora esses sejam os valores máximo e mínimo da coluna. Uma maneira de resolver esse problema é executar a regressão logística. Em vez de criar uma linha reta, a análise de regressão logística cria uma curva em forma de "S" que contém restrições máximas e mínimas. Por exemplo, o diagrama a seguir ilustra os resultados que você obterá se executar uma regressão logística em relação aos mesmos dados usados para o exemplo anterior.

Dados modelados usando a regressão logística

Observe como a curva nunca fica acima de 1 ou abaixo de 0. Você pode usar a regressão logística para descrever quais colunas de entrada são importantes para determinar o estado da coluna previsível.

Seleção de recursos

A seleção de recursos é usada automaticamente por todos os algoritmos de mineração de dados do Analysis Services para melhorar a análise e reduzir a carga de processamento. O método usado para a seleção de recursos em um modelo de regressão logística depende do tipo de dados do atributo. Como a regressão logística é baseada no algoritmo rede neural da Microsoft, ela usa um subconjunto dos métodos de seleção de recursos que se aplicam a redes neurais. Para obter mais informações, consulte Seleção de Recursos (Mineração de Dados).

Entradas de pontuação

Pontuar no contexto de um modelo de rede neural ou modelo de regressão logística significa o processo de conversão dos valores presentes nos dados em um conjunto de valores que usam a mesma escala e, portanto, podem ser comparados entre si. Por exemplo, suponha que as entradas para Renda variam de 0 a 100.000, enquanto as entradas para [Número de Filhos] variam de 0 a 5. Esse processo de conversão permite pontuar ou comparar a importância de cada entrada, independentemente da diferença de valores.

Para cada estado que aparece no conjunto de treinamento, o modelo gera uma entrada. Para entradas discretas ou discretizadas, uma entrada adicional é criada para representar o estado Ausente, se o estado ausente aparecer pelo menos uma vez no conjunto de treinamento. Para entradas contínuas, no máximo dois nós de entrada são criados: um para valores ausentes, se presentes nos dados de treinamento e uma entrada para todos os valores existentes ou não nulos. Cada entrada é dimensionada para um formato numérico usando o método de normalização de pontuação z, (x - μ)/StdDev.

Durante a normalização da pontuação z, a média (μ) e o desvio padrão são obtidos no conjunto de treinamento completo.

Valores contínuos

O valor está presente: (X - μ)/σ // X é o valor real que está sendo codificado)

O valor está ausente: - μ/σ // mu negativo dividido por sigma)

Valores discretos

μ = p - (a probabilidade anterior de um estado)

StdDev = sqrt(p(1-p))

O valor está presente: (1 – μ)/σ// (Um menos mu) dividido por sigma)

O valor está ausente: (- μ)/σ// mu negativo dividido por sigma)

Noções básicas sobre coeficientes de regressão logística

Há vários métodos na literatura estatística para executar a regressão logística, mas uma parte importante de todos os métodos é avaliar o ajuste do modelo. Uma variedade de estatísticas de bondade para ajustar foram propostas, entre elas taxas de probabilidades e padrões covariados. Uma discussão sobre como medir o ajuste de um modelo está além do escopo deste tópico; no entanto, você pode recuperar o valor dos coeficientes no modelo e usá-los para projetar suas próprias medidas de ajuste.

Observação

Os coeficientes criados como parte de um modelo de regressão logística não representam as taxas de probabilidades e não devem ser interpretados como tal.

Os coeficientes para cada nó no grafo de modelo representam uma soma ponderada das entradas para esse nó. Em um modelo de regressão logística, a camada oculta está vazia; portanto, há apenas um conjunto de coeficientes, que é armazenado nos nós de saída. Você pode recuperar os valores dos coeficientes usando a seguinte consulta:

SELECT FLATTENED [NODE_UNIQUE NAME],
(SELECT ATTRIBUTE_NAME< ATTRIBUTE_VALUE
FROM NODE_DISTRIBUTION) AS t
FROM <model name>.CONTENT
WHERE NODE_TYPE = 23

Para cada valor de saída, essa consulta retorna os coeficientes e uma ID que aponta de volta para o nó de entrada relacionado. Ele também retorna uma linha que contém o valor da saída e da interceptação. Cada entrada X tem seu próprio coeficiente (Ci), mas a tabela aninhada também contém um coeficiente "livre" (Co), calculado de acordo com a seguinte fórmula:

F(X) = X1*C1 + X2*C2 + ... +Xn*Cn + X0

Ativação: exp(F(X)) / (1 + exp(F(X)) )

Para obter mais informações, consulte exemplos de consulta de modelo de regressão logística.

Personalizando o algoritmo de regressão logística

O algoritmo de regressão logística da Microsoft dá suporte a vários parâmetros que afetam o comportamento, o desempenho e a precisão do modelo de mineração resultante. Você também pode modificar o comportamento do modelo definindo sinalizadores de modelagem nas colunas usadas como entrada.

Definindo parâmetros de algoritmo

A tabela a seguir descreve os parâmetros que podem ser usados com o algoritmo regressão logística da Microsoft.

HOLDOUT_PERCENTAGE Especifica a porcentagem de casos nos dados de treinamento usados para calcular o erro de retenção. HOLDOUT_PERCENTAGE é usado como parte dos critérios de interrupção durante o treinamento do modelo de mineração.

O padrão é 30.

HOLDOUT_SEED Especifica um número a ser usado para inicializar o gerador pseudo-aleatório ao determinar aleatoriamente os dados de holdout. Se HOLDOUT_SEED for definido como 0, o algoritmo gerará a semente com base no nome do modelo de mineração, para garantir que o conteúdo do modelo permaneça o mesmo durante o reprocessamento.

O padrão é 0.

MAXIMUM_INPUT_ATTRIBUTES Define o número de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recursos. Defina esse valor como 0 para desativar a seleção de recursos.

O padrão é 255.

MAXIMUM_OUTPUT_ATTRIBUTES Define o número de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recursos. Defina esse valor como 0 para desativar a seleção de recursos.

O padrão é 255.

MAXIMUM_STATES Especifica o número máximo de estados de atributo aos quais o algoritmo dá suporte. Se o número de estados que um atributo tem for maior que o número máximo de estados, o algoritmo usará os estados mais populares do atributo e ignorará os estados restantes.

O padrão é 100.

SAMPLE_SIZE Especifica o número de casos a serem usados para treinar o modelo. O provedor de algoritmo usa esse número ou a porcentagem do total de casos que não estão incluídos no percentual de retenção, conforme especificado pelo parâmetro HOLDOUT_PERCENTAGE, qualquer valor menor.

Em outras palavras, se HOLDOUT_PERCENTAGE for definido como 30, o algoritmo usará o valor desse parâmetro ou um valor igual a 70% do número total de casos, o que for menor.

O padrão é 10000.

Sinalizadores de modelagem

Os sinalizadores de modelagem a seguir têm suporte para uso com o algoritmo regressão logística da Microsoft.

NOT NULL Indica que a coluna não pode conter um nulo. Um erro resultará se o Analysis Services encontrar um valor nulo durante o treinamento do modelo.

Aplica-se às colunas da estrutura de mineração.

MODEL_EXISTENCE_ONLY Significa que a coluna será tratada como tendo dois estados possíveis: Missing e Existing. Um valor nulo é um valor ausente.

Aplica-se à coluna do modelo de mineração.

Requisitos

Um modelo de regressão logística deve conter uma coluna de chave, colunas de entrada e pelo menos uma coluna previsível.

Colunas de entrada e previsíveis

O algoritmo regressão logística da Microsoft dá suporte aos tipos de conteúdo de coluna de entrada específicos, tipos previsíveis de conteúdo de coluna e sinalizadores de modelagem listados na tabela a seguir. Para obter mais informações sobre o que os tipos de conteúdo significam quando usados em um modelo de mineração, consulte Tipos de Conteúdo (Mineração de Dados).

Coluna	Tipos de conteúdo
Atributo de entrada	Contínua, discreta, discretizada, chave, tabela
Atributo previsível	Contínuo, discreto, discretizado

Consulte Também

Algoritmo de regressão logística da Microsoft Exemplos de consulta de modelo de regressão linear Conteúdo do modelo de mineração para modelos de regressão logística (Analysis Services – Mineração de dados)Algoritmo de rede neural da Microsoft

Last updated on 2017-03-06

Partilhar via