Componente de Regressão Logística de Duas Classes

Este artigo descreve um componente no designer do Azure Machine Learning.

Use esse componente para criar um modelo de regressão logística que possa ser usado para prever dois (e apenas dois) resultados.

A regressão logística é uma técnica estatística bem conhecida que é usada para modelar muitos tipos de problemas. Este algoritmo é um método de aprendizagem supervisionada, portanto, você deve fornecer um conjunto de dados que já contenha os resultados para treinar o modelo.

Sobre a regressão logística

A regressão logística é um método bem conhecido em estatística que é usado para prever a probabilidade de um resultado, e é especialmente popular para tarefas de classificação. O algoritmo prevê a probabilidade de ocorrência de um evento ajustando os dados a uma função logística.

Neste componente, o algoritmo de classificação é otimizado para variáveis dicotômicas ou binárias. se você precisar classificar vários resultados, use o componente Regressão Logística Multiclasse .

Como configurar

Para treinar esse modelo, você deve fornecer um conjunto de dados que contenha um rótulo ou uma coluna de classe. Como esse componente se destina a problemas de duas classes, o rótulo ou a coluna de classe deve conter exatamente dois valores.

Por exemplo, a coluna do rótulo pode ser [Voted] com possíveis valores de "Sim" ou "Não". Ou, pode ser [Risco de Crédito], com valores possíveis de "Alto" ou "Baixo".

  1. Adicione o componente Regressão logística de duas classes ao seu pipeline.

  2. Especifique como deseja que o modelo seja treinado, definindo a opção Criar modo de treinador.

    • Parâmetro único: Se você souber como deseja configurar o modelo, poderá fornecer um conjunto específico de valores como argumentos.

    • Intervalo de parâmetros: Se você não tiver certeza dos melhores parâmetros, poderá encontrar os parâmetros ideais usando o componente Tune Model Hyperparameters . Você fornece algum intervalo de valores e o treinador itera várias combinações das configurações para determinar a combinação de valores que produz o melhor resultado.

  3. Para Tolerância de otimização, especifique um valor limite a ser usado ao otimizar o modelo. Se a melhoria entre iterações cair abaixo do limite especificado, o algoritmo é considerado como tendo convergido para uma solução, e o treinamento é interrompido.

  4. Para o peso de regularização L1 e o peso de regularização L2, digite um valor a ser usado para os parâmetros de regularização L1 e L2. Um valor diferente de zero é recomendado para ambos.
    A regularização é um método para evitar o overfitting, penalizando modelos com valores de coeficiente extremos. A regularização funciona adicionando a penalidade que está associada aos valores de coeficiente ao erro da hipótese. Assim, um modelo preciso com valores de coeficiente extremos seria mais penalizado, mas um modelo menos preciso com valores mais conservadores seria menos penalizado.

    A regularização de L1 e L2 tem efeitos e usos diferentes.

    • L1 pode ser aplicado a modelos esparsos, o que é útil quando se trabalha com dados de alta dimensão.

    • Em contrapartida, a regularização L2 é preferível para dados que não são escassos.

    Este algoritmo suporta uma combinação linear de valores de regularização L1 e L2: isto é, se x = L1 e y = L2, então ax + by = c define a extensão linear dos termos de regularização.

    Nota

    Quer saber mais sobre a regularização L1 e L2? O artigo a seguir fornece uma discussão sobre como a regularização L1 e L2 são diferentes e como elas afetam o ajuste do modelo, com exemplos de código para regressão logística e modelos de rede neural: Regularização L1 e L2 para Machine Learning

    Diferentes combinações lineares de termos L1 e L2 foram concebidas para modelos de regressão logística: por exemplo, regularização de redes elásticas. Sugerimos que você faça referência a essas combinações para definir uma combinação linear que seja eficaz em seu modelo.

  5. Para Tamanho da memória para L-BFGS, especifique a quantidade de memória a ser usada para otimização de L-BFGS.

    L-BFGS significa "memória limitada Broyden-Fletcher-Goldfarb-Shanno". É um algoritmo de otimização que é popular para estimativa de parâmetros. Este parâmetro indica o número de posições passadas e gradientes a serem armazenados para o cálculo da próxima etapa.

    Esse parâmetro de otimização limita a quantidade de memória usada para calcular a próxima etapa e direção. Quando você especifica menos memória, o treinamento é mais rápido, mas menos preciso.

  6. Em Semente de número aleatório, digite um valor inteiro. Definir um valor de semente é importante se você quiser que os resultados sejam reproduzíveis em várias execuções do mesmo pipeline.

  7. Adicione um conjunto de dados rotulado ao pipeline e treine o modelo:

    • Se você definir Criar modo de treinamento como Parâmetro único, conecte um conjunto de dados marcado e o componente Modelo de trem.

    • Se você definir Criar modo de instrutor como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.

    Nota

    Se você passar um intervalo de parâmetros para Train Model, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se você passar um único conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele ignora os valores e usa os valores padrão para o aluno.

    Se você selecionar a opção Intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado durante toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  8. Envie o pipeline.

Resultados

Após a conclusão da formação:

  • Para fazer previsões sobre novos dados, use o modelo treinado e novos dados como entrada para o componente Modelo de pontuação.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.