Componente Regressão Logística de Duas Classes
Este artigo descreve o componente no Azure Machine Learning Designer.
Use este componente para criar um modelo de regressão logística que pode ser usado para prever dois (e apenas dois) resultados.
A regressão logística é uma técnica estatística conhecida que é usada para modelar os vários tipos de resultados. Esse algoritmo é um método de aprendizado supervisionado. Portanto, você deve fornecer um conjunto de um conjunto de dados que já contém os resultados para treinar o modelo.
A regressão logística é um método conhecido em estatística que é usado para prever a probabilidade de um resultado e é popular especialmente por tarefas de classificação. O algoritmo prevê a probabilidade de ocorrência de um evento ajustando dados para uma função logística.
Neste componente, o algoritmo de classificação é otimizado para dicotômicas ou variáveis binárias. Se você precisar classificar vários resultados, use o componente Regressão Logística Multiclasse.
Para treinar esse modelo, você deve fornecer um conjunto de um dados que contenha uma coluna de rótulo ou de classe. Como esse componente destina-se a problemas de duas classes, a coluna de rótulo ou de classe deve conter exatamente dois valores.
Por exemplo, a coluna de rótulo pode ser [voto] com os valores possíveis de "Sim" ou "Não". Ou, pode ser [Risco de Crédito], com os valores possíveis de "Alto" ou "Baixo".
Adicione o componente Regressão Logística de Duas Classes ao seu pipeline.
Especifique de que modo você quer que o modelo seja treinado ao definir a opção Criar modo de treinador.
Parâmetro Único: se você sabe como deseja configurar o modelo, é possível fornecer um conjunto específico de valores como argumentos.
Intervalo de Parâmetros: caso não tenha certeza de quais são os melhores parâmetros, você pode encontrar os parâmetros ideais usando o componente Ajustar Hiperparâmetros do Modelo. Você fornece algum intervalo de valores, e o treinador itera com várias combinações de configurações para determinar a combinação de valores que produz o melhor resultado.
Para a tolerância de otimização, especifique um valor de limite a ser usado ao otimizar o modelo. Se a melhoria entre as iterações cair abaixo do limite especificado, o algoritmo será considerado convergido em uma solução e o treinamento será interrompido.
Para opeso de regularização L1 e peso de regularização L2, digite um valor a ser usado para os parâmetros de regularização L1 e L2. Um valor diferente de zero é recomendado para ambos.
A Regularização é um método para evitar o sobreajuste prejudicando modelos com valores extremos. A regularização funciona adicionando a penalidade associada com valores de coeficiente para o erro da hipótese. Assim, um modelo preciso com valores coeficientes extremos poderia ser mais penalizado, mas um modelo menos preciso com valores mais conservadores poderia ser menos penalizado.As regularizações L1 e L2 têm efeitos e usos diferentes.
L1 pode ser aplicado aos modelos esparsos, que é útil ao trabalhar com dados de grande dimensão.
Por outro lado, a regularização L2 é preferível para dados que não são esparsos.
Este algoritmo dá suporte a uma combinação linear de valores de regularização L1 e L2: ou seja, se
x = L1
ey = L2
, entãoax + by = c
define o intervalo linear dos termos de regularização.Observação
Você gostaria de saber mais sobre a regularização de L1 e L2? O artigo a seguir fornece uma discussão de como a regularização L1 e L2 é diferente e como elas afetam o ajuste de modelo, com exemplos de código para a regressão logística e modelos de rede neural: a regularização L1 e L2 para Machine Learning
Combinações lineares diferentes dos termos de L1 e L2 foram elaborados para modelos de regressão logística: por exemplo, regularização de rede elástica. Sugerimos que você referencie essas combinações para definir uma combinação linear efetiva no seu modelo.
Para o tamanho da memória para L-BFGS, especifique a quantidade de memória a ser usada para a otimização de L-BFGS.
L-BFGS significa “Broyden-Fletcher-Goldfarb-Shanno de memória limitada”. É um algoritmo de otimização que é conhecido por estimativa de parâmetro. Esse parâmetro indica o número de posições anteriores e gradientes a armazenar o cálculo da próxima etapa.
Esse parâmetro de otimização limita a quantidade de memória usada para calcular a próxima etapa e direção. Quando você especifica menos memória, o treinamento é mais rápido, mas menos preciso.
Para semente de número aleatório, digite um valor inteiro. Definir um valor de semente é importante se você quiser que os resultados sejam reproduzidos em várias execuções do mesmo pipeline.
Adicione um conjunto de dados rotulado ao pipeline e treine o modelo:
Se você definir Criar modo treinador como Parâmetro Único, conecte um conjunto de dados marcado e o componente Treinar Modelo.
Se definir Criar modo de aprendizagem como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.
Observação
Se você passar um intervalo de parâmetros para Treinar modelo, ele usará apenas o valor padrão na lista de parâmetros únicos.
Se você passar apenas um conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.
Se escolher a opção Intervalo de Parâmetros e inserir um único valor para um parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.
Enviar o pipeline.
Após a conclusão do treinamento:
- Para fazer previsões sobre novos dados, use o modelo treinado e novos dados como entrada para o componente Pontuação do Modelo.
Confira o conjunto de componentes disponíveis no Azure Machine Learning.