Componente de Regressão Linear

Artigo
06/01/2023

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize este componente para criar um modelo de regressão linear para utilização num pipeline. A regressão linear tenta estabelecer uma relação linear entre uma ou mais variáveis independentes e um resultado numérico ou variável dependente.

Utilize este componente para definir um método de regressão linear e, em seguida, preparar um modelo com um conjunto de dados etiquetado. Em seguida, o modelo preparado pode ser utilizado para fazer predições.

Acerca da regressão linear

A regressão linear é um método estatístico comum, que foi adotado na aprendizagem automática e melhorado com muitos novos métodos para ajustar a linha e medir o erro. Simplificando, a regressão refere-se à predição de um destino numérico. A regressão linear ainda é uma boa opção quando pretende um modelo simples para uma tarefa preditiva básica. A regressão linear também tende a funcionar bem em conjuntos de dados dispersos e de alta dimensão sem complexidade.

O Azure Machine Learning suporta uma variedade de modelos de regressão, além da regressão linear. No entanto, o termo "regressão" pode ser interpretado vagamente e alguns tipos de regressão fornecidos noutras ferramentas não são suportados.

O problema de regressão clássica envolve uma única variável independente e uma variável dependente. Isto chama-se regressão simples. Este componente suporta uma regressão simples.
A regressão linear múltipla envolve duas ou mais variáveis independentes que contribuem para uma única variável dependente. Os problemas em que são utilizadas múltiplas entradas para prever um único resultado numérico também são denominados regressão linear multivariada.

O componente Regressão Linear pode resolver estes problemas, tal como a maioria dos outros componentes de regressão.
A regressão de várias etiquetas é a tarefa de prever múltiplas variáveis dependentes num único modelo. Por exemplo, na regressão logística de várias etiquetas, pode ser atribuída uma amostra a várias etiquetas diferentes. (Isto é diferente da tarefa de prever vários níveis numa única variável de classe.)

Este tipo de regressão não é suportado no Azure Machine Learning. Para prever múltiplas variáveis, crie um formando separado para cada saída que pretende prever.

Durante anos, os estatísticos têm vindo a desenvolver métodos cada vez mais avançados para a regressão. Isto é verdade mesmo para a regressão linear. Este componente suporta dois métodos para medir o erro e ajustar-se à linha de regressão: o método de menos quadrados comuns e a descida de gradação.

Gradient descent é um método que minimiza a quantidade de erro em cada passo do processo de preparação do modelo. Existem muitas variações na descida de gradação e a sua otimização para vários problemas de aprendizagem tem sido extensivamente estudada. Se escolher esta opção para Método de solução, pode definir uma variedade de parâmetros para controlar o tamanho do passo, a taxa de aprendizagem, etc. Esta opção também suporta a utilização de uma limpeza integrada de parâmetros.
Os quadrados menos comuns são uma das técnicas mais utilizadas na regressão linear. Por exemplo, o mínimo de quadrados é o método utilizado no Analysis Toolpak para Microsoft Excel.

Os quadrados menos comuns referem-se à função de perda, que calcula o erro como a soma do quadrado de distância do valor real para a linha prevista, e ajusta-se ao modelo minimizando o erro ao quadrado. Este método pressupõe uma relação linear forte entre as entradas e a variável dependente.

Configurar a Regressão Linear

Este componente suporta dois métodos para ajustar um modelo de regressão, com diferentes opções:

Ajustar um modelo de regressão com menos quadrados comuns

Para pequenos conjuntos de dados, é melhor selecionar os quadrados mínimos comuns. Isto deve dar resultados semelhantes ao Excel.
Criar um modelo de regressão com gradação de gradação online descendente

O gradient descent é uma função de perda melhor para modelos mais complexos ou que têm poucos dados de preparação, dado o número de variáveis.

Criar um modelo de regressão com menos quadrados comuns

Adicione o componente Modelo de Regressão Linear ao pipeline no estruturador.

Pode encontrar este componente na categoria Machine Learning . Expanda Inicializar Modelo, expanda Regressão e, em seguida, arraste o componente Modelo de Regressão Linear para o pipeline.
No painel Propriedades , na lista pendente Método de solução , selecione Quadrados Menos Comuns. Esta opção especifica o método de computação utilizado para localizar a linha de regressão.
Em Peso de regularização L2, escreva o valor a utilizar como peso para a regularização L2. Recomendamos que utilize um valor não zero para evitar sobreajuste.

Para saber mais sobre como a regularização afeta o ajuste de modelos, veja este artigo: Regularização L1 e L2 para Machine Learning
Selecione a opção Incluir termo de interceção, se quiser ver o termo para a interceção.

Desselecione esta opção se não precisar de rever a fórmula de regressão.
Para a semente de número aleatório, pode, opcionalmente, escrever um valor para propagar o gerador de números aleatórios utilizado pelo modelo.

Utilizar um valor de semente é útil se quiser manter os mesmos resultados em diferentes execuções do mesmo pipeline. Caso contrário, a predefinição é utilizar um valor do relógio do sistema.
Adicione o componente Preparar Modelo ao pipeline e ligue um conjunto de dados etiquetado.
Submeta o pipeline.

Resultados do modelo de menos quadrados comuns

Após a conclusão da preparação:

Para fazer predições, ligue o modelo preparado ao componente Modelo de Classificação , juntamente com um conjunto de dados de novos valores.

Criar um modelo de regressão com gradação de gradação online descendente

Adicione o componente Modelo de Regressão Linear ao pipeline no estruturador.

Pode encontrar este componente na categoria Machine Learning . Expanda Inicializar Modelo, expanda Regressão e arraste o componente Modelo de Regressão Linear para o pipeline
No painel Propriedades , na lista pendente Método de solução , selecione Gradação Descendente Online como o método de computação utilizado para localizar a linha de regressão.
Para Criar modo de formador, indique se pretende preparar o modelo com um conjunto predefinido de parâmetros ou se pretende otimizar o modelo com uma análise de parâmetros.
- Parâmetro Único: se souber como pretende configurar a rede de regressão linear, pode fornecer um conjunto específico de valores como argumentos.
- Intervalo de Parâmetros: selecione esta opção se não tiver a certeza dos melhores parâmetros e quiser executar uma varrimento de parâmetros. Selecione um intervalo de valores para iterar e os Hiperparâmetros do Modelo de Otimização itera todas as combinações possíveis das definições que forneceu para determinar os hiperparâmetros que produzem os resultados ideais.
Para Taxa de aprendizagem, especifique a taxa de aprendizagem inicial para o otimizador de gradação de gradação estocástico.
Para Número de épocas de preparação, escreva um valor que indique quantas vezes o algoritmo deve iterar através de exemplos. Para conjuntos de dados com um pequeno número de exemplos, este número deve ser grande para alcançar a convergência.
Normalizar funcionalidades: se já normalizou os dados numéricos utilizados para preparar o modelo, pode desselecionar esta opção. Por predefinição, o componente normaliza todas as entradas numéricas para um intervalo entre 0 e 1.

Nota

Lembre-se de aplicar o mesmo método de normalização a novos dados utilizados para classificação.
Em Peso de regularização L2, escreva o valor a utilizar como peso para a regularização L2. Recomendamos que utilize um valor não zero para evitar sobreajuste.

Para saber mais sobre como a regularização afeta o ajuste de modelos, veja este artigo: Regularização L1 e L2 para Machine Learning
Selecione a opção Diminuir taxa de aprendizagem, se quiser que a taxa de aprendizagem diminua à medida que as iterações progridem.
Para a semente de número aleatório, pode, opcionalmente, escrever um valor para propagar o gerador de números aleatórios utilizado pelo modelo. Utilizar um valor de semente é útil se quiser manter os mesmos resultados em diferentes execuções do mesmo pipeline.
Preparar o modelo:
- Se definir Criar modo de formador como Parâmetro Único, ligue um conjunto de dados etiquetado e o componente Preparar Modelo .
- Se definir Criar modo de formador como Intervalo de Parâmetros, ligue um conjunto de dados etiquetado e prepare o modelo com Os Hiperparâmetros do Modelo de Otimização.
Nota

Se passar um intervalo de parâmetros para Preparar Modelo, este utiliza apenas o valor predefinido na lista de parâmetros únicos.

Se transmitir um único conjunto de valores de parâmetros para o componente Tune Model Hyperparameters , quando espera um intervalo de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o formando.

Se selecionar a opção Intervalo de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único que especificou é utilizado ao longo da pesquisa, mesmo que outros parâmetros sejam alterados num intervalo de valores.
Submeta o pipeline.

Resultados da descida de gradação online

Após a conclusão da preparação:

Para fazer predições, ligue o modelo preparado ao componente Score Model , juntamente com os novos dados de entrada.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.

Partilhar via