Componente de regressão da árvore de decisão impulsionada

Artigo
09/01/2024

Este artigo descreve um componente no designer do Azure Machine Learning.

Use este componente para criar um conjunto de árvores de regressão usando o boosting. Impulsionar significa que cada árvore depende de árvores anteriores. O algoritmo aprende encaixando o resíduo das árvores que o precederam. Assim, impulsionar em um conjunto de árvore de decisão tende a melhorar a precisão com algum pequeno risco de menor cobertura.

Este componente é baseado no algoritmo LightGBM.

Este método de regressão é um método de aprendizagem supervisionada e, portanto, requer um conjunto de dados rotulado. A coluna do rótulo deve conter valores numéricos.

Nota

Use este componente somente com conjuntos de dados que usam variáveis numéricas.

Depois de definir o modelo, treine-o usando o Modelo de Trem.

Mais sobre árvores de regressão impulsionadas

Impulsionar é um dos vários métodos clássicos para criar modelos de conjunto, juntamente com ensacamento, florestas aleatórias e assim por diante. No Azure Machine Learning, as árvores de decisão impulsionadas usam uma implementação eficiente do algoritmo de aumento de gradiente MART. O aumento de gradiente é uma técnica de aprendizado de máquina para problemas de regressão. Ele constrói cada árvore de regressão de forma gradual, usando uma função de perda predefinida para medir o erro em cada etapa e corrigi-lo na próxima. Assim, o modelo de previsão é, na verdade, um conjunto de modelos de previsão mais fracos.

Em problemas de regressão, o impulsionamento constrói uma série de árvores de forma gradual e, em seguida, seleciona a árvore ideal usando uma função de perda diferenciável arbitrária.

Para obter informações adicionais, consulte estes artigos:

https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting

Este artigo da Wikipédia sobre aumento de gradiente fornece alguns antecedentes sobre árvores impulsionadas.

https://research.microsoft.com/apps/pubs/default.aspx?id=132652

Microsoft Research: Do RankNet ao LambdaRank ao LambdaMART: uma visão geral. Por J.C. Burges.

O método de aumento de gradiente também pode ser usado para problemas de classificação, reduzindo-os a regressão com uma função de perda adequada. Para obter mais informações sobre a implementação de árvores impulsionadas para tarefas de classificação, consulte Árvore de decisão impulsionada de duas classes.

Como configurar a regressão da árvore de decisão impulsionada

Adicione o componente Árvore de Decisão Impulsionada ao seu pipeline. Você pode encontrar esse componente em Machine Learning, Initialize, na categoria Regressão .
Especifique como deseja que o modelo seja treinado, definindo a opção Criar modo de treinador.
- Parâmetro único: selecione esta opção se souber como deseja configurar o modelo e forneça um conjunto específico de valores como argumentos.
- Intervalo de parâmetros: selecione esta opção se não tiver certeza dos melhores parâmetros e quiser executar uma varredura de parâmetros. Selecione um intervalo de valores para iterar e o Tune Model Hyperparameters itera sobre todas as combinações possíveis das configurações fornecidas para determinar os hiperparâmetros que produzem os resultados ideais.
Número máximo de folhas por árvore: Indique o número máximo de nós terminais (folhas) que podem ser criados em qualquer árvore.

Ao aumentar esse valor, você potencialmente aumenta o tamanho da árvore e obtém melhor precisão, sob o risco de sobreajuste e maior tempo de treinamento.
Número mínimo de amostras por nó foliar: Indicar o número mínimo de casos necessários para criar qualquer nó terminal (folha) numa árvore.

Ao aumentar esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, até mesmo um único caso pode fazer com que uma nova regra seja criada. Se você aumentar o valor para 5, os dados de treinamento terão que conter pelo menos 5 casos que atendam às mesmas condições.
Taxa de aprendizagem: digite um número entre 0 e 1 que defina o tamanho da etapa durante a aprendizagem. A taxa de aprendizagem determina a rapidez ou lentidão com que o/a aluno/a converge para a solução ideal. Se o tamanho da etapa for muito grande, você pode ultrapassar a solução ideal. Se o tamanho do passo for muito pequeno, o treinamento leva mais tempo para convergir para a melhor solução.
Número de árvores construídas: Indique o número total de árvores de decisão a criar no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treinamento aumenta.

Se você definir o valor como 1; no entanto, apenas uma árvore é produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma outra iteração é executada.
Semente de número aleatório: digite um inteiro não negativo opcional para usar como o valor de semente aleatório. A especificação de uma semente garante a reprodutibilidade em execuções que têm os mesmos dados e parâmetros.

Por padrão, a semente aleatória é definida como 0, o que significa que o valor inicial da semente é obtido a partir do relógio do sistema.
Treine o modelo:
- Se você definir Create trainer mode como Single Parameter, conecte um conjunto de dados marcado e o componente Train Model .
- Se você definir Criar modo de treinamento como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.
Nota

Se você passar um intervalo de parâmetros para Train Model, ele usará apenas o valor padrão na lista de parâmetros únicos.

Se você passar um único conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele ignora os valores e usa os valores padrão para o aluno.

Se você selecionar a opção Intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse único valor especificado será usado durante toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.
Envie o pipeline.

Resultados

Após a conclusão da formação:

Para usar o modelo para pontuação, conecte Train Model to Score Model, para prever valores para novos exemplos de entrada.
Para salvar um instantâneo do modelo treinado, selecione a guia Saídas no painel direito do modelo treinado e clique no ícone Registrar conjunto de dados. A cópia do modelo treinado será salva como um componente na árvore de componentes e não será atualizada em execuções sucessivas do pipeline.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.

Partilhar via

Componente de regressão da árvore de decisão impulsionada

Mais sobre árvores de regressão impulsionadas

Como configurar a regressão da árvore de decisão impulsionada

Resultados

Próximos passos

Comentários

Recursos adicionais