Componente Árvore de Decisão Impulsionada de Duas Classes
Este artigo descreve um componente no designer do Azure Machine Learning.
Use este componente para criar um modelo de aprendizado de máquina baseado no algoritmo de árvores de decisão impulsionadas.
Uma árvore de decisão impulsionada é um método de aprendizagem de conjunto em que a segunda árvore corrige os erros da primeira árvore, a terceira árvore corrige os erros da primeira e segunda árvores, e assim por diante. As previsões são baseadas em todo o conjunto de árvores juntas que faz a previsão.
Geralmente, quando configuradas corretamente, as árvores de decisão impulsionadas são os métodos mais fáceis para obter o melhor desempenho em uma ampla variedade de tarefas de aprendizado de máquina. No entanto, eles também são um dos alunos que mais consomem memória, e a implementação atual mantém tudo na memória. Portanto, um modelo de árvore de decisão impulsionado pode não ser capaz de processar os grandes conjuntos de dados que alguns alunos lineares podem manipular.
Este componente é baseado no algoritmo LightGBM.
Como configurar
Este componente cria um modelo de classificação não treinado. Como a classificação é um método de aprendizagem supervisionada, para treinar o modelo, você precisa de um conjunto de dados marcado que inclua uma coluna de rótulo com um valor para todas as linhas.
Você pode treinar este tipo de modelo usando Train Model.
No Azure Machine Learning, adicione o componente Árvore de Decisão Impulsionada ao seu pipeline.
Especifique como deseja que o modelo seja treinado, definindo a opção Criar modo de treinador.
Parâmetro único: Se você souber como deseja configurar o modelo, poderá fornecer um conjunto específico de valores como argumentos.
Intervalo de parâmetros: Se você não tiver certeza dos melhores parâmetros, poderá encontrar os parâmetros ideais usando o componente Tune Model Hyperparameters . Você fornece algum intervalo de valores e o treinador itera em várias combinações das configurações para determinar a combinação de valores que produz o melhor resultado.
Em Número máximo de folhas por árvore, indique o número máximo de nós terminais (folhas) que podem ser criados em qualquer árvore.
Ao aumentar esse valor, você potencialmente aumenta o tamanho da árvore e obtém melhor precisão, sob o risco de sobreajuste e maior tempo de treinamento.
Para Número mínimo de amostras por nó foliar, indique o número de casos necessários para criar qualquer nó terminal (folha) numa árvore.
Ao aumentar esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, até mesmo um único caso pode fazer com que uma nova regra seja criada. Se você aumentar o valor para 5, os dados de treinamento terão que conter pelo menos cinco casos que atendam às mesmas condições.
Para Taxa de aprendizagem, digite um número entre 0 e 1 que defina o tamanho da etapa durante o aprendizado.
A taxa de aprendizagem determina a rapidez ou lentidão com que o/a aluno/a converge para a solução ideal. Se o tamanho da etapa for muito grande, você pode ultrapassar a solução ideal. Se o tamanho do passo for muito pequeno, o treinamento leva mais tempo para convergir para a melhor solução.
Para Número de árvores construídas, indique o número total de árvores de decisão a criar no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treinamento aumentará.
Se você definir o valor como 1, apenas uma árvore será produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma outra iteração será executada.
Para Semente de número aleatório, opcionalmente, digite um inteiro não negativo para usar como o valor de semente aleatória. A especificação de uma semente garante a reprodutibilidade em execuções que têm os mesmos dados e parâmetros.
A semente aleatória é definida por padrão como 0, o que significa que o valor inicial da semente é obtido a partir do relógio do sistema. Execuções sucessivas usando uma semente aleatória podem ter resultados diferentes.
Treine o modelo:
Se você definir Create trainer mode como Single Parameter, conecte um conjunto de dados marcado e o componente Train Model .
Se você definir Criar modo de treinamento como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.
Nota
Se você passar um intervalo de parâmetros para Train Model, ele usará apenas o valor padrão na lista de parâmetros únicos.
Se você passar um único conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele ignora os valores e usa os valores padrão para o aluno.
Se você selecionar a opção Intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse único valor especificado será usado durante toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.
Resultados
Após a conclusão da formação:
Para salvar um instantâneo do modelo treinado, selecione a guia Saídas no painel direito do componente Modelo de trem . Selecione o ícone Registrar conjunto de dados para salvar o modelo como um componente reutilizável.
Para usar o modelo para pontuação, adicione o componente Modelo de pontuação a um pipeline.
Próximos passos
Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.