componente da Árvore de Decisões Two-Class Aumentada

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize este componente para criar um modelo de machine learning baseado no algoritmo de árvores de decisões impulsionado.

Uma árvore de decisões elevada é um método de aprendizagem conjunto no qual a segunda árvore corrige para os erros da primeira árvore, a terceira árvore corrige para os erros da primeira e segunda árvores, etc. As predições baseiam-se em todo o conjunto de árvores que faz a predição.

Geralmente, quando configuradas corretamente, as árvores de decisões aumentadas são os métodos mais fáceis para obter o melhor desempenho numa grande variedade de tarefas de machine learning. No entanto, são também um dos formandos mais intensivos em termos de memória e a implementação atual contém tudo na memória. Por conseguinte, um modelo de árvore de decisões impulsionado pode não conseguir processar os grandes conjuntos de dados que alguns formandos lineares conseguem processar.

Este componente baseia-se no algoritmo LightGBM.

Como configurar

Este componente cria um modelo de classificação não preparado. Uma vez que a classificação é um método de aprendizagem supervisionado, para preparar o modelo, precisa de um conjunto de dados etiquetado que inclua uma coluna de etiqueta com um valor para todas as linhas.

Pode preparar este tipo de modelo com o Modelo de Preparação.

  1. No Azure Machine Learning, adicione o componente Árvore de Decisões Aumentada ao pipeline.

  2. Especifique como pretende que o modelo seja preparado ao definir a opção Criar modo de formador .

    • Parâmetro Único: se souber como pretende configurar o modelo, pode fornecer um conjunto específico de valores como argumentos.

    • Intervalo de Parâmetros: se não tiver a certeza dos melhores parâmetros, pode encontrar os parâmetros ideais com o componente Otimizar Hiperparâmetros do Modelo . Fornece algum intervalo de valores e o formador itera em múltiplas combinações das definições para determinar a combinação de valores que produz o melhor resultado.

  3. Para Número máximo de folhas por árvore, indique o número máximo de nós terminais (folhas) que podem ser criados em qualquer árvore.

    Ao aumentar este valor, pode aumentar potencialmente o tamanho da árvore e obter uma maior precisão, correndo o risco de sobreajuste e tempo de preparação mais longo.

  4. Para o Número mínimo de amostras por nó de folha, indique o número de casos necessários para criar qualquer nó terminal (folha) numa árvore.

    Ao aumentar este valor, aumenta o limiar para criar novas regras. Por exemplo, com o valor predefinido de 1, mesmo um único caso pode fazer com que seja criada uma nova regra. Se aumentar o valor para 5, os dados de preparação terão de conter, pelo menos, cinco casos que cumpram as mesmas condições.

  5. Para Taxa de aprendizagem, escreva um número entre 0 e 1 que defina o tamanho do passo durante a aprendizagem.

    A taxa de aprendizagem determina a rapidez ou a lentidão com que o formando converge na solução ideal. Se o tamanho do passo for demasiado grande, poderá ultrapassar a solução ideal. Se o tamanho do passo for demasiado pequeno, a preparação demora mais tempo a convergir para a melhor solução.

  6. Para Número de árvores construídas, indique o número total de árvores de decisão a criar no conjunto. Ao criar mais árvores de decisões, pode potencialmente obter uma melhor cobertura, mas o tempo de preparação aumentará.

    Se definir o valor como 1, só é produzida uma árvore (a árvore com o conjunto inicial de parâmetros) e não são executadas mais iterações.

  7. Para Semente de número aleatório, opcionalmente, escreva um número inteiro não negativo para utilizar como o valor de seed aleatório. Especificar uma semente garante a reprodutibilidade entre execuções que têm os mesmos dados e parâmetros.

    A semente aleatória é definida por predefinição como 0, o que significa que o valor de seed inicial é obtido a partir do relógio do sistema. As execuções sucessivas com uma semente aleatória podem ter resultados diferentes.

  8. Preparar o modelo:

    • Se definir Criar modo de formador como Parâmetro Único, ligue um conjunto de dados etiquetado e o componente Preparar Modelo .

    • Se definir Criar modo de formador como Intervalo de Parâmetros, ligue um conjunto de dados etiquetado e prepare o modelo com Os Hiperparâmetros do Modelo de Otimização.

    Nota

    Se transmitir um intervalo de parâmetros para Preparar Modelo, este utiliza apenas o valor predefinido na lista de parâmetros únicos.

    Se transmitir um único conjunto de valores de parâmetros para o componente Otimizar Hiperparâmetros do Modelo , quando espera um intervalo de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o formando.

    Se selecionar a opção Intervalo de Parâmetros e introduzir um valor único para qualquer parâmetro, esse valor único que especificou é utilizado ao longo da operação de varrimento, mesmo que outros parâmetros sejam alterados num intervalo de valores.

Resultados

Após a conclusão da preparação:

  • Para guardar um instantâneo do modelo preparado, selecione o separador Saídas no painel direito do componente Preparar modelo . Selecione o ícone Registar conjunto de dados para guardar o modelo como um componente reutilizável.

  • Para utilizar o modelo para classificação, adicione o componente Score Model a um pipeline.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.