Partilhar via


Componente Floresta de Decisão Multiclasse

Este artigo descreve um componente no designer do Azure Machine Learning.

Use este componente para criar um modelo de aprendizado de máquina com base no algoritmo da floresta de decisão. Uma floresta de decisão é um modelo de conjunto que constrói rapidamente uma série de árvores de decisão, enquanto aprende com dados marcados.

Mais sobre florestas de decisão

O algoritmo de floresta de decisão é um método de aprendizagem de conjunto para classificação. O algoritmo funciona construindo várias árvores de decisão e, em seguida, votando na classe de saída mais popular. A votação é uma forma de agregação, na qual cada árvore em uma floresta de decisão de classificação produz um histograma de frequência não normalizado de rótulos. O processo de agregação soma esses histogramas e normaliza o resultado para obter as "probabilidades" para cada rótulo. As árvores que têm alta confiança de previsão têm um peso maior na decisão final do conjunto.

As árvores de decisão em geral são modelos não paramétricos, o que significa que suportam dados com distribuições variadas. Em cada árvore, uma sequência de testes simples é executada para cada classe, aumentando os níveis de uma estrutura de árvore até que um nó de folha (decisão) seja alcançado.

As árvores de decisão têm muitas vantagens:

  • Podem representar limites de decisão não lineares.
  • Eles são eficientes em computação e uso de memória durante o treinamento e previsão.
  • Eles realizam seleção e classificação de recursos integrados.
  • Eles são resilientes na presença de características barulhentas.

O classificador de floresta de decisão no Azure Machine Learning consiste em um conjunto de árvores de decisão. Geralmente, os modelos de conjunto fornecem melhor cobertura e precisão do que as árvores de decisão únicas. Para obter mais informações, consulte Árvores de decisão.

Como configurar a Floresta de Decisão Multiclasse

  1. Adicione o componente Floresta de Decisão Multiclasse ao seu pipeline no designer. Você pode encontrar esse componente em Aprendizado de Máquina, Inicializar Modelo e Classificação.

  2. Clique duas vezes no componente para abrir o painel Propriedades .

  3. Para o método de nova amostragem, escolha o método usado para criar as árvores individuais. Você pode escolher entre ensacamento ou replicação.

    • Ensacamento: O ensacamento também é chamado de agregação de bootstrap. Neste método, cada árvore é cultivada em uma nova amostra, criada por amostragem aleatória do conjunto de dados original com substituição até que você tenha um conjunto de dados do tamanho do original. Os resultados dos modelos são combinados por votação, que é uma forma de agregação. Para obter mais informações, consulte a entrada da Wikipédia para agregação de bootstrap.

    • Replicar: na replicação, cada árvore é treinada exatamente nos mesmos dados de entrada. A determinação de qual predicado dividido é usado para cada nó de árvore permanece aleatória, criando árvores diversas.

  4. Especifique como deseja que o modelo seja treinado, definindo a opção Criar modo de treinador.

    • Parâmetro único: selecione esta opção se souber como deseja configurar o modelo e forneça um conjunto de valores como argumentos.

    • Intervalo de parâmetros: selecione esta opção se não tiver certeza dos melhores parâmetros e quiser executar uma varredura de parâmetros. Selecione um intervalo de valores para iterar e o Tune Model Hyperparameters itera sobre todas as combinações possíveis das configurações fornecidas para determinar os hiperparâmetros que produzem os resultados ideais.

  5. Número de árvores de decisão: digite o número máximo de árvores de decisão que podem ser criadas no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treinamento pode aumentar.

    Se você definir o valor como 1; no entanto, isso significa que apenas uma árvore pode ser produzida (a árvore com o conjunto inicial de parâmetros), e nenhuma outra iteração é executada.

  6. Profundidade máxima das árvores de decisão: digite um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, correndo o risco de algum sobreajuste e aumento do tempo de treino.

  7. Número de divisões aleatórias por nó: digite o número de divisões a serem usadas ao construir cada nó da árvore. Uma divisão significa que as características em cada nível da árvore (nó) são divididas aleatoriamente.

  8. Número mínimo de amostras por nó foliar: Indicar o número mínimo de casos necessários para criar qualquer nó terminal (folha) numa árvore. Ao aumentar esse valor, você aumenta o limite para a criação de novas regras.

    Por exemplo, com o valor padrão de 1, até mesmo um único caso pode fazer com que uma nova regra seja criada. Se você aumentar o valor para 5, os dados de treinamento terão que conter pelo menos cinco casos que atendam às mesmas condições.

  9. Conecte um conjunto de dados rotulado e treine o modelo:

    • Se você definir Create trainer mode como Single Parameter, conecte um conjunto de dados marcado e o componente Train Model .

    • Se você definir Criar modo de treinamento como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.

    Nota

    Se você passar um intervalo de parâmetros para Train Model, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se você passar um único conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele ignora os valores e usa os valores padrão para o aluno.

    Se você selecionar a opção Intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse único valor especificado será usado durante toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  10. Envie o pipeline.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.