Componente floresta de decisão de várias classes

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize este componente para criar um modelo de machine learning com base no algoritmo de floresta de decisão . Uma floresta de decisões é um modelo conjunto que rapidamente cria uma série de árvores de decisão, ao mesmo tempo que aprende com dados etiquetados.

Mais informações sobre florestas de decisão

O algoritmo de floresta de decisão é um método de aprendizagem conjunto para classificação. O algoritmo funciona ao criar várias árvores de decisão e, em seguida, votar na classe de saída mais popular. A votação é uma forma de agregação, na qual cada árvore numa floresta de decisão de classificação produz um histograma de frequência não normalizado de etiquetas. O processo de agregação soma estes histogramas e normaliza o resultado para obter as "probabilidades" de cada etiqueta. As árvores que têm elevada confiança de predição têm um maior peso na decisão final do conjunto.

As árvores de decisões em geral são modelos não paramétricos, o que significa que suportam dados com distribuições variadas. Em cada árvore, é executada uma sequência de testes simples para cada classe, aumentando os níveis de uma estrutura de árvore até que um nó de folha (decisão) seja alcançado.

As árvores de decisões têm muitas vantagens:

  • Podem representar limites de decisão não lineares.
  • São eficientes na utilização da memória e computação durante a preparação e predição.
  • Efetuam a seleção e classificação de funcionalidades integradas.
  • São resilientes na presença de características ruidosas.

O classificador de floresta de decisão no Azure Machine Learning consiste num conjunto de árvores de decisão. Geralmente, os modelos de conjunto proporcionam melhor cobertura e precisão do que as árvores de decisão individuais. Para obter mais informações, veja Árvores de decisões.

Como configurar a Floresta de Decisões multiclasse

  1. Adicione o componente Floresta de Decisão multiclasse ao pipeline no estruturador. Pode encontrar este componente em Machine Learning, Inicializar Modelo e Classificação.

  2. Faça duplo clique no componente para abrir o painel Propriedades .

  3. Para o método Resampling, escolha o método utilizado para criar as árvores individuais. Pode escolher entre empacotamento ou replicação.

    • Bagging: O bagging também é chamado de agregação bootstrap. Neste método, cada árvore é cultivada numa nova amostra, criada ao amostrar aleatoriamente o conjunto de dados original com substituição até ter um conjunto de dados do tamanho do original. As saídas dos modelos são combinadas através da votação, que é uma forma de agregação. Para obter mais informações, veja a entrada wikipédia para Agregação de Bootstrap.

    • Replicar: na replicação, cada árvore é preparada exatamente nos mesmos dados de entrada. A determinação de qual predicado dividido é utilizada para cada nó de árvore permanece aleatória, criando diversas árvores.

  4. Especifique como pretende que o modelo seja preparado ao definir a opção Criar modo de formador .

    • Parâmetro Único: selecione esta opção se souber como pretende configurar o modelo e forneça um conjunto de valores como argumentos.

    • Intervalo de Parâmetros: selecione esta opção se não tiver a certeza dos melhores parâmetros e quiser executar uma varrimento de parâmetros. Selecione um intervalo de valores para iterar e os Hiperparâmetros do Modelo de Otimização itera todas as combinações possíveis das definições que forneceu para determinar os hiperparâmetros que produzem os resultados ideais.

  5. Número de árvores de decisão: escreva o número máximo de árvores de decisão que podem ser criadas no conjunto. Ao criar mais árvores de decisão, pode potencialmente obter uma melhor cobertura, mas o tempo de preparação pode aumentar.

    Se definir o valor como 1; no entanto, isto significa que apenas uma árvore pode ser produzida (a árvore com o conjunto inicial de parâmetros) e não são executadas mais iterações.

  6. Profundidade máxima das árvores de decisão: escreva um número para limitar a profundidade máxima de qualquer árvore de decisões. Aumentar a profundidade da árvore pode aumentar a precisão, correndo o risco de algum sobreajuste e aumento do tempo de preparação.

  7. Número de divisões aleatórias por nó: escreva o número de divisões a utilizar ao criar cada nó da árvore. Uma divisão significa que as funcionalidades em cada nível da árvore (nó) são divididas aleatoriamente.

  8. Número mínimo de amostras por nó de folha: indique o número mínimo de casos necessários para criar qualquer nó terminal (folha) numa árvore. Ao aumentar este valor, aumenta o limiar para criar novas regras.

    Por exemplo, com o valor predefinido de 1, mesmo um único caso pode fazer com que seja criada uma nova regra. Se aumentar o valor para 5, os dados de preparação terão de conter pelo menos cinco casos que cumpram as mesmas condições.

  9. Ligue um conjunto de dados etiquetado e prepare o modelo:

    • Se definir Criar modo de formador como Parâmetro Único, ligue um conjunto de dados etiquetado e o componente Preparar Modelo .

    • Se definir Criar modo de formador como Intervalo de Parâmetros, ligue um conjunto de dados etiquetado e prepare o modelo com Os Hiperparâmetros do Modelo de Otimização.

    Nota

    Se passar um intervalo de parâmetros para Preparar Modelo, este utiliza apenas o valor predefinido na lista de parâmetros únicos.

    Se transmitir um único conjunto de valores de parâmetros para o componente Tune Model Hyperparameters , quando espera um intervalo de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o formando.

    Se selecionar a opção Intervalo de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único que especificou é utilizado ao longo da pesquisa, mesmo que outros parâmetros sejam alterados num intervalo de valores.

  10. Submeta o pipeline.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.