Componente da Floresta de Decisões do Two-Class

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize este componente para criar um modelo de machine learning com base no algoritmo de florestas de decisão.

As florestas de decisão são modelos conjuntos rápidos e supervisionados. Este componente é uma boa opção se quiser prever um destino com um máximo de dois resultados.

Compreender as florestas de decisão

Este algoritmo de floresta de decisão é um método de aprendizagem conjunto destinado a tarefas de classificação. Os métodos de conjunto baseiam-se no princípio geral de que, em vez de depender de um único modelo, pode obter melhores resultados e um modelo mais generalizado ao criar vários modelos relacionados e combiná-los de alguma forma. Geralmente, os modelos de conjunto proporcionam uma melhor cobertura e precisão do que árvores de decisões individuais.

Existem várias formas de criar modelos individuais e combiná-los num conjunto. Esta implementação específica de uma floresta de decisões funciona através da construção de várias árvores de decisões e, em seguida, votando na classe de saída mais popular. A votação é um dos métodos mais conhecidos para gerar resultados num modelo de conjunto.

  • Muitas árvores de classificação individuais são criadas, utilizando todo o conjunto de dados, mas diferentes (geralmente aleatoriamente) pontos de partida. Isto difere da abordagem de floresta aleatória, na qual as árvores de decisões individuais podem utilizar apenas uma parte aleatória dos dados ou funcionalidades.
  • Cada árvore na árvore da floresta de decisões produz um histograma de frequência não normalizada de etiquetas.
  • O processo de agregação soma estes histogramas e normaliza o resultado para obter as "probabilidades" de cada etiqueta.
  • As árvores que têm alta confiança de predição terão um maior peso na decisão final do conjunto.

As árvores de decisões em geral têm muitas vantagens para tarefas de classificação:

  • Podem capturar limites de decisão não lineares.
  • Pode preparar e prever muitos dados, uma vez que são eficientes na utilização de memória e computação.
  • A seleção de funcionalidades está integrada nos processos de preparação e classificação.
  • As árvores podem acomodar dados ruidosos e muitas funcionalidades.
  • São modelos não paramétricos, o que significa que podem processar dados com distribuições variadas.

No entanto, as árvores de decisões simples podem sobreajustar-se aos dados e são menos generalizáveis do que os conjuntos de árvores.

Para obter mais informações, veja Florestas de Decisão.

Como configurar

  1. Adicione o componente Floresta de Decisão de Duas Classes ao pipeline no Azure Machine Learning e abra o painel Propriedades do componente.

    Pode encontrar o componente em Machine Learning. Expanda Inicializar e, em seguida , Classificação.

  2. Para o método Resampling, escolha o método utilizado para criar as árvores individuais. Pode escolher entre Empacotar ou Replicar.

    • Bagging: O empacotamento também é chamado de agregação bootstrap. Neste método, cada árvore é cultivada numa nova amostra, criada ao amostrar aleatoriamente o conjunto de dados original com substituição até ter um conjunto de dados do tamanho do original.

      As saídas dos modelos são combinadas por votação, que é uma forma de agregação. Cada árvore numa floresta de decisão de classificação produz um histograma de frequência não normalizada de etiquetas. A agregação é somar estes histogramas e normalizar para obter as "probabilidades" de cada etiqueta. Desta forma, as árvores que têm alta confiança de predição terão um maior peso na decisão final do conjunto.

      Para obter mais informações, consulte a entrada da Wikipédia para Agregação de Bootstrap.

    • Replicar: na replicação, cada árvore é preparada exatamente nos mesmos dados de entrada. A determinação do predicado dividido é utilizada para cada nó de árvore permanece aleatória e as árvores serão diversas.

  3. Especifique como pretende que o modelo seja preparado ao definir a opção Criar modo de formador .

    • Parâmetro Único: se souber como pretende configurar o modelo, pode fornecer um conjunto específico de valores como argumentos.

    • Intervalo de Parâmetros: se não tiver a certeza dos melhores parâmetros, pode encontrar os parâmetros ideais com o componente Otimizar Hiperparâmetros do Modelo . Fornece algum intervalo de valores e o formador itera em múltiplas combinações das definições para determinar a combinação de valores que produz o melhor resultado.

  4. Em Número de árvores de decisões, escreva o número máximo de árvores de decisões que podem ser criadas no conjunto. Ao criar mais árvores de decisões, pode potencialmente obter uma melhor cobertura, mas o tempo de preparação aumenta.

    Nota

    Se definir o valor como 1. No entanto, apenas uma árvore pode ser produzida (a árvore com o conjunto inicial de parâmetros) e não são executadas mais iterações.

  5. Para Profundidade máxima das árvores de decisões, escreva um número para limitar a profundidade máxima de qualquer árvore de decisões. Aumentar a profundidade da árvore pode aumentar a precisão, correndo o risco de algum sobreajuste e aumento do tempo de preparação.

  6. Para o Número mínimo de amostras por nó de folha, indique o número mínimo de casos necessários para criar qualquer nó terminal (folha) numa árvore.

    Ao aumentar este valor, aumenta o limiar para criar novas regras. Por exemplo, com o valor predefinido de 1, mesmo um único caso pode fazer com que seja criada uma nova regra. Se aumentar o valor para 5, os dados de preparação terão de conter, pelo menos, cinco casos que cumpram as mesmas condições.

  7. Selecione a opção Permitir valores desconhecidos para funcionalidades categóricas para criar um grupo para valores desconhecidos nos conjuntos de preparação ou validação. O modelo pode ser menos preciso para valores conhecidos, mas pode fornecer melhores predições para novos valores (desconhecidos).

    Se desselecionar esta opção, o modelo só pode aceitar os valores contidos nos dados de preparação.

  8. Anexe um conjunto de dados etiquetado e prepare o modelo:

    • Se definir Criar modo de formador como Parâmetro Único, ligue um conjunto de dados etiquetado e o componente Preparar Modelo .

    • Se definir Criar modo de formador como Intervalo de Parâmetros, ligue um conjunto de dados etiquetado e prepare o modelo com Os Hiperparâmetros do Modelo de Otimização.

    Nota

    Se transmitir um intervalo de parâmetros para Preparar Modelo, este utiliza apenas o valor predefinido na lista de parâmetros únicos.

    Se transmitir um único conjunto de valores de parâmetros para o componente Otimizar Hiperparâmetros do Modelo , quando espera um intervalo de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o formando.

    Se selecionar a opção Intervalo de Parâmetros e introduzir um valor único para qualquer parâmetro, esse valor único que especificou é utilizado ao longo da operação de varrimento, mesmo que outros parâmetros sejam alterados num intervalo de valores.

Resultados

Após a conclusão da preparação:

  • Para guardar um instantâneo do modelo preparado, selecione o separador Saídas no painel direito do componente Preparar modelo . Selecione o ícone Registar conjunto de dados para guardar o modelo como um componente reutilizável.

  • Para utilizar o modelo para classificação, adicione o componente Score Model a um pipeline.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.