Regressão de Quantil da Floresta Rápida

Este artigo descreve um módulo no designer do Azure Machine Learning.

Use este componente para criar um modelo de regressão quantílica de floresta rápida em um pipeline. A regressão quantílica rápida da floresta é útil se você quiser entender mais sobre a distribuição do valor previsto, em vez de obter um único valor médio de previsão. Este método tem muitas aplicações, incluindo:

  • Previsão de preços

  • Estimar o desempenho dos alunos ou aplicar gráficos de crescimento para avaliar o desenvolvimento infantil

  • Descobrir relações preditivas nos casos em que existe apenas uma relação fraca entre variáveis

Esse algoritmo de regressão é um método de aprendizagem supervisionada , o que significa que requer um conjunto de dados marcado que inclui uma coluna de rótulo. Por ser um algoritmo de regressão, a coluna de rótulo deve conter apenas valores numéricos.

Mais sobre regressão quantílica

Existem muitos tipos diferentes de regressão. Simplificando, regressão significa ajustar um modelo a um alvo expresso como um vetor numérico. No entanto, os estatísticos têm vindo a desenvolver métodos de regressão cada vez mais avançados.

A definição mais simples de quantil é um valor que divide um conjunto de dados em grupos de tamanho igual, assim, os valores quantílicos marcam os limites entre os grupos. Estatisticamente falando, quantis são valores tomados em intervalos regulares a partir do inverso da função de distribuição cumulativa (CDF) de uma variável aleatória.

Enquanto os modelos de regressão linear tentam prever o valor de uma variável numérica usando uma única estimativa, a média, às vezes você precisa prever o intervalo ou a distribuição inteira da variável alvo. Técnicas como a regressão bayesiana e a regressão quantílica têm sido desenvolvidas para este fim.

A regressão quantílica ajuda a entender a distribuição do valor previsto. Modelos de regressão quantílica baseados em árvore, como o usado neste componente, têm a vantagem adicional de poderem ser usados para prever distribuições não paramétricas.

Como configurar a regressão quantílica rápida da floresta

  1. Adicione o componente Regressão Quantílica de Floresta Rápida ao seu pipeline no designer. Você pode encontrar esse componente em Algoritmos de Aprendizado de Máquina, na categoria Regressão .

  2. No painel direito do componente Regressão Quantílica de Floresta Rápida , especifique como deseja que o modelo seja treinado, definindo a opção Criar modo de treinador.

    • Parâmetro único: Se você souber como deseja configurar o modelo, forneça um conjunto específico de valores como argumentos. Ao treinar o modelo, use Train Model.

    • Intervalo de parâmetros: Se você não tiver certeza dos melhores parâmetros, faça uma varredura de parâmetros usando o componente Tune Model Hyperparameters . O treinador itera sobre vários valores especificados para encontrar a configuração ideal.

  3. Número de árvores, digite o número máximo de árvores que podem ser criadas no conjunto. Se você criar mais árvores, isso geralmente leva a uma maior precisão, mas ao custo de um tempo de treinamento mais longo.

  4. Número de folhas, digite o número máximo de folhas, ou nós terminais, que podem ser criados em qualquer árvore.

  5. Número mínimo de instâncias de treinamento necessárias para formar uma folha, especifique o número mínimo de exemplos necessários para criar qualquer nó terminal (folha) em uma árvore.

    Ao aumentar esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, até mesmo um único caso pode fazer com que uma nova regra seja criada. Se você aumentar o valor para 5, os dados de treinamento terão que conter pelo menos 5 casos que atendam às mesmas condições.

  6. Fração de ensacamento, especifique um número entre 0 e 1 que represente a fração de amostras a ser usada na construção de cada grupo de quantis. As amostras são escolhidas aleatoriamente, com substituição.

  7. Fração dividida, digite um número entre 0 e 1 que representa a fração de recursos a ser usada em cada divisão da árvore. As características utilizadas são sempre escolhidas aleatoriamente.

  8. Quantis a serem estimados, digite uma lista separada por ponto-e-vírgula dos quantis para os quais você deseja que o modelo treine e crie previsões.

    Por exemplo, se você quiser criar um modelo que estima quartis, digite 0.25; 0.5; 0.75.

  9. Opcionalmente, digite um valor para Random number seed para semear o gerador de números aleatórios usado pelo modelo. O padrão é 0, o que significa que uma semente aleatória é escolhida.

    Você deve fornecer um valor se precisar reproduzir resultados em execuções sucessivas nos mesmos dados.

  10. Conecte o conjunto de dados de treinamento e o modelo não treinado a um dos componentes de treinamento:

    • Se você definir Criar modo de treinamento como Parâmetro único, use o componente Modelo de trem.

    • Se você definir Create trainer mode como Parameter Range, use o componente Tune Model Hyperparameters .

    Aviso

    • Se você passar um intervalo de parâmetros para Train Model, ele usará apenas o primeiro valor na lista de intervalos de parâmetros.

    • Se você passar um único conjunto de valores de parâmetro para o componente Tune Model Hyperparameters , quando ele espera um intervalo de configurações para cada parâmetro, ele ignora os valores e usa os valores padrão para o aluno.

    • Se você selecionar a opção Intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse único valor especificado será usado durante toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  11. Envie o pipeline.

Resultados

Após a conclusão da formação:

  • Para salvar um instantâneo do modelo treinado, selecione o componente de treinamento e alterne para a guia Saídas+logs no painel direito. Clique no ícone Registrar conjunto de dados. Você pode encontrar o modelo salvo como um componente na árvore de componentes.

Métricas de avaliação

Você pode usar o componente Avaliar modelo para avaliar o modelo treinado. Para Regressão Quantílica Rápida de Floresta, as métricas são as seguintes.

  • Perda quantílica: Esta é uma medida do erro para um quantil específico em seu modelo.
  • Perda Quantílica Média: Esta é simplesmente a média dos valores de Perda Quantil em todos os quantis considerados no modelo. Ele fornece uma medida geral de quão bem o modelo está se saindo em todos os quantis.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.