Compartilhar via


Treinar modelos de ML com a API do Python do AutoML no Azure Databricks

Este artigo demonstra como treinar um modelo com o AutoML do Azure Databricks usando a API do Python do AutoML. Consulte Referência da API do Python do AutoML do Azure Databricks para obter mais detalhes.

A API fornece funções para iniciar execuções de classificação, regressão e regressão do AutoML. Cada chamada de função treina um conjunto de modelos e gera um notebook de avaliação para cada modelo.

Consulte Requisitos para experimentos do AutoML.

Configurar um experimento usando a API do AutoML

As seguintes etapas descrevem geralmente como configurar um experimento de AutoML usando a API:

  1. Crie um notebook e anexe-o a um cluster Databricks Runtime ML.

  2. Identifique qual tabela você deseja usar da fonte de dados existente ou carregue um arquivo de dados no DBFS e crie uma tabela.

  3. Para iniciar uma execução de AutoML, use a função automl.regress() ou automl.classify() e passe a tabela, juntamente com quaisquer outros parâmetros de treinamento. Para ver todas as funções e parâmetros, consulte a Referência da API do Python do AutoML do Azure Databricks.

    Por exemplo:

    summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
    
  4. Quando a executar o AutoML é iniciada, uma URL de experimento do MLflow é exibida no console. Use essa URL para monitorar o progresso da execução. Atualize o experimento do MLflow para ver as avaliação conforme elas são concluídas.

  5. Após a conclusão da executar o AutoML:

  • Use os links no resumo de saída para navegar até o experimento do MLflow ou para o notebook que gerou os melhores resultados.
  • Use o link para o notebook de exploração de dados para obter algumas informações sobre os dados passados para o AutoML. Você também pode anexar esse notebook ao mesmo cluster e executá-lo novamente para reproduzir os resultados ou fazer análises de dados adicionais.
  • Use o objeto de resumo retornado da chamada AutoML para explorar mais detalhes sobre as avaliação ou carregar um modelo treinado por uma determinada avaliação. Saiba mais sobre o objeto AutoMLSummary.
  • Clone qualquer notebook gerado das avaliações e execute-o novamente anexando-o ao mesmo cluster para reproduzir os resultados. Você também pode fazer as edições necessárias e executá-las novamente para treinar modelos adicionais e registrá-los no mesmo experimento.

Importar um notebook

Para importar um notebook salvo como um artefato do MLflow, use a API do Python databricks.automl.import_notebook. Para obter mais informações, consulte Importar um notebook

Registrar e implantar um modelo

Você pode registrar e implantar seu modelo treinado de AutoML como qualquer modelo registrado no registro de modelo do MLflow. Consulte Registrar em log, carregar, registrar e implantar modelos do MLflow.

Nenhum módulo chamado pandas.core.indexes.numeric

Ao servir um modelo criado usando o AutoML com o Serviço de Modelo, você pode receber o erro: No module named 'pandas.core.indexes.numeric.

Isso ocorre devido a uma versão incompatível pandas entre o AutoML e o modelo que atende ao ambiente de ponto de extremidade. Você pode resolve esse erro executando o script add-pandas-dependency.py. O script edita o requirements.txt e conda.yaml para o modelo registrado incluir a versão de dependência apropriada pandas : pandas==1.5.3.

  1. Modifique o script para incluir o run_id da execução do MLflow em que o modelo foi registrado.
  2. Registrar novamente o modelo no registro de modelo do MLflow.
  3. Tente fornecer a nova versão do modelo MLflow.

Exemplos de notebook

Examine esses blocos de anotações para começar a usar o AutoML.

O notebook a seguir mostra como fazer a classificação com o AutoML.

Notebook de exemplo de classificação de AutoML

Obter notebook

O notebook a seguir mostra como fazer regressão com o AutoML.

Notebook de exemplo de regressão de AutoML

Obter notebook

O notebook a seguir mostra como fazer a previsão com o AutoML.

Notebook de exemplo de previsão de AutoML

Obter notebook

Próximas etapas

Referência da API do Python do AutoML do Azure Databricks.