Treinar modelos de ML com a API Python do Azure Databricks AutoML
Este artigo demonstra como treinar um modelo com o Azure Databricks AutoML usando a API AutoML Python. Consulte Referência da API Python do Azure Databricks AutoML para obter mais detalhes.
A API fornece funções para iniciar a classificação, regressão e previsão de execuções do AutoML. Cada chamada de função treina um conjunto de modelos e gera um bloco de anotações de avaliação para cada modelo.
Consulte Requisitos para experimentos AutoML.
Configurar um experimento usando a API AutoML
As etapas a seguir geralmente descrevem como configurar um experimento AutoML usando a API:
Crie um bloco de anotações e anexe-o a um cluster que executa o Databricks Runtime ML.
Identifique qual tabela você deseja usar de sua fonte de dados existente ou carregue um arquivo de dados para o DBFS e crie uma tabela.
Para iniciar uma execução do AutoML, use a
automl.regress()
função ouautoml.classify()
e passe a tabela, juntamente com quaisquer outros parâmetros de treinamento. Para ver todas as funções e parâmetros, consulte Referência da API Python do Azure Databricks AutoML.Por exemplo:
summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")
Quando a execução do AutoML começa, uma URL de experimento MLflow aparece no console. Use este URL para monitorar o progresso da execução. Atualize o experimento MLflow para ver as avaliações à medida que são concluídas.
Após a conclusão da execução do AutoML:
- Use os links no resumo de saída para navegar até o experimento MLflow ou o bloco de anotações que gerou os melhores resultados.
- Use o link para o bloco de anotações de exploração de dados para obter informações sobre os dados passados para o AutoML. Você também pode anexar este bloco de anotações ao mesmo cluster e executá-lo novamente para reproduzir os resultados ou fazer análises de dados adicionais.
- Use o objeto de resumo retornado da chamada AutoML para explorar mais detalhes sobre as avaliações ou para carregar um modelo treinado por uma determinada avaliação. Saiba mais sobre o objeto AutoMLSummary.
- Clone qualquer bloco de anotações gerado a partir das avaliações e execute-o novamente anexando-o ao mesmo cluster para reproduzir os resultados. Você também pode fazer as edições necessárias, executá-las novamente para treinar modelos adicionais e registrá-las no mesmo experimento.
Importar um bloco de notas
Para importar um bloco de anotações salvo como um artefato MLflow, use a API do databricks.automl.import_notebook
Python. Para obter mais informações, consulte Importar bloco de anotações
Registrar e implantar um modelo
Você pode registrar e implantar seu modelo treinado pelo AutoML como qualquer modelo registrado no registro do modelo MLflow; consulte Registrar, carregar, registrar e implantar modelos MLflow.
Nenhum módulo nomeado pandas.core.indexes.numeric
Ao servir um modelo construído usando AutoML com Model Serving, você pode obter o erro: No module named 'pandas.core.indexes.numeric
.
Isso ocorre devido a uma versão incompatível pandas
entre o AutoML e o modelo que serve o ambiente de ponto final. Você pode resolver esse erro executando o script add-pandas-dependency.py. O script edita o requirements.txt
e conda.yaml
para seu modelo registrado para incluir a versão de dependência apropriada pandas
: pandas==1.5.3
.
- Modifique o script para incluir o
run_id
da execução do MLflow onde o modelo foi registrado. - Registro novo do modelo no registro do modelo MLflow.
- Tente servir a nova versão do modelo MLflow.
Exemplos de blocos de notas
Reveja estes blocos de notas para começar a utilizar o AutoML.
O bloco de anotações a seguir mostra como fazer a classificação com o AutoML.
Bloco de notas de exemplo de classificação AutoML
O bloco de anotações a seguir mostra como fazer regressão com AutoML.
Bloco de notas de exemplo de regressão AutoML
O bloco de anotações a seguir mostra como fazer previsões com o AutoML.
Notebook de exemplo de previsão de AutoML
Próximos passos
Referência da API Python do Azure Databricks AutoML.
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários