O que é AutoML?

O AutoML simplifica o processo de aplicação do aprendizado de máquina aos seus conjuntos de dados, encontrando automaticamente o melhor algoritmo e a melhor configuração de hiperparâmetro para você.

Observação

No Databricks Runtime 18.0 ML ou superior, o AutoML não está incluído como uma biblioteca interna.

Como o AutoML funciona?

Forneça seu conjunto de dados e especifique o tipo de problema de aprendizado de máquina. Em seguida, o AutoML fará o seguinte:

Limpa e prepara seus dados.
Orquestra o treinamento de modelo distribuído e o ajuste de hiperparâmetro em vários algoritmos.
Localiza o melhor modelo usando algoritmos de avaliação de software livre de scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
Apresenta os resultados. O AutoML também gera notebooks de código-fonte para cada avaliação, permitindo que você examine, reproduza e modifique o código conforme necessário.

Comece a usar os experimentos do AutoML por meio de uma interface do usuário de baixo código para regressão; classificação; ou previsão, ou a API Python.

Requisitos

O AutoML depende do databricks-automl-runtime pacote, que contém componentes que são úteis fora do AutoML e também ajuda a simplificar os blocos de anotações gerados pelo treinamento do AutoML. databricks-automl-runtime está disponível em PyPI.
Nenhuma biblioteca adicional, além daquelas instaladas previamente no Databricks Runtime for Machine Learning, deve ser instalada no cluster.
- Qualquer modificação (remoção, atualizações ou realização de downgrade) para as versões de bibliotecas existentes resulta em falhas de execução devido à incompatibilidade.
Para acessar arquivos no seu workspace, você deve ter as portas de rede 1017 e 1021 abertas para experimentos de AutoML. Para abrir essas portas ou confirmar se estão abertas, revise a configuração do firewall da VPN na nuvem e as regras do grupo de segurança ou contate o administrador da nuvem local. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.

Use um recurso de computação com um modo de acesso de computação compatível. Nem todos os modos de acesso de computação têm acesso ao Catálogo do Unity:

Computar modo de acesso	Suporte ao AutoML	Suporte ao Catálogo do Unity
Dedicado (anteriormente usuário único)	Com suporte	Com suporte
Standard (anteriormente compartilhado)	Sem suporte	Com suporte
Sem isolamento compartilhado	Com suporte	Sem suporte

Algoritmos AutoML

O AutoML treina e avalia modelos com base nos algoritmos da tabela a seguir.

Observação

Para os modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descendente de gradiente estocástico são baseadas no scikit-learn.

Modelos de classificação	Modelos de regressão	Modelos de previsão	Modelos de previsão (sem servidor)
Árvores de decisão	Árvores de decisão	Profeta	Profeta
Florestas aleatórias	Florestas aleatórias	Auto-ARIMA (disponível no Databricks Runtime 10.3 ML e superior.)	ARIMA automático
Regressão logística	Regressão linear com espaço descendente de gradiente aleatório		DeepAR
XGBoost	XGBoost
LightGBM	LightGBM

Geração de notebook de avaliação

O AutoML de computação clássico gera notebooks do código-fonte por trás das avaliações para que você possa revisar, reproduzir e modificar o código conforme necessário.

Para previsão de experimentos, os notebooks gerados pelo AutoML são importados automaticamente para o workspace para todas as avaliações do experimento.

Para experimentos de classificação e regressão, os notebooks gerados pelo AutoML para exploração de dados e a melhor avaliação em seu experimento são automaticamente importados para o seu workspace. Os notebooks gerados para outras avaliações de experimento são salvos como artefatos do MLflow no DBFS, em vez de importados automaticamente para o seu workspace. Para todas as avaliações além da melhor avaliação, o notebook_path e notebook_url na API do Python TrialInfo não estão definidos. Se você precisar usar esses notebooks, poderá importá-los manualmente para seu workspace com a interface do usuário do experimento AutoML ou a databricks.automl.import_notebookAPI do Python.

Se você usar apenas o notebook de exploração de dados ou o bloco de anotações de melhor avaliação gerado pelo AutoML, a coluna Origem na interface do usuário do experimento AutoML conterá o link para o notebook gerado para a melhor avaliação.

Se você usar outros notebooks gerados na interface do usuário do experimento AutoML, eles não serão importados automaticamente para o workspace. Você pode encontrar os blocos de anotações clicando em cada execução do MLflow. O notebook IPython é salvo na seção Artefatos da página de execução. Você pode baixar esse notebook e importá-lo para o workspace se o download de artefatos tiver sido habilitado pelos administradores do seu workspace.

Valores de Shapley (SHAP) para explicabilidade de modelo

Observação

Para o MLR 11.1 e versões anteriores, os gráficos SHAP não serão gerados se o conjunto de dados contiver uma coluna datetime.

Os notebooks produzidos pela regressão de AutoML e execuções de classificação incluem código para calcular valores de Shapley. Os valores shapley são baseados na teoria do jogo e estimam a importância de cada recurso para as previsões de um modelo.

Os notebooks AutoML calculam valores Shapley usando o pacote SHAP. Como esses cálculos têm uso muito intenso de memória, eles não são executados por padrão.

Para calcular e exibir valores de Shapley:

Vá para a seção Importância do recurso em um notebook de avaliação gerado por AutoML.
Defina shap_enabled = True.
Execute novamente o notebook.

Próximas etapas

Comentários

Esta página foi útil?

Last updated on 2025-12-09

Compartilhar via

O que é AutoML?

Como o AutoML funciona?

Requisitos

Algoritmos AutoML

Geração de notebook de avaliação

Valores de Shapley (SHAP) para explicabilidade de modelo

Próximas etapas

Comentários

Recursos adicionais