O que é AutoML?
O Databricks AutoML simplifica o processo de aplicação de aprendizado de máquina aos seus conjuntos de dados encontrando automaticamente a melhor configuração de algoritmo e hiperparâmetro para você.
Forneça seu conjunto de dados e especifique o tipo de problema de aprendizado de máquina. Em seguida, o AutoML fará o seguinte:
- Limpa e prepara seus dados.
- Orquestra o treinamento de modelo distribuído e o ajuste de hiperparâmetro em vários algoritmos.
- Localiza o melhor modelo usando algoritmos de avaliação de software livre de scikit-learn, xgboost, LightGBM, Prophet e ARIMA.
- Apresenta os resultados. O AutoML também gera notebooks de código-fonte para cada avaliação, permitindo que você examine, reproduza e modifique o código conforme necessário.
Introdução aos experimentos de AutoML por meio de uma interface do usuário de low-code ou a API do Python.
Requisitos
- Databricks Runtime 9.1 ML ou superior. Para a versão de GA (disponibilidade geral), o Databricks Runtime 10.4 LTS ML ou superior.
- Para previsão de série temporal, Databricks Runtime 10.0 ML ou superior.
- Com o Databricks Runtime 9.1 LTS ML e superior, o AutoML depende do pacote
databricks-automl-runtime
, que contém os componentes que são úteis fora do AutoML e também ajuda a simplificar os blocos de anotações gerados pelo treinamento do AutoML.databricks-automl-runtime
está disponível em PyPI.
- Nenhuma biblioteca adicional, além daquelas instaladas previamente no Databricks Runtime for Machine Learning, deve ser instalada no cluster.
- Qualquer modificação (remoção, atualizações ou realização de downgrade) para as versões de bibliotecas existentes resulta em falhas de execução devido à incompatibilidade.
- O AutoML não é compatível com clusters de modo de acesso compartilhado.
- Para usar o Catálogo do Unity com AutoML, o modo de acesso ao cluster deve ser Usuário único, e você deve ser o único usuário do cluster.
- Para acessar arquivos no seu workspace, você deve ter as portas de rede 1017 e 1021 abertas para experimentos de AutoML. Para abrir essas portas ou confirmar se estão abertas, revise a configuração do firewall da VPN na nuvem e as regras do grupo de segurança ou contate o administrador da nuvem local. Para obter informações adicionais sobre a configuração e a implantação do workspace, consulte Criar um workspace.
Algoritmos AutoML
O AutoML do Databricks treina e avalia modelos com base nos algoritmos na tabela a seguir.
Observação
Para os modelos de classificação e regressão, a árvore de decisão, as florestas aleatórias, a regressão logística e a regressão linear com algoritmos de descendente de gradiente estocástico são baseadas no scikit-learn.
Modelos de classificação | Modelos de regressão | Modelos de previsão |
---|---|---|
Árvores de decisão | Árvores de decisão | Prophet |
Florestas aleatórias | Florestas aleatórias | Auto-ARIMA (disponível no Databricks Runtime 10.3 ML e superior.) |
Regressão logística | Regressão linear com espaço descendente de gradiente aleatório | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
Geração de notebook de avaliação
O AutoML gera notebooks do código-fonte por trás de avaliações para que você possa examinar, reproduzir e modificar o código conforme necessário.
Para previsão de experimentos, os notebooks gerados pelo AutoML são importados automaticamente para o workspace para todas as avaliações do experimento.
Para experimentos de classificação e regressão, os notebooks gerados pelo AutoML para exploração de dados e a melhor avaliação em seu experimento são automaticamente importados para o seu workspace. Os notebooks gerados para outras avaliações de experimento são salvos como artefatos do MLflow no DBFS, em vez de importados automaticamente para o seu workspace. Para todas as avaliações além da melhor avaliação, o notebook_path
e notebook_url
na API do Python TrialInfo
não estão definidos. Se você precisar usar esses notebooks, poderá importá-los manualmente para seu workspace com a interface do usuário do experimento AutoML ou a databricks.automl.import_notebook
API do Python.
Se você usar apenas o notebook de exploração de dados ou o bloco de anotações de melhor avaliação gerado pelo AutoML, a coluna Origem na interface do usuário do experimento AutoML conterá o link para o notebook gerado para a melhor avaliação.
Se você usar outros notebooks gerados na interface do usuário do experimento AutoML, eles não serão importados automaticamente para o workspace. Você pode encontrar os blocos de anotações clicando em cada execução do MLflow. O notebook IPython é salvo na seção Artefatos da página de execução. Você pode baixar esse notebook e importá-lo para o workspace se o download de artefatos tiver sido habilitado pelos administradores do seu workspace.
Valores de Shapley (SHAP) para explicabilidade de modelo
Observação
Para o MLR 11.1 e versões anteriores, os gráficos SHAP não serão gerados se o conjunto de dados contiver uma coluna datetime
.
Os notebooks produzidos pela regressão de AutoML e execuções de classificação incluem código para calcular valores de Shapley. Os valores de Shapley são baseados na teoria do jogo e estimam a importância de cada recurso para as previsões de um modelo.
Os notebooks AutoML calculam valores Shapley usando o pacote SHAP. Como esses cálculos têm uso muito intenso de memória, eles não são executados por padrão.
Para calcular e exibir valores de Shapley:
- Vá para a seção Importância do recurso em um notebook de avaliação gerado por AutoML.
- Defina
shap_enabled = True
. - Execute novamente o notebook.