Treinar modelos de ML com a interface do usuário do AutoML no Azure Databricks

Artigo
07/12/2024

Este artigo demonstra como treinar um modelo de machine learning usando o AutoML e a interface do usuário do Machine Learning no Databricks. A interface do usuário do AutoML orienta você no treinamento de um modelo classificação, regressão ou previsão em um conjunto de dados.

Consulte Requisitos para experimentos do AutoML.

Abrir a interface do usuário do AutoML

Para acessar a interface do usuário do AutoML:

Na barra lateral, selecione Novo > Experimento do AutoML.

Você também pode criar um novo experimento do AutoML na página Experimentos.

A página Configurar experimento do AutoML é exibida. Nessa página, você configura o processo AutoML, especificando o conjunto de pontos, o tipo de problema, a coluna de destino ou de rótulo a prever, a métrica a ser usada para avaliar e pontuar as execuções de experimento e as condições de interrupção.

Configurar problema de classificação ou regressão

Você pode configurar um problema de classificação ou regressão usando a interface do usuário do AutoML com as seguintes etapas:

No campo Computação, selecione um cluster executando o Databricks Runtime ML.
No menu suspenso Tipo de problema de ML, selecione Regressão ou Classificação. Se você estiver tentando prever um valor numérico contínuo para cada observação, como renda anual, selecione regressão. Se você estiver tentando atribuir cada observação a um conjunto discreto de classes, como risco de crédito bom ou risco de crédito ruim, selecione a classificação.
Em Conjunto de dados, selecione Procurar.
Navegue até a tabela que você deseja usar e clique em Selecionar. O esquema de tabela é exibido.
- No Databricks Runtime 10.3 ML e versões posteriores, você pode especificar quais colunas o AutoML deve usar para treinamento. Não é possível remover a coluna selecionada como o destino de previsão ou a coluna de tempo para dividir os dados.
- No Databricks Runtime 10.4 LTS ML e versões posteriores, você pode especificar como os valores nulos são imputados ao selecionar Impute com no menu suspenso. Por padrão, o AutoML seleciona um método de imputação com base no tipo de coluna e no conteúdo.
Observação

Se você especificar um método de imputação não padrão, o AutoML não executará a detecção de tipo semântico.
Clique no campo Destino de previsão. Uma lista suspensa é exibida com as colunas mostradas no esquema. Selecione a coluna que você deseja que o modelo preveja.
O campo Nome do experimento mostra o nome padrão. Para alterá-lo, digite o novo nome no campo.

Também é possível:

Especifique opções de configuração adicionais.
Use tabelas de recursos existentes no Repositório de Recursos para aumentar o conjunto de dados de entrada original.

Configurar problemas de previsão na interface do usuário

Você pode configurar um problema de previsão usando a interface do usuário do AutoML com as seguintes etapas:

No campo Computação, selecione um cluster em execução Databricks Runtime 10.0 ML ou superior.
No menu suspenso Tipo de problema de ML, selecione Previsão.
Em Conjunto de dados, clique em Procurar. Navegue até a tabela que você deseja usar e clique em Selecionar. O esquema de tabela é exibido.
Clique no campo Destino de previsão. Um menu suspenso será exibido listando as colunas mostradas no esquema. Selecione a coluna que você deseja que o modelo preveja.
Clique no campo Coluna de tempo. Uma lista suspensa é exibida mostrando as colunas do conjuntos de dados do tipo timestamp ou date. Selecione a coluna que contém os períodos para a série de temporal.
Para previsão de várias séries, selecione as colunas que identificam as séries temporais individuais no menu suspenso de Identificadores de séries temporais. O AutoML agrupa os dados por essas colunas como séries temporais diferentes e treina um modelo para cada série de forma independente. Se você deixar esse campo em branco, o AutoML assumirá que o conjuntos de dados contém uma única série temporal.
Nos campos Horizonte e frequência de previsão, especifique o número de períodos no futuro para os quais o AutoML deve calcular valores previstos. Na caixa à esquerda, insira o número inteiro de períodos a prever. Na caixa à direita, selecione as unidades.

Observação

Para usar o ARIMA automático, a série temporal deve ter uma frequência regular em que o intervalo entre dois pontos seja o mesmo em toda a série temporal. A frequência deve corresponder à unidade de frequência especificada na chamada à API ou na interface do usuário do AutoML. O AutoML trata das etapas de tempo ausentes preenchendo esses valores com o valor anterior.
No Databricks Runtime 11.3 LTS ML e superior, você pode salvar os resultados da previsão. Para fazer isso, especifique um banco de dados no campo Banco de Dados de Saída. Clique em Procurar e selecione um banco de dados na caixa de diálogo. O AutoML grava os resultados da previsão em uma tabela neste banco de dados.
O campo Nome do experimento mostra o nome padrão. Para alterá-lo, digite o novo nome no campo.

Também é possível:

Especifique opções de configuração adicionais.
Use tabelas de recursos existentes no Repositório de Recursos para aumentar o conjunto de dados de entrada original.

Usar tabelas de recursos existentes do Repositório de Recursos do Databricks

No Databricks Runtime 11.3 LTS ML e superior, você pode usar tabelas de recursos no Repositório de Recursos do Databricks para expandir o conjunto de dados de treinamento de entrada para seus problemas de classificação e regressão.

No Databricks Runtime 12.2 LTS ML e versões posteriores, você pode usar tabelas de recursos no Repositório de Recursos do Databricks para expandir o conjunto de dados de treinamento de entrada para todos os seus problemas do AutoML: classificação, regressão e previsão.

Para criar uma tabela de recursos, consulte Criar uma tabela de recursos no Catálogo do Unity ou Criar uma tabela de recursos no Repositório de Recursos do Databricks.

Depois de configurar o experimento do AutoML, você pode selecionar uma tabela de recursos usando as seguintes etapas:

Clique em Unir recursos (opcional).
Na página Unir Recursos Adicionais, selecione uma tabela de recursos no campo Tabela de Recursos.
Para cada Chave primária da tabela de recursos, selecione a chave de pesquisa correspondente. A chave de pesquisa deve ser uma coluna no conjunto de dados de treinamento que você forneceu para o experimento do AutoML.
Para tabelas de recursos de série temporal, selecione a chave de pesquisa de carimbo de data/hora correspondente. De forma semelhante, a chave de pesquisa do carimbo de data/hora deve ser uma coluna no conjunto de dados de treinamento que você forneceu para o experimento do AutoML.
Para adicionar mais tabelas de recursos, clique em Adicionar outra tabela e repita as etapas acima.

Configurações avançadas

Abra a seçãoConfiguração Avançada (opcional) para acessar esses parâmetros.

A métrica de avaliação é a principal métrica usada para pontuar as executações.
No Databricks Runtime 10.4 LTS ML e superior, você pode excluir estruturas de treinamento da consideração. Por padrão, o AutoML treina modelos usando estruturas listadas em Algoritmos AutoML.
Você pode editar as condições de interrupção. As condições de interrupção padrão são:
- Para experimentos de previsão, pare após 120 minutos.
- No Databricks Runtime 10.4 LTS ML e abaixo, para experiências de classificação e regressão, pare após 60 minutos ou após completar 200 ensaios, o que acontecer primeiro. Para o Databricks Runtime 11.0 ML e superior, o número de tentativas não é usado como condição de parada.
- No Databricks Runtime 10.4 LTS ML e superior, para experimentos de classificação e regressão, o AutoML incorpora parada antecipada; ele interrompe o treinamento e o ajuste de modelos se a métrica de validação não estiver mais melhorando.
No Databricks Runtime 10.4 LTS ML e superior, você pode selecionar uma coluna de tempo para dividir os dados para treinamento, validação e teste em ordem cronológica (aplica-se apenas à classificação e regressão).
O Databricks recomenda não preencher o campo do Diretório de dados. Isso dispara o comportamento padrão de armazenar com segurança o conjunto de dados como um artefato do MLflow. Um caminho DBFS pode ser especificado, mas, nesse caso, o conjunto de dados não herda as permissões de acesso do experimento AutoML.

Executar o experimento e monitorar os resultados

Para iniciar o experimento de AutoML, clique em Iniciar AutoML. O experimento começa a ser executado e a página de treinamento do AutoML é exibida. Para atualizar a tabela de execuções, clique no .

Nesta página, você pode:

Pare o experimento a qualquer momento.
Abra o notebook de exploração de dados.
Monitorar execuções
Navegue até a página de execução para qualquer execução.

Com Databricks Runtime 10.1 ML e superior, o AutoML exibe avisos sobre possíveis problemas com o conjuntos de dados, como tipos de coluna sem suporte ou colunas de alta cardinalidade.

Observação

O Databricks faz o melhor para indicar possíveis erros ou problemas. No entanto, isso pode não ser abrangente e pode não capturar os problemas ou erros que você está procurando.

Para ver os avisos do conjunto de dados, clique na guia Avisos na página de treinamento ou na página do experimento, após a conclusão do experimento.

Avisos do AutoML

Quando o experimento for concluído, você poderá:

Registrar e implantar um dos modelos com o MLflow.
Selecione Exibir notebook para o melhor modelo para revisar e editar o notebook que criou o melhor modelo.
Selecione Exibir notebook de exploração de dados para abrir o notebook de exploração de dados.
Pesquise, filtre e classificar as executações na tabela de executações.
Confira os detalhes de qualquer execução:
- O notebook gerado contendo o código-fonte para uma execução da avaliação gratuita pode ser encontrado clicando na execução do MLflow. O notebooks é salvo na seção Artefatos da página de execução. Você pode baixar esse notebook e importá-lo para o espaço de trabalho, se o download de artefatos estiver habilitado pelos administradores do seu espaço de trabalho.
- Para exibir os resultados da execução, clique na coluna Modelos ou na coluna Hora de Início. A página de execução será exibida, mostrando informações sobre a execução de avaliação (como parâmetros, métricas e marcas) e artefatos criados pela execução, incluindo o modelo. Esta página também inclui snippets de código que você pode usar para fazer previsões com o modelo.

Para retornar a esse experimento de AutoML mais tarde, encontre-o na tabela na página Experimentos. Os resultados de cada experimento de AutoML, incluindo os notebooks de treinamento e exploração de dados, são armazenados em uma pasta databricks_automl na pasta inicial do usuário que fez o experimento.

Registrar e implantar um modelo

Você pode registrar e implantar seu modelo com a interface do usuário do AutoML:

Selecione o link na coluna Modelos do modelo a ser registrado. Quando uma execução for concluída, a linha superior será o melhor modelo (com base na métrica primária).
Selecione o para registrar o modelo no Registro do modelo.
Selecione Modelos na barra lateral para navegar até o Registro de Modelo.
Selecione o nome do seu modelo na tabela de modelo.
Na página do modelo registrado, você pode servir o modelo com Serviço do Modelo.

Nenhum módulo chamado 'pandas.core.indexes.numeric

Ao servir um modelo criado usando o AutoML com o Serviço de Modelo, você pode receber o erro: No module named 'pandas.core.indexes.numeric.

Isso ocorre devido a uma versão incompatível pandas entre o AutoML e o modelo que atende ao ambiente de ponto de extremidade. Você pode resolve esse erro executando o script add-pandas-dependency.py. O script edita o requirements.txt e conda.yaml para que o modelo registrado inclua a versão de dependência apropriada pandas : pandas==1.5.3

Modifique o script para incluir o run_id da execução do MLflow em que o modelo foi registrado.
Registrar novamente o modelo no registro de modelo do MLflow.
Tente fornecer a nova versão do modelo MLflow.

Compartilhar via