Tutorial: Treinar um modelo de classificação com AutoML sem código no Estúdio do Azure Machine Learning
Saiba como treinar um modelo de classificação com AutoML sem código usando ML automatizada do Azure Machine Learning no Estúdio do Azure Machine Learning. Este modelo de classificação prevê se um cliente assinará um depósito a prazo fixo com uma instituição financeira.
Com o ML automatizado, você pode automatizar tarefas intensivas e demoradas. O aprendizado de máquina automatizado itera rapidamente em muitas combinações de algoritmos e hiperparâmetros para ajudar você a encontrar o melhor modelo com base em uma métrica de sucesso de sua escolha.
Você não escreverá código neste tutorial e usará a interface do estúdio para realizar o treinamento. Você aprenderá a realizar as seguintes tarefas:
- Criar um Workspace de Azure Machine Learning.
- Executar um experimento de aprendizado de máquina automatizado.
- Explore os detalhes do modelo.
- Implante o modelo recomendado.
Além disso, experimente o machine learning automatizado para estes outros tipos de modelo:
- Para ver um exemplo de previsão sem código, confira Tutorial: Previsão de demanda e AutoML.
- Para obter um primeiro exemplo de código de um modelo de detecção de objetos, confira o Tutorial: treinar um modelo de detecção de objetos com o AutoML e o Python.
Pré-requisitos
Uma assinatura do Azure. Se você não tiver uma assinatura do Azure, crie uma conta gratuita.
Baixe o arquivo de dados bankmarketing_train.csv. A coluna y indica se um cliente assinou um depósito a prazo fixo, que é posteriormente identificado como a coluna de destino para as previsões neste tutorial.
Criar um workspace
Um Workspace do Azure Machine Learning é o recurso fundamental na nuvem que você usa para experimentar, treinar e implantar modelos de machine learning. Ele vincula sua assinatura do Azure e o grupo de recursos a um objeto facilmente consumido no serviço.
Neste tutorial, conclua as etapas a seguir para criar um espaço de trabalho e continuar o tutorial.
Entre no Estúdio do Azure Machine Learning
Selecione Criar workspace
Forneça as informações a seguir para configurar o novo workspace:
Campo | Descrição |
---|---|
Nome do workspace | Insira um nome único que identifique seu workspace. Os nomes devem ser únicos em todo o grupo de recursos. Use um nome que seja fácil de lembrar e diferenciar de workspaces criados por outras pessoas. O nome do workspace não diferencia maiúsculas de minúsculas. |
Subscription | Selecione a assinatura do Azure que você deseja usar. |
Resource group | Use um grupo de recursos existente na sua assinatura ou insira um nome para criar um grupo de recursos. Um grupo de recursos mantém os recursos relacionados a uma solução do Azure. Você precisa de um colaborador ou da função de proprietário para usar um grupo de recursos existente. Para obter mais informações sobre o acesso, consulte Gerenciar acesso a um workspace do Azure Machine Learning. |
Região | Selecione a região do Azure mais próxima aos usuários e recursos de dados para criar o workspace. |
- Selecione Criar para criar o workspace
Para obter mais informações sobre os recursos do Azure, consulte as etapas neste artigo, Crie os recursos necessários para começar.
Para outras formas de criar um espaço de trabalho no Azure, Gerencie os espaços de trabalho do Azure Machine Learning no portal ou com o Python SDK (v2).
Criar um trabalho de Azure Machine Learning automatizado
Você concluiu a configuração do teste a seguir e executou as etapas usando o Estúdio do Azure Machine Learning em https://ml.azure.com, uma interface da Web consolidada que inclui ferramentas de machine learning para executar cenários de ciência de dados para praticantes dessa área com todos os níveis de habilidade. O estúdio não é compatível com navegadores Internet Explorer.
Selecione a assinatura e o workspace criado.
No painel esquerdo, selecione ML Automatizado na seção Criação.
Como este é seu primeiro experimento de ML automatizado, você verá uma lista vazia e links para a documentação.
Selecione + Novo trabalho de ML automatizado.
Selecione Treinar automaticamente
Selecione Iniciar trabalho de configuração
Na seção Nome do experimento, selecione a opção Criar novo e insira o nome do experimento:
my-1st-automl-experiment
Crie e carregue um conjunto de dados como um ativo de dados
Antes de configurar seu experimento, carregue seu arquivo de dados em seu espaço de trabalho na forma de um ativo de dados do Azure Machine Learning. No caso deste tutorial, você pode pensar em um ativo de dados como seu conjunto de dados para o trabalho do AutoML. Essa ação permite que você garanta que os dados estejam formatados corretamente para o experimento.
Selecione Classificação como seu tipo de tarefa.
Crie um novo ativo de dados selecionando Criar.
No formulário Informações Básicas, dê um nome ao ativo de dados e forneça uma descrição opcional. No momento, a interface de ML automatizado só dá suporte a TabularDatasets; portanto, o padrão do tipo de conjunto de dados deve ser Tabular.
Selecione Avançar na parte inferior esquerda
No formulário Seleção de armazenamento de dados e de arquivo, selecione o armazenamento de dados padrão que foi configurado automaticamente durante a criação do workspace, workspaceblobstore (Armazenamento de Blobs do Azure) . É nele que você carregará seu arquivo de dados para disponibilizá-lo ao workspace.
Selecione Carregar arquivos no menu suspenso Carregar.
Escolha o arquivo bankmarketing_train.csv no computador local. Esse é o arquivo que você baixou como pré-requisito.
Selecione Avançar no canto inferior esquerdo para fazer upload dele no contêiner padrão que foi configurado automaticamente durante a criação do workspace.
Após a conclusão do upload, o formulário Configurações e visualização será preenchido automaticamente com base no tipo de arquivo.
Verifique se seus dados estão devidamente formatados através do formulário Esquema. Os dados devem ser preenchidos da seguinte forma. Depois de verificar se os dados estão corretos, selecione Avançar.
Campo Descrição Valor para o tutorial Formato de arquivo Define o layout e o tipo de dados armazenados em um arquivo. Delimitado Delimitador Um ou mais caracteres para especificar o limite entre regiões separadas e independentes em texto sem formatação ou outros fluxos de dados. Vírgula Codificação Identifica qual tabela de esquema de bit para caractere usar para ler seu conjunto de dados. UTF-8 Cabeçalhos da coluna Indica como os cabeçalhos do conjunto de dados, se houver, serão tratados. Todos os arquivos têm os mesmos cabeçalhos Ignorar linhas Indica quantas linhas, se houver, serão ignoradas no conjunto de registros. Nenhum O formulário Esquema permite configurar ainda mais os dados do experimento. Neste exemplo, selecione o botão de alternância day_of_week para que ele não seja incluído. Selecione Avançar.
No formulário Confirmar detalhes, verifique se as informações correspondem ao que já foi populado nos formulários Informações básicas, Seleção de armazenamento de dados e arquivo e Configurações e visualização.
Selecione Criar para concluir a criação do conjunto de dados.
Selecione seu conjunto de dados quando ele aparecer na lista.
Revise os dados selecionando o ativo de dados e observando a guia visualizar que preenche para garantir que você não incluiu dia_da_semana e selecione Fechar.
Selecione Avançar.
Configurar trabalho
Depois de carregar e configurar seus dados, você poderá configurar seu experimento. Essa configuração inclui tarefas de design de experimento, como selecionar o tamanho do seu ambiente de computação e especificar qual coluna você deseja prever.
Preencha o formulário Configurar Trabalho da seguinte maneira:
Selecione y como a coluna de destino, o que você quer prever. Essa coluna indica se o cliente assinou um depósito a prazo ou não.
Selecione Exibir definições de configuração adicionais e preencha os campos da seguinte maneira. Essas configurações destinam-se a controlar melhor o trabalho de treinamento. Caso contrário, os padrões são aplicados com base na seleção e nos dados de experimento.
Configurações adicionais Descrição Valor para o tutorial Métrica principal Métrica de avaliação pela qual o algoritmo de aprendizado de máquina será medido. AUC_weighted Explicar o melhor modelo Mostra automaticamente a explicabilidade no melhor modelo criado pelo ML automatizado. Habilitar Algoritmos bloqueados Algoritmos que você deseja excluir do trabalho de treinamento Nenhum Configurações adicionais de classificação Essas configurações ajudam a aprimorar a precisão do modelo Rótulo de classe positiva: nenhum Critério de saída Se um critério for atendido, o trabalho de treinamento será interrompido. Tempo do trabalho de treinamento (horas): 1
Limite de pontuação da métrica: nenhumSimultaneidade O número máximo de iterações paralelas executadas por iteração Máximo de iterações simultâneas: 5 Selecione Salvar.
No formulário [Opcional] Validar e testar,
- Selecione a validação cruzada k-fold como seu Tipo de validação.
- Selecione 2 como Número de validações cruzadas.
Selecione Avançar
Selecione cluster de computação como seu tipo de computação.
Um destino de computação é um ambiente de recursos local ou baseado em nuvem usado para executar o script de treinamento ou hospedar a implantação do serviço. Para este experimento, você pode experimentar uma computação sem servidor baseada em nuvem (versão prévia) ou criar sua própria computação baseada em nuvem.
- Para usar a computação sem servidor, habilite a versão prévia do recurso, selecione Sem servidor e ignore o restante da etapa.
Para criar seu próprio destino de computação, selecione +Novo para configurar seu destino de computação.
Preencha o formulário Selecionar máquina virtual para configurar sua computação.
Campo Descrição Valor para o tutorial Location A região da qual você gostaria de executar o computador Oeste dos EUA 2 Tipo de máquina virtual Selecione a prioridade que o experimento deve ter Dedicado Tipo de máquina virtual Selecione o tipo da máquina virtual da computação. CPU (Unidade de Processamento Central) Tamanho da máquina virtual Selecione o tamanho da máquina virtual da computação. É fornecida uma lista de tamanhos recomendados com base em seus dados e no tipo de experimento. Standard_DS12_V2 Selecione Avançar para preencher o Formulário Definir configurações.
Campo Descrição Valor para o tutorial Nome da computação Um nome exclusivo que identifique o contexto de computação. automl-compute Mín./máx. de nós Para analisar os dados, é necessário especificar um ou mais nós. Número mín. de nós: 1
Número máx. de nós: 6Segundos de espera antes de reduzir verticalmente Tempo de espera antes que o cluster seja reduzido verticalmente automaticamente para a contagem mínima de nós. 120 (padrão) Configurações avançadas Definições para configurar e autorizar uma rede virtual para seu experimento. Nenhum Selecione Criar para criar o destino de computação.
Isso levará alguns minutos para ser concluído.
Após a criação, selecione o novo destino de computação na lista suspensa.
- Para usar a computação sem servidor, habilite a versão prévia do recurso, selecione Sem servidor e ignore o restante da etapa.
Selecione Avançar.
Selecione Enviar trabalho de treinamento para executar o experimento. A tela Visão geral do trabalho é aberta com o Status do trabalho na parte superior, à medida que a preparação do experimento é iniciada. Esse status é atualizado conforme o progresso do experimento. Também aparecem notificações no canto superior direito do estúdio para informar você sobre o status do experimento.
Importante
A preparação leva de 10 a 15 minutos para preparar a execução do experimento.
Durante a execução, são necessários mais 2 a 3 minutos para cada iteração.
Em produção, provavelmente, isso demorará mais. Mas para este tutorial, sugerimos que você comece a explorar os algoritmos testados na guia Modelos conforme eles são concluídos, enquanto os outros ainda estão em execução.
Explorar modelos
Navegue até a guia Modelos para ver os algoritmos (modelos) testados. Por padrão, os modelos são ordenados pela pontuação da métrica à medida que são concluídos. Por este tutorial, o modelo com a pontuação mais alta de acordo com a métrica AUC_weighted escolhida é exibida no início da lista.
Enquanto você aguarda a conclusão de todos os modelos de experimento, selecione o Nome do algoritmo de um modelo concluído para explorar seus detalhes de desempenho.
O exemplo a seguir navega pelas guias Detalhes e Métricas para exibir as propriedades, as métricas e os gráficos de desempenho do modelo selecionado.
Explicações de modelo
Enquanto aguarda a conclusão dos modelos, você também pode dar uma olhada nas explicações de modelo e ver quais recursos de dados (brutos ou com engenharia) influenciaram as previsões de um modelo específico.
Essas explicações de modelo podem ser geradas sob demanda e estão resumidas no painel de explicações do modelo que faz parte da guia Explicações (versão prévia).
Para gerar explicações de modelo:
Selecione Trabalho 1 na parte superior para voltar para a tela Modelos.
Selecione a guia Modelo.
Para esse tutorial, selecione o primeiro modelo MaxAbsScaler, LightGBM.
Selecione o botão Explicar modelo na parte superior. À direita, o painel Explicar modelo é exibido.
Selecione o automl-compute que você criou anteriormente. Esse cluster de cálculo inicia um trabalho filho para gerar as explicações de modelo.
Selecione Criar na parte inferior. Uma mensagem de êxito em verde é exibida na parte superior da tela.
Observação
O trabalho de explicação leva cerca de 2 a 5 minutos para ser concluído.
Selecione o botão Explicações (versão prévia) . Essa guia será preenchida assim que a execução da explicação for concluída.
No lado esquerdo, expanda o painel e selecione a linha que diz bruto em Recursos.
Selecione a guia Importância do recurso agregado à direita. Esse gráfico mostra quais recursos de dados influenciaram as previsões do modelo selecionado.
Nesse exemplo, a duração parece ter mais influência sobre as previsões desse modelo.
Implantar o melhor modelo
A interface de machine learning automatizado permite que você implante o melhor modelo como um serviço Web em algumas etapas. A implantação é a integração do modelo para que ele possa prever novos dados e identificar possíveis áreas de oportunidade.
Para este experimento, a implantação em um serviço Web significa que a instituição financeira agora tem uma solução Web iterativa e escalonável para identificar clientes potenciais para depósito a prazo fixo.
Verifique se a execução experimental foi concluída. Para fazer isso, volte para a página do trabalho pai selecionando Trabalho 1 na parte superior da sua tela. Um status Concluído é mostrado na parte superior esquerda da tela.
Quando a execução experimental for concluída, a página Detalhes será populada com uma seção Resumo do melhor modelo. Nesse contexto de experimento, VotingEnsemble é considerado o melhor modelo, com base na métrica AUC_weighted.
Implantamos esse modelo, mas saiba que a implantação demora cerca de 20 minutos para ser concluída. O processo de implantação envolve várias etapas, incluindo o registro do modelo, a geração de recursos e a configuração deles para o serviço Web.
Selecione VotingEnsemble para abrir a página específica do modelo.
Selecione o menu Implantar no canto superior esquerdo e selecione Implantar no serviço Web.
Preencha o painel Implantar um Modelo da seguinte maneira:
Campo Valor Nome da implantação my-automl-deploy Descrição da implantação Minha primeira implantação de experimento de aprendizado de máquina automatizado Tipo de computação Selecionar ACI (Instância de Contêiner do Azure) Habilitar autenticação Desabilite. Usar implantações personalizadas Desabilite. Permite que o arquivo de driver padrão (script de pontuação) e o arquivo de ambiente sejam gerados automaticamente. Para este exemplo, usamos os padrões fornecidos no menu Avançado.
Selecione Implantar.
Uma mensagem de sucesso verde aparece na parte superior da tela Trabalho e, no painel Resumo de modelo, uma mensagem de status é exibida em Status de implantação. Selecione Atualizar periodicamente para verificar o status da implantação.
Agora você tem um serviço Web operacional para gerar previsões.
Vá para as Próximas Etapas para saber mais sobre como consumir seu novo serviço Web e testar as previsões usando o suporte interno do Power BI ao Azure Machine Learning.
Limpar os recursos
Os arquivos de implantação são maiores que os dados e os arquivos de teste, portanto, eles custam mais para serem armazenados. Exclua somente os arquivos de implantação para minimizar os custos de sua conta ou se você quiser manter o workspace e os arquivos do experimento. Caso contrário, se você não planeja usar nenhum dos arquivos, exclua o grupo de recursos inteiro.
Excluir a instância de implantação
Exclua apenas a instância de implantação do Azure Machine Learning em https://ml.azure.com/ se desejar manter o grupo de recursos e o workspace para outros tutoriais e explorações.
Acesse Azure Machine Learning. Navegue até o workspace e, no lado esquerdo, no painel Ativos, selecione Pontos de extremidade.
Selecione a implantação que você deseja excluir e selecione Excluir.
Selecione Continuar.
Exclua o grupo de recursos
Importante
Os recursos que você criou podem ser usados como pré-requisitos em outros tutoriais e artigos de instruções do Azure Machine Learning.
Se você não pretende usar nenhum dos recursos criados, exclua-os para não gerar custos:
No portal do Azure, selecione Grupos de recursos no canto esquerdo.
Selecione o grupo de recursos que você criou por meio da lista.
Selecione Excluir grupo de recursos.
Insira o nome do grupo de recursos. Em seguida, selecione Excluir.
Próximas etapas
Neste tutorial de machine learning automatizado, você usou a interface de ML automatizado do Azure Machine Learning para criar e implantar um modelo de classificação. Confira estes artigos para obter mais informações e ver as próximas etapas:
- Saiba mais sobre o aprendizado de máquina automatizado.
- Para saber mais sobre métricas e gráficos de classificação, confira o artigo Noções básicas sobre os resultados de machine learning automatizado.
- Saiba mais sobre como configurar o AutoML para NLP.
Observação
Esse conjunto de dados de marketing bancário é disponibilizado sob a licença Creative Commons (CCO: Domínio Público). Todos os direitos no conteúdo individual do banco de dados são licenciados sob a Licença de Conteúdo do Banco de Dados e estão disponíveis no Kaggle. Esse conjunto de dados estava originalmente disponível no banco de dados de aprendizado de máquina da UCI.
[Moro et al., 2014] S. Moro, P. Cortez and P. Rita. Uma abordagem controlada por dados para prever o sucesso do telemarketing bancário. Sistemas de suporte a decisões, Elsevier, 62:22-31, junho de 2014.