Tutorial: Treinar um modelo de classificação com AutoML sem código no estúdio do Azure Machine Learning

Artigo
01/10/2024

Saiba como treinar um modelo de classificação com AutoML sem código usando o ML automatizado do Azure Machine Learning no estúdio do Azure Machine Learning. Este modelo de classificação prevê se um cliente irá subscrever um depósito a prazo fixo numa instituição financeira.

Com o ML automatizado, você pode automatizar tarefas que exigem muito tempo. O aprendizado de máquina automatizado itera rapidamente em muitas combinações de algoritmos e hiperparâmetros para ajudá-lo a encontrar o melhor modelo com base em uma métrica de sucesso de sua escolha.

Você não escreverá nenhum código neste tutorial, você usará a interface do estúdio para realizar treinamento. Você aprenderá a fazer as seguintes tarefas:

Crie um espaço de trabalho do Azure Machine Learning.
Executar uma experimentação de machine learning automatizado.
Explore os detalhes do modelo.
Implante o modelo recomendado.

Experimente também o aprendizado de máquina automatizado para esses outros tipos de modelo:

Para obter um exemplo sem código de previsão, consulte Tutorial: Previsão de demanda & AutoML.
Para obter um primeiro exemplo de código de um modelo de deteção de objeto, consulte o Tutorial: Treinar um modelo de deteção de objeto com AutoML e Python,

Pré-requisitos

Uma subscrição do Azure. Se não tiver uma subscrição do Azure, crie uma conta gratuita.
Transfira o ficheiro de dados bankmarketing_train.csv . A coluna y indica se um cliente subscreveu um depósito a prazo fixo, que é posteriormente identificado como a coluna alvo para previsões neste tutorial.

Criar uma área de trabalho

Um espaço de trabalho do Azure Machine Learning é um recurso fundamental na nuvem que você usa para experimentar, treinar e implantar modelos de aprendizado de máquina. Ele vincula sua assinatura do Azure e seu grupo de recursos a um objeto facilmente consumido no serviço.

Neste tutorial, conclua as etapas a seguir para criar um espaço de trabalho e continue o tutorial.

Entrar no estúdio do Azure Machine Learning
Selecione Criar espaço de trabalho
Forneça as seguintes informações para configurar seu novo espaço de trabalho:

Campo	Descrição
Nome da área de trabalho	Insira um nome exclusivo que identifique seu espaço de trabalho. Os nomes devem ser exclusivos em todo o grupo de recursos. Use um nome fácil de lembrar e diferenciar de espaços de trabalho criados por outras pessoas. O nome do espaço de trabalho não diferencia maiúsculas de minúsculas.
Subscrição	Selecione a subscrição do Azure que pretende utilizar.
Grupo de recursos	Utilize um grupo de recursos já existente na sua subscrição ou introduza um nome para criar um grupo de recursos novo. Um grupo de recursos contém recursos relacionados para uma solução do Azure. Você precisa da função de colaborador ou proprietário para usar um grupo de recursos existente. Para obter mais informações sobre acesso, consulte Gerenciar o acesso a um espaço de trabalho do Azure Machine Learning.
País/Região	Selecione a região do Azure mais próxima de seus usuários e os recursos de dados para criar seu espaço de trabalho.

Selecione Criar para criar o espaço de trabalho

Para obter mais informações sobre os recursos do Azure, consulte as etapas neste artigo, Criar recursos que você precisa para começar.

Para outras maneiras de criar um espaço de trabalho no Azure, gerencie espaços de trabalho do Azure Machine Learning no portal ou com o SDK do Python (v2).

Criar um trabalho de Aprendizado de Máquina Automatizado

Você conclui a configuração do experimento a seguir e executa etapas por meio do estúdio de Aprendizado de Máquina do Azure em https://ml.azure.com, uma interface Web consolidada que inclui ferramentas de aprendizado de máquina para executar cenários de ciência de dados para profissionais de ciência de dados de todos os níveis de habilidade. O estúdio não é suportado em navegadores Internet Explorer.

Selecione sua assinatura e o espaço de trabalho que você criou.
No painel esquerdo, selecione ML automatizado na seção Criação.

Como este é seu primeiro experimento de ML automatizado, você verá uma lista vazia e links para a documentação.
Selecione +Novo trabalho de ML automatizado.

Criar e carregar um conjunto de dados como um ativo de dados

Antes de configurar seu experimento, carregue seu arquivo de dados em seu espaço de trabalho na forma de um ativo de dados do Azure Machine Learning. No caso deste tutorial, você pode pensar em um ativo de dados como seu conjunto de dados para o trabalho AutoML. Isso permite que você garanta que seus dados sejam formatados adequadamente para seu experimento.

Crie um novo ativo de dados selecionando De arquivos locais na lista suspensa +Criar ativo de dados.

No formulário Informações básicas, dê um nome ao seu ativo de dados e forneça uma descrição opcional. Atualmente, a interface de ML automatizada suporta apenas TabularDatasets, portanto, o tipo de conjunto de dados deve usar como padrão Tabular.
Selecione Avançar no canto inferior esquerdo
No formulário Armazenamento de dados e seleção de arquivos, selecione o armazenamento de dados padrão que foi configurado automaticamente durante a criação do espaço de trabalho, workspaceblobstore (Armazenamento de Blobs do Azure). É aqui que você carregará seu arquivo de dados para disponibilizá-lo ao seu espaço de trabalho.
Selecione Carregar arquivos na lista suspensa Carregar .
Escolha o arquivo bankmarketing_train.csv no computador local. Este é o arquivo que você baixou como pré-requisito.
Selecione Avançar no canto inferior esquerdo para carregá-lo no contêiner padrão que foi configurado automaticamente durante a criação do espaço de trabalho.

Quando o carregamento estiver concluído, o formulário Configurações e visualização será pré-preenchido com base no tipo de arquivo.

Verifique se seus dados estão formatados corretamente por meio do formulário Esquema . Os dados devem ser preenchidos da seguinte forma. Depois de verificar se os dados estão corretos, selecione Avançar.

Campo	Descrição	Valor para tutorial
File format	Define o layout e o tipo de dados armazenados em um arquivo.	Delimitado
Delimitador	Um ou mais caracteres para especificar o limite entre regiões separadas e independentes em texto sem formatação ou outros fluxos de dados.	Comma
Codificação	Identifica qual tabela de esquema de bit a caractere usar para ler seu conjunto de dados.	UTF-8
Cabeçalhos de coluna	Indica como os cabeçalhos do conjunto de dados, se houver, serão tratados.	Todos os ficheiros têm os mesmos cabeçalhos
Saltar filas	Indica quantas linhas, se houver, são ignoradas no conjunto de dados.	Nenhuma

O formulário Esquema permite a configuração adicional de seus dados para este experimento. Para este exemplo, selecione o interruptor de alternância para o day_of_week, de modo a não incluí-lo. Selecione Seguinte.
No formulário Confirmar detalhes, verifique se as informações correspondem ao que foi preenchido anteriormente nos formulários Informações básicas, Armazenamento de dados e seleção de arquivos e Configurações e visualização.
Selecione Criar para concluir a criação do conjunto de dados.
Selecione seu conjunto de dados assim que ele aparecer na lista.
Revise os dados selecionando o ativo de dados e examinando a guia de visualização que é preenchida para garantir que você não incluiu day_of_week em seguida, selecione Fechar.
Selecione Seguinte.

Configurar trabalho

Depois de carregar e configurar os dados, você pode configurar o experimento. Essa configuração inclui tarefas de design de experimento, como selecionar o tamanho do seu ambiente de computação e especificar qual coluna você deseja prever.

Selecione o botão de opção Criar novo .

Preencha o formulário Configurar trabalho da seguinte maneira:

Insira o nome deste experimento: my-1st-automl-experiment
Selecione y como a coluna de destino, o que você deseja prever. Esta coluna indica se o cliente subscreveu ou não um depósito a prazo.
Selecione o cluster de computação como seu tipo de computação.

Um destino de computação é um ambiente de recursos local ou baseado em nuvem usado para executar seu script de treinamento ou hospedar sua implantação de serviço. Para este experimento, você pode tentar uma computação sem servidor baseada em nuvem (visualização) ou criar sua própria computação baseada em nuvem.

Para usar a computação sem servidor, habilite o recurso de visualização, selecione Sem servidor e ignore o restante desta etapa.

Para criar seu próprio destino de computação, selecione +Novo para configurar seu destino de computação.

Preencha o formulário Selecionar máquina virtual para configurar sua computação.

Campo	Descrição	Valor para tutorial
Localização	A sua região a partir da qual pretende executar a máquina	E.U.A. Oeste 2
Camada de máquina virtual	Selecione a prioridade que seu experimento deve ter	Dedicada
Tipo de máquina virtual	Selecione o tipo de máquina virtual para sua computação.	CPU (Unidade Central de Processamento)
Tamanho da máquina virtual	Selecione o tamanho da máquina virtual para sua computação. Uma lista de tamanhos recomendados é fornecida com base em seus dados e tipo de experimento.	Standard_DS12_V2

Selecione Avançar para preencher o formulário Configurar configurações.

Campo	Descrição	Valor para tutorial
Nome da computação	Um nome exclusivo que identifica seu contexto de computação.	Automl-Compute
Nós Min / Max	Para criar um perfil, você deve especificar 1 ou mais nós.	Nós mínimos: 1 Nós máximos: 6
Segundos ociosos antes de reduzir a escala	Tempo ocioso antes que o cluster seja automaticamente reduzido para a contagem mínima de nós.	120 (padrão)
Definições avançadas	Configurações para configurar e autorizar uma rede virtual para seu experimento.	Nenhuma

Selecione Criar para criar seu destino de computação.

Isso leva alguns minutos para ser concluído.
Após a criação, selecione seu novo destino de computação na lista suspensa.

Selecione Seguinte.

No formulário Selecionar tarefa e configurações, conclua a configuração para seu experimento de ML automatizado especificando o tipo de tarefa de aprendizado de máquina e as definições de configuração.

Selecione Classificação como o tipo de tarefa de aprendizado de máquina.

Selecione Exibir definições de configuração adicionais e preencha os campos da seguinte maneira. Estas configurações destinam-se a controlar melhor o trabalho de formação. Caso contrário, os padrões são aplicados com base na seleção e nos dados do experimento.

Configurações adicionais	Description	Valor para tutorial
Métrica primária	Métrica de avaliação pela qual o algoritmo de aprendizado de máquina será medido.	AUC_weighted
Explicar o melhor modelo	Mostra automaticamente a explicabilidade no melhor modelo criado pelo ML automatizado.	Ativar
Algoritmos bloqueados	Algoritmos que pretende excluir do trabalho de formação	Nenhuma
Configurações de classificação adicionais	Estas definições ajudam a melhorar a precisão do seu modelo	Rótulo de classe positiva: Nenhum
Critério de saída	Se um critério for cumprido, o trabalho de formação é interrompido.	Tempo de trabalho de formação (horas): 1 Limite de pontuação métrica: Nenhum
Simultaneidade	O número máximo de iterações paralelas executadas por iteração	Máximo de iterações simultâneas: 5

Selecione Guardar.

Selecione Seguinte.

No formulário [Opcional] Validar e testar,
1. Selecione k-fold cross-validation como seu tipo de validação.
2. Selecione 2 como o número de validações cruzadas.
Selecione Concluir para executar o experimento. A tela Detalhes do trabalho é aberta com o status do trabalho na parte superior quando a preparação do experimento começa. Esse status é atualizado à medida que o experimento progride. As notificações também aparecem no canto superior direito do estúdio para informá-lo sobre o status do seu experimento.

Importante

A preparação leva de 10 a 15 minutos para preparar a corrida do experimento. Uma vez em execução, leva de 2 a 3 minutos a mais para cada iteração.

Na produção, você provavelmente se afastaria um pouco. Mas para este tutorial, sugerimos que você comece a explorar os algoritmos testados na guia Modelos à medida que eles são concluídos enquanto os outros ainda estão em execução.

Explore modelos

Navegue até a guia Modelos para ver os algoritmos (modelos) testados. Por padrão, os modelos são ordenados por pontuação métrica à medida que são concluídos. Para este tutorial, o modelo que obtém a pontuação mais alta com base na métrica de AUC_weighted escolhida está no topo da lista.

Enquanto aguarda a conclusão de todos os modelos de experimento, selecione o Nome do algoritmo de um modelo concluído para explorar seus detalhes de desempenho.

O texto a seguir navega pelas guias Detalhes e Métricas para exibir as propriedades, métricas e gráficos de desempenho do modelo selecionado.

Run iteration detail

Explicações do modelo

Enquanto aguarda a conclusão dos modelos, você também pode dar uma olhada nas explicações do modelo e ver quais recursos de dados (brutos ou projetados) influenciaram as previsões de um modelo específico.

Essas explicações do modelo podem ser geradas sob demanda e são resumidas no painel de explicações do modelo que faz parte da guia Explicações (visualização).

Para gerar explicações do modelo,

Selecione Trabalho 1 na parte superior para navegar de volta para a tela Modelos .
Selecione a guia Modelos .
Para este tutorial, selecione o primeiro modelo MaxAbsScaler, LightGBM .
Selecione o botão Explicar modelo na parte superior. À direita, o painel Explicar modelo é exibido.
Selecione o automl-compute que você criou anteriormente. Esse cluster de computação inicia um trabalho filho para gerar as explicações do modelo.
Selecione Criar na parte inferior. Uma mensagem verde de sucesso aparece na parte superior da tela.

Nota

O trabalho de explicabilidade leva cerca de 2 a 5 minutos para ser concluído.
Selecione o botão Explicações (visualização). Esta guia é preenchida assim que a execução de explicabilidade é concluída.
No lado esquerdo, expanda o painel e selecione a linha que diz raw em Recursos.
Selecione a guia Agregar importância do recurso à direita. Este gráfico mostra quais características de dados influenciaram as previsões do modelo selecionado.

Neste exemplo, a duração parece ter a maior influência nas previsões deste modelo.

Implante o melhor modelo

A interface de aprendizado de máquina automatizada permite que você implante o melhor modelo como um serviço Web em algumas etapas. Implantação é a integração do modelo para que ele possa prever novos dados e identificar potenciais áreas de oportunidade.

Para esta experiência, a implementação num serviço Web significa que a instituição financeira tem agora uma solução Web iterativa e escalável para identificar potenciais clientes de depósitos a prazo fixo.

Verifique se a execução do experimento foi concluída. Para fazer isso, navegue de volta para a página de trabalho pai selecionando Trabalho 1 na parte superior da tela. Um status Concluído é mostrado no canto superior esquerdo da tela.

Quando a execução do experimento estiver concluída, a página Detalhes será preenchida com uma seção Resumo do melhor modelo. Neste contexto experimental, o VotingEnsemble é considerado o melhor modelo, com base na métrica AUC_weighted .

Implantamos esse modelo, mas esteja avisado, a implantação leva cerca de 20 minutos para ser concluída. O processo de implantação envolve várias etapas, incluindo o registro do modelo, a geração de recursos e a configuração deles para o serviço Web.

Selecione VotingEnsemble para abrir a página específica do modelo.
Selecione o menu Implantar no canto superior esquerdo e selecione Implantar no serviço Web.

Preencha o painel Implantar um modelo da seguinte maneira:

Campo	Value
Nome da implementação	my-automl-deploy
Descrição da implantação	Minha primeira implantação de experimento automatizado de aprendizado de máquina
Tipo de computação	Selecione a Instância de Contêiner do Azure (ACI)
Ative a autenticação	Desativar.
Usar implantações personalizadas	Desativar. Permite que o arquivo de driver padrão (script de pontuação) e o arquivo de ambiente sejam gerados automaticamente.

Para este exemplo, usamos os padrões fornecidos no menu Avançado .

Selecione Implementar.

Uma mensagem verde de êxito aparece na parte superior da tela Trabalho e, no painel Resumo do modelo, uma mensagem de status aparece em Status de implantação. Selecione Atualizar periodicamente para verificar o status da implantação.

Agora você tem um serviço Web operacional para gerar previsões.

Prossiga para as Próximas Etapas para saber mais sobre como consumir seu novo serviço Web e testar suas previsões usando o suporte interno do Aprendizado de Máquina do Azure do Power BI.

Clean up resources (Limpar recursos)

Os arquivos de implantação são maiores do que os arquivos de dados e experimentos, portanto, custam mais para armazenar. Exclua apenas os arquivos de implantação para minimizar os custos para sua conta ou se quiser manter seus arquivos de espaço de trabalho e experimento. Caso contrário, exclua todo o grupo de recursos, se você não planeja usar nenhum dos arquivos.

Excluir a instância de implantação

Exclua apenas a instância de implantação do Aprendizado de Máquina do Azure no https://ml.azure.com/, se quiser manter o grupo de recursos e o espaço de trabalho para outros tutoriais e exploração.

Vá para Azure Machine Learning. Navegue até o espaço de trabalho e, à esquerda, no painel Ativos , selecione Pontos de extremidade.
Selecione a implantação que deseja excluir e selecione Excluir.
Selecione Continuar.

Eliminar o grupo de recursos

Importante

Os recursos que você criou podem ser usados como pré-requisitos para outros tutoriais e artigos de instruções do Azure Machine Learning.

Se você não planeja usar nenhum dos recursos que criou, exclua-os para não incorrer em cobranças:

No portal do Azure, selecione Grupos de recursos na extremidade esquerda.
Na lista, selecione o grupo de recursos que você criou.
Selecione Eliminar grupo de recursos.
Insira o nome do grupo de recursos. Em seguida, selecione Eliminar.

Próximos passos

Neste tutorial de aprendizado de máquina automatizado, você usou a interface de ML automatizada do Azure Machine Learning para criar e implantar um modelo de classificação. Consulte estes artigos para obter mais informações e as próximas etapas:

Consumir um serviço Web

Saiba mais sobre o aprendizado de máquina automatizado.
Para obter mais informações sobre métricas e gráficos de classificação, consulte o artigo Compreender os resultados do aprendizado de máquina automatizado.

Nota

Este conjunto de dados de Marketing Bancário é disponibilizado sob a Licença Creative Commons (CCO: Domínio Público). Quaisquer direitos sobre o conteúdo individual do banco de dados são licenciados sob a Licença de Conteúdo do Banco de Dados e estão disponíveis no Kaggle. Este conjunto de dados estava originalmente disponível no UCI Machine Learning Database.

[Moro et al., 2014] S. Moro, P. Cortez e P. Rita. Uma abordagem orientada por dados para prever o sucesso do telemarketing bancário. Decision Support Systems, Elsevier, 62:22-31, junho de 2014.