Configurar o treinamento AutoML sem código para dados tabulares com a interface do usuário do estúdio

Neste artigo, você aprenderá a configurar trabalhos de treinamento do AutoML sem uma única linha de código usando o ML automatizado do Azure Machine Learning no estúdio do Azure Machine Learning.

O aprendizado de máquina automatizado, AutoML, é um processo no qual o melhor algoritmo de aprendizado de máquina para usar para seus dados específicos é selecionado para você. Esse processo permite gerar modelos de aprendizado de máquina rapidamente. Saiba mais sobre como o Azure Machine Learning implementa o aprendizado de máquina automatizado.

Para obter um exemplo de ponta a ponta, tente o Tutorial: AutoML- train no-code classification models.

Para uma experiência baseada em código Python, configure seus experimentos automatizados de aprendizado de máquina com o SDK do Azure Machine Learning.

Pré-requisitos

Começar

  1. Entre no estúdio do Azure Machine Learning.

  2. Selecione sua assinatura e espaço de trabalho.

  3. Navegue até o painel esquerdo. Selecione ML automatizado na seção Criação .

Azure Machine Learning studio navigation pane

Se esta é a primeira vez que você faz algum experimento, você verá uma lista vazia e links para a documentação.

Caso contrário, você verá uma lista de seus experimentos de ML automatizados recentes, incluindo aqueles criados com o SDK.

Criar e executar experiências

  1. Selecione + Novo trabalho de ML automatizado e preencha o formulário.

  2. Selecione um ativo de dados no contêiner de armazenamento ou crie um novo ativo de dados. O ativo de dados pode ser criado a partir de arquivos locais, URLs da Web, armazenamentos de dados ou conjuntos de dados abertos do Azure. Saiba mais sobre a criação de ativos de dados.

    Importante

    Requisitos dos dados de preparação:

    • Os dados devem estar em forma de tabela.
    • O valor que você deseja prever (coluna de destino) deve estar presente nos dados.
    1. Para criar um novo conjunto de dados a partir de um ficheiro no computador local, selecione +Criar conjunto de dados e, em seguida, selecione Do ficheiro local.

    2. Selecione Avançar para abrir o Armazenamento de dados e o formulário de seleção de arquivos. , você seleciona onde carregar seu conjunto de dados; O contêiner de armazenamento padrão que é criado automaticamente com seu espaço de trabalho ou escolha um contêiner de armazenamento que você deseja usar para o experimento.

      1. Se seus dados estiverem atrás de uma rede virtual, você precisará habilitar a função ignorar a validação para garantir que o espaço de trabalho possa acessar seus dados. Para obter mais informações, consulte Usar o estúdio do Azure Machine Learning em uma rede virtual do Azure.
    3. Selecione Procurar para carregar o arquivo de dados para seu conjunto de dados.

    4. Revise o formulário Configurações e visualização para obter precisão. O formulário é preenchido de forma inteligente com base no tipo de arquivo.

      Campo Descrição
      File format Define o layout e o tipo de dados armazenados em um arquivo.
      Delimitador Um ou mais caracteres para especificar o limite entre regiões separadas e independentes em texto sem formatação ou outros fluxos de dados.
      Codificação Identifica qual tabela de esquema de bit a caractere usar para ler seu conjunto de dados.
      Cabeçalhos de coluna Indica como os cabeçalhos do conjunto de dados, se houver, serão tratados.
      Saltar filas Indica quantas linhas, se houver, são ignoradas no conjunto de dados.

      Selecione Seguinte.

    5. O formulário Esquema é preenchido de forma inteligente com base nas seleções no formulário Configurações e visualização . Aqui configure o tipo de dados para cada coluna, revise os nomes das colunas e selecione quais colunas não incluir para seu experimento.

      Selecione Seguinte.

    6. O formulário Confirmar detalhes é um resumo das informações preenchidas anteriormente nos formulários Informações básicas e Configurações e visualização . Você também tem a opção de criar um perfil de dados para seu conjunto de dados usando uma computação habilitada para criação de perfil.

      Selecione Seguinte.

  3. Selecione seu conjunto de dados recém-criado assim que ele aparecer. Você também pode visualizar uma visualização do conjunto de dados e estatísticas de exemplo.

  4. No formulário Configurar trabalho, selecione Criar novo e digite Tutorial-automl-deploy para o nome do experimento.

  5. Selecione uma coluna de destino; Esta é a coluna sobre a qual você gostaria de fazer previsões.

  6. Selecione um tipo de computação para o trabalho de treinamento e criação de perfil de dados. Você pode selecionar um cluster de computação ou uma instância de computação.

  7. Selecione um cálculo na lista suspensa de seus cálculos existentes. Para criar um novo cálculo, siga as instruções na etapa 8.

  8. Selecione Criar uma nova computação para configurar seu contexto de computação para este experimento.

    Campo Descrição
    Nome da computação Insira um nome exclusivo que identifique seu contexto de computação.
    Prioridade da máquina virtual As máquinas virtuais de baixa prioridade são mais baratas, mas não garantem os nós de computação.
    Tipo de máquina virtual Selecione CPU ou GPU para o tipo de máquina virtual.
    Tamanho da máquina virtual Selecione o tamanho da máquina virtual para sua computação.
    Nós Min / Max Para criar um perfil, você deve especificar um ou mais nós. Insira o número máximo de nós para sua computação. O padrão é seis nós para uma computação do Azure Machine Learning.
    Definições avançadas Essas configurações permitem que você configure uma conta de usuário e uma rede virtual existente para seu experimento.

    Selecione Criar. A criação de um novo cálculo pode levar alguns minutos.

    Selecione Seguinte.

  9. No formulário Tipo de tarefa e configurações, selecione o tipo de tarefa: classificação, regressão ou previsão. Consulte os tipos de tarefas suportados para obter mais informações.

    1. Para classificação, você também pode habilitar o deep learning.

    2. Para a previsão , você pode,

      1. Habilite o deep learning.

      2. Selecionar coluna de tempo: esta coluna contém os dados de tempo a serem usados.

      3. Selecionar horizonte de previsão: indique quantas unidades de tempo (minutos/horas/dias/semanas/meses/anos) o modelo será capaz de prever para o futuro. Quanto mais para o futuro o modelo é obrigado a prever, menos preciso o modelo se torna. Saiba mais sobre previsão e horizonte de previsão.

  10. (Opcional) Ver definições de configuração adicionais: definições adicionais que pode utilizar para controlar melhor o trabalho de formação. Caso contrário, os padrões são aplicados com base na seleção e nos dados do experimento.

    Configurações adicionais Description
    Métrica primária Principal métrica usada para pontuar seu modelo. Saiba mais sobre métricas de modelo.
    Ativar empilhamento de conjunto O Ensemble Learning melhora os resultados do aprendizado de máquina e o desempenho preditivo combinando vários modelos em vez de usar modelos únicos. Saiba mais sobre modelos de conjuntos.
    Modelos bloqueados Selecione os modelos que deseja excluir do trabalho de treinamento.

    A permissão de modelos só está disponível para experimentos SDK.
    Consulte os algoritmos suportados para cada tipo de tarefa.
    Explicar o melhor modelo Mostra automaticamente a explicabilidade no melhor modelo criado pelo ML automatizado.
    Rótulo de classe positiva Rótulo que o ML automatizado usará para calcular métricas binárias.
  11. (Opcional) Exibir configurações de featurização: se você optar por habilitar a featurização automática no formulário Definições de configuração adicionais, as técnicas de featurização padrão serão aplicadas. Nas configurações de featurização, você pode alterar esses padrões e personalizar de acordo. Saiba como personalizar featurizações.

    Screenshot shows the Select task type dialog box with View featurization settings called out.

  12. O formulário Limites [Opcionais] permite que você faça o seguinte.

    Opção Description
    Máximo de ensaios Número máximo de testes, cada um com uma combinação diferente de algoritmo e hiperparâmetros para tentar durante o trabalho AutoML. Deve ser um número inteiro entre 1 e 1000.
    Ensaios simultâneos máximos Número máximo de trabalhos de avaliação que podem ser executados em paralelo. Deve ser um número inteiro entre 1 e 1000.
    Nós máximos Número máximo de nós que este trabalho pode usar a partir do destino de computação selecionado.
    Limiar de pontuação métrica Quando esse valor limite for atingido para uma métrica de iteração, o trabalho de treinamento será encerrado. Tenha em mente que os modelos significativos têm correlação > 0, caso contrário, eles são tão bons quanto adivinhar que o limite métrico médio deve estar entre os limites [0, 10].
    Tempo limite da experiência (minutos) Tempo máximo em minutos que todo o experimento pode ser executado. Uma vez atingido este limite, o sistema cancelará o trabalho do AutoML, incluindo todos os seus testes (trabalhos infantis).
    Tempo limite de iteração (minutos) Tempo máximo em minutos que cada trabalho de avaliação pode ser executado. Assim que este limite for atingido, o sistema cancelará a versão experimental.
    Ativar rescisão antecipada Selecione para terminar o trabalho se a pontuação não estiver melhorando no curto prazo.
  13. O formulário [Opcional] Validar e testar permite que você faça o seguinte.

a. Especifique o tipo de validação a ser usado para seu trabalho de treinamento. Se você não especificar explicitamente um validation_data ou n_cross_validations parâmetro, o ML automatizado aplicará técnicas padrão dependendo do número de linhas fornecidas no único conjunto training_datade dados.

Tamanho dos dados de treinamento Técnica de validação
Maior que 20.000 linhas É aplicada a divisão de dados de comboio/validação. O padrão é tomar 10% do conjunto de dados de treinamento inicial como o conjunto de validação. Por sua vez, esse conjunto de validação é usado para o cálculo de métricas.
Linhas menores que 20.000& É aplicada a abordagem de validação cruzada. O número padrão de dobras depende do número de linhas.
Se o conjunto de dados for inferior a 1.000 linhas, 10 dobras serão usadas.
Se as linhas estiverem entre 1.000 e 20.000, então três dobras são usadas.

b. Forneça um conjunto de dados de teste (visualização) para avaliar o modelo recomendado que o ML automatizado gera para você no final do experimento. Quando você fornece dados de teste, um trabalho de teste é acionado automaticamente no final do experimento. Este trabalho de teste é apenas o trabalho no melhor modelo recomendado pelo ML automatizado. Saiba como obter os resultados do trabalho de teste remoto.

Importante

Fornecer um conjunto de dados de teste para avaliar os modelos gerados é um recurso de visualização. Esse recurso é um recurso de visualização experimental e pode ser alterado a qualquer momento. * Os dados de teste são considerados separados do treinamento e validação, de modo a não enviesar os resultados do trabalho de teste do modelo recomendado. Saiba mais sobre enviesamentos durante a validação do modelo. * Você pode fornecer seu próprio conjunto de dados de teste ou optar por usar uma porcentagem do seu conjunto de dados de treinamento. Os dados de teste devem estar na forma de um TabularDataset do Azure Machine Learning.
* O esquema do conjunto de dados de teste deve corresponder ao conjunto de dados de treinamento. A coluna de destino é opcional, mas se nenhuma coluna de destino for indicada, nenhuma métrica de teste será calculada. * O conjunto de dados de teste não deve ser o mesmo que o conjunto de dados de treinamento ou o conjunto de dados de validação. * Trabalhos de previsão não suportam divisão de trem / teste.

Screenshot shows the form where to select validation data and test data

Personalizar featurização

No formulário Featurização, você pode ativar/desativar a featurização automática e personalizar as configurações de featurização automática para seu experimento. Para abrir este formulário, consulte a etapa 10 na seção Criar e executar experimento.

A tabela a seguir resume as personalizações atualmente disponíveis através do estúdio.

Column Personalização
Tipo de recurso Altere o tipo de valor da coluna selecionada.
Imputar com Selecione o valor com o qual imputar valores ausentes em seus dados.

Screenshot showing Azure Machine Learning studio custom featurization.

Executar experiências e ver resultados

Selecione Concluir para executar seu experimento. O processo de preparação da experimentação pode demorar até 10 minutos. As tarefas de preparação podem demorar mais 2 ou 3 minutos para cada pipeline concluir a execução. Se você tiver especificado para gerar o painel RAI para o melhor modelo recomendado, pode levar até 40 minutos.

Nota

Os algoritmos que o ML automatizado emprega têm aleatoriedade inerente que pode causar uma pequena variação na pontuação final das métricas de um modelo recomendado, como a precisão. O ML automatizado também realiza operações em dados como divisão comboio-ensaio, divisão comboio-validação ou validação cruzada, quando necessário. Portanto, se você executar um experimento com as mesmas definições de configuração e métrica primária várias vezes, provavelmente verá variação na pontuação final de cada experimento devido a esses fatores.

Ver detalhes da experimentação

A tela Detalhes do Trabalho é aberta na guia Detalhes . Esta tela mostra um resumo do trabalho de experimento, incluindo uma barra de status na parte superior ao lado do número do trabalho.

O separadorModelos contém uma lista dos modelos criados encomendados pela pontuação de métrica. Por predefinição, o modelo com a classificação mais alta com base na métrica escolhida está no topo da lista. À medida que o trabalho de treinamento experimenta mais modelos, eles são adicionados à lista. Utilize-a para obter uma comparação rápida das métricas dos modelos produzidos até agora.

Ver detalhes do trabalho de formação

Analise detalhadamente qualquer um dos modelos concluídos para ver os detalhes do trabalho de treinamento.

Você pode ver gráficos de métricas de desempenho específicos do modelo na guia Métricas . Saiba mais sobre gráficos.

É também aqui que você pode encontrar detalhes sobre todas as propriedades do modelo, juntamente com o código associado, trabalhos filhos e imagens.

Exibir resultados de trabalhos de teste remotos (visualização)

Se você especificou um conjunto de dados de teste ou optou por uma divisão de trem/teste durante a configuração do experimento - no formulário Validar e testar, o ML automatizado testa automaticamente o modelo recomendado por padrão. Como resultado, o ML automatizado calcula métricas de teste para determinar a qualidade do modelo recomendado e suas previsões.

Importante

Testar seus modelos com um conjunto de dados de teste para avaliar os modelos gerados é um recurso de visualização. Esse recurso é um recurso de visualização experimental e pode ser alterado a qualquer momento.

Para exibir as métricas do trabalho de teste do modelo recomendado,

  1. Navegue até a página Modelos , selecione o melhor modelo.
  2. Selecione a guia Resultados do teste (visualização).
  3. Selecione o trabalho desejado e visualize a guia Métricas . Test results tab of automatically tested, recommended model

Para visualizar as previsões de teste usadas para calcular as métricas de teste,

  1. Navegue até a parte inferior da página e selecione o link em Conjunto de dados de saídas para abrir o conjunto de dados.
  2. Na página Conjuntos de Dados, selecione a guia Explorar para exibir as previsões do trabalho de teste.
    1. Como alternativa, o arquivo de previsão também pode ser visualizado/baixado na guia Saídas + logs , expanda a pasta Previsões para localizar seu predicted.csv arquivo.

Como alternativa, o arquivo de previsões também pode ser visualizado/baixado na guia Saídas + logs, expanda a pasta Previsões para localizar seu arquivo .csv previsões.

O trabalho de teste de modelo gera o arquivo .csv previsões armazenado no armazenamento de dados padrão criado com o espaço de trabalho. Esse armazenamento de dados é visível para todos os usuários com a mesma assinatura. Os trabalhos de teste não são recomendados para cenários se alguma das informações usadas ou criadas pelo trabalho de teste precisar permanecer privada.

Testar um modelo de ML automatizado existente (visualização)

Importante

Testar seus modelos com um conjunto de dados de teste para avaliar os modelos gerados é um recurso de visualização. Esse recurso é um recurso de visualização experimental e pode ser alterado a qualquer momento.

Após a conclusão do experimento, você pode testar o(s) modelo(s) que o ML automatizado gera para você. Se você quiser testar um modelo automatizado diferente gerado por ML, não o modelo recomendado, poderá fazê-lo com as etapas a seguir.

  1. Selecione um trabalho de experimento de ML automatizado existente.

  2. Navegue até a guia Modelos do trabalho e selecione o modelo concluído que deseja testar.

  3. Na página Detalhes do modelo, selecione o botão Modelo de teste (visualização) para abrir o painel Modelo de teste.

  4. No painel Modelo de teste, selecione o cluster de computação e um conjunto de dados de teste que você deseja usar para seu trabalho de teste.

  5. Selecione o botão Testar. O esquema do conjunto de dados de teste deve corresponder ao conjunto de dados de treinamento, mas a coluna de destino é opcional.

  6. Após a criação bem-sucedida do trabalho de teste do modelo, a página Detalhes exibe uma mensagem de sucesso. Selecione a guia Resultados do teste para ver o progresso do trabalho.

  7. Para exibir os resultados do trabalho de teste, abra a página Detalhes e siga as etapas na seção Exibir resultados do trabalho de teste remoto.

    Test model form

Painel de IA responsável (visualização)

Para entender melhor seu modelo, você pode ver vários insights sobre seu modelo usando o painel de IA responsável. Ele permite que você avalie e depure seu melhor modelo de aprendizado de máquina automatizado. O painel de IA responsável avaliará erros de modelo e problemas de equidade, diagnosticará por que esses erros estão acontecendo avaliando seus dados de trem e/ou teste e observando as explicações do modelo. Juntos, esses insights podem ajudá-lo a construir confiança com seu modelo e passar nos processos de auditoria. Não é possível gerar painéis de IA responsáveis para um modelo de aprendizado de máquina automatizado existente. Ele só é criado para o melhor modelo recomendado quando um novo trabalho AutoML é criado. Os usuários devem continuar a usar apenas as Explicações do modelo (visualização) até que o suporte seja fornecido para os modelos existentes.

Para gerar um painel de IA responsável para um determinado modelo,

  1. Ao enviar um trabalho de ML automatizado, vá para a seção Configurações de tarefas na barra de navegação esquerda e selecione a opção Exibir definições de configuração adicionais.

  2. No novo formulário que aparece após essa seleção, marque a caixa de seleção Explicar melhor modelo .

    Screenshot showing the Automated ML job configuration page with Explain best model selected.

  3. Vá para a página Computação do formulário de configuração e escolha a opção Serverless para sua computação.

    Serverless compute selection

  4. Depois de concluído, navegue até a página Modelos do seu trabalho de ML automatizado, que contém uma lista de seus modelos treinados. Selecione no link Exibir painel de IA responsável:

    View dashboard page within an Automated ML job

O painel de IA responsável aparece para esse modelo, conforme mostrado nesta imagem:

Responsible AI dashboard

No painel, você encontrará quatro componentes ativados para o melhor modelo do seu ML automatizado:

Componente O que mostra o componente? Como ler o gráfico?
Análise de erros Use a análise de erros quando precisar:
Obtenha uma compreensão profunda de como as falhas de modelo são distribuídas em um conjunto de dados e em várias dimensões de entrada e recurso.
Divida as métricas de desempenho agregadas para descobrir automaticamente coortes errôneas, a fim de informar suas etapas de mitigação direcionadas.
Gráficos de análise de erros
Visão geral do modelo e equidade Use este componente para:
Obtenha uma compreensão profunda do desempenho do seu modelo em diferentes coortes de dados.
Compreenda os problemas de equidade do seu modelo observando as métricas de disparidade. Essas métricas podem avaliar e comparar o comportamento do modelo entre subgrupos identificados em termos de recursos confidenciais (ou não confidenciais).
Visão geral do modelo e gráficos de equidade
Explicações do modelo Use o componente de explicação do modelo para gerar descrições compreensíveis por humanos das previsões de um modelo de aprendizado de máquina observando:
Explicações globais: Por exemplo, quais características afetam o comportamento geral de um modelo de alocação de empréstimos?
Explicações locais: Por exemplo, por que o pedido de empréstimo de um cliente foi aprovado ou rejeitado?
Gráficos de explicabilidade do modelo
Análise de Dados Use a análise de dados quando precisar:
Explore as estatísticas do conjunto de dados selecionando diferentes filtros para dividir os dados em diferentes dimensões (também conhecidas como coortes).
Compreenda a distribuição do seu conjunto de dados entre diferentes coortes e grupos de recursos.
Determine se suas descobertas relacionadas à justiça, análise de erros e causalidade (derivadas de outros componentes do painel) são resultado da distribuição do conjunto de dados.
Decida em quais áreas coletar mais dados para mitigar erros decorrentes de problemas de representação, ruído de rótulo, ruído de recurso, viés de rótulo e fatores semelhantes.
Gráficos do Data Explorer
  1. Você pode ainda criar coortes (subgrupos de pontos de dados que compartilham características especificadas) para concentrar sua análise de cada componente em coortes diferentes. O nome da coorte que está atualmente aplicada ao painel é sempre mostrado no canto superior esquerdo do painel. A visualização padrão no painel é todo o conjunto de dados, intitulado "Todos os dados" (por padrão). Saiba mais sobre o controle global do seu painel aqui.

Editar e enviar trabalhos (visualização)

Importante

A capacidade de copiar, editar e enviar um novo experimento com base em um experimento existente é um recurso de visualização. Esse recurso é um recurso de visualização experimental e pode ser alterado a qualquer momento.

Em cenários em que você gostaria de criar um novo experimento com base nas configurações de um experimento existente, o ML automatizado fornece a opção de fazê-lo com o botão Editar e enviar na interface do usuário do estúdio.

Essa funcionalidade é limitada a experimentos iniciados a partir da interface do usuário do estúdio e requer que o esquema de dados para o novo experimento corresponda ao do experimento original.

O botão Editar e enviar abre o assistente Criar um novo trabalho de ML automatizado com as configurações de dados, computação e experimento pré-preenchidas. Você pode percorrer cada formulário e editar seleções conforme necessário para seu novo experimento.

Implementar o modelo

Depois de ter o melhor modelo em mãos, é hora de implantá-lo como um serviço Web para prever novos dados.

Gorjeta

Se você estiver procurando implantar um modelo que foi gerado por meio do automl pacote com o Python SDK, você deve registrar seu modelo) no espaço de trabalho.

Assim que o modelo estiver registado, encontre-o no estúdio selecionando Modelos no painel esquerdo. Depois de abrir o modelo, você pode selecionar o botão Implantar na parte superior da tela e seguir as instruções descritas na etapa 2 da seção Implantar seu modelo.

O ML automatizado ajuda-o a implementar o modelo sem escrever código:

  1. Você tem algumas opções para implantação.

    • Opção 1: Implante o melhor modelo, de acordo com os critérios métricos definidos.

      1. Após a conclusão do experimento, navegue até a página de trabalho pai selecionando Trabalho 1 na parte superior da tela.
      2. Selecione o modelo listado na seção Resumo do melhor modelo.
      3. Selecione Implantar no canto superior esquerdo da janela.
    • Opção 2: Para implantar uma iteração de modelo específica a partir deste experimento.

      1. Selecione o modelo desejado no separador Modelos
      2. Selecione Implantar no canto superior esquerdo da janela.
  2. Preencha o painel Modelo de implantação .

    Campo Valor
    Nome Insira um nome exclusivo para sua implantação.
    Description Insira uma descrição para identificar melhor para que serve essa implantação.
    Tipo de computação Selecione o tipo de ponto de extremidade que deseja implantar: Serviço Kubernetes do Azure (AKS) ou Instância de Contêiner do Azure (ACI).
    Nome da computação Aplica-se apenas ao AKS: Selecione o nome do cluster AKS no qual deseja implantar.
    Ative a autenticação Selecione esta opção para permitir a autenticação baseada em token ou em chave.
    Usar ativos de implantação personalizados Habilite esse recurso se quiser carregar seu próprio script de pontuação e arquivo de ambiente. Caso contrário, o ML automatizado fornece esses ativos para você por padrão. Saiba mais sobre os scripts de classificação.

    Importante

    os nomes de ficheiros têm de ter menos de 32 carateres e têm de começar e terminar com carateres alfanuméricos. Podem incluir traços, carateres de sublinhado, pontos e carateres alfanuméricos. Não são permitidos espaços.

    O menu Avançado oferece funcionalidades de implementação predefinidas, como definições de utilização de recursos e recolha de dados. Se quiser substituir estas predefinições, poderá fazê-lo neste menu.

  3. Selecione Implementar. A conclusão da implementação pode demorar cerca de 20 minutos. Assim que a implementação for iniciada, o separador Resumo do modelo é apresentado. Veja o progresso da implementação na secção Estado da implementação.

Agora, tem um serviço Web operacional para gerar predições! Pode testar as predições ao consultar o serviço no Suporte do Azure Machine Learning integrado no Power BI.

Próximos passos