Configurar o treinamento de AutoML sem código com a interface do usuário do estúdio

Neste artigo, você aprenderá a configurar os trabalhos de treinamento de AutoML sem uma única linha de código usando o ML automatizado do Azure Machine Learning no Estúdio do Azure Machine Learning.

O machine learning automatizado, AutoML, é um processo no qual o melhor algoritmo de machine learning a ser usado para seus dados específicos é selecionado para você. Esse processo permite que você gere modelos de machine learning rapidamente. Saiba mais sobre como o Azure Machine Learning implementa o machine learning automatizado.

Para um exemplo de ponta a ponta, experimente o Tutorial: AutoML– treinar modelos de classificação sem código.

Para uma experiência baseada em códigos Python, configure seus experimentos de machine Learning automatizado com o SDK do Azure Machine Learning.

Pré-requisitos

Introdução

  1. Entre no Estúdio do Azure Machine Learning.

  2. Selecione sua assinatura e seu espaço de trabalho.

  3. Navegue até o painel esquerdo. Selecione ML Automatizado na seção Criar.

Painel de navegação do Azure Machine Learning Studio

Caso essa seja a primeira vez que você faz experimentos, você verá uma lista vazia e links para a documentação.

Caso contrário, você verá uma lista das suas experiências recentes de ML automatizado, incluindo aquelas criadas com o SDK.

Criar e executar o experimento

  1. Selecione + Novo trabalho de ML automatizado e preencha o formulário.

  2. Selecione um ativo de dados no seu contêiner de armazenamento ou crie um novo. Os ativos de dados podem ser criados a partir de arquivos locais, URLs da Web, armazenamento de dados ou Azure Open Datasets. Saiba mais sobre acriação do ativo de dados.

    Importante

    Requisitos para dados de treinamento:

    • Os dados devem estar em formato de tabela.
    • O valor que você quer prever (coluna de destino) deve estar presente nos dados.
    1. Para criar um novo conjunto de dados de um arquivo em seu computador local,selecione +Criar conjunto de dados e, em seguida, selecionedo arquivo local.

    2. No formulário dasInformações de Sites do plano Básico,dê um nome exclusivo ao conjunto de dados e forneça uma descrição opcional.

    3. Selecione Avançar para abrir o Formulário de armazenamento de dados e de seleção de arquivos. Nesse formulário, você seleciona onde quer carregar seu conjunto de dados, o contêiner de armazenamento padrão que é criado automaticamente com seu espaço de trabalho, ou escolhe um contêiner de armazenamento que deseja usar para o experimento.

      1. Se seus dados estiverem atrás de uma rede virtual, você precisará habilitar a funçãoignorar a validaçãopara garantir que o espaço de trabalho possa acessar seus dados. Para obter mais informações, confiraUsar o Estúdio do Azure Machine Learning em uma rede virtual do Azure.
    4. SelecioneNavegarpara carregar o arquivo de dados para o seu conjunto de dados.

    5. Revise a precisão do formulário de Configurações e versão prévia. O formulário é preenchido de forma inteligente com base no tipo de arquivo.

      Campo Descrição
      Formato de arquivo Define o layout e o tipo de dados armazenados em um arquivo.
      Delimitador Um ou mais caracteres para especificar o limite entre regiões separadas e independentes em texto sem formatação ou outros fluxos de dados.
      Codificação Identifica qual tabela de esquema de bit para caractere usar para ler seu conjunto de dados.
      Cabeçalhos da coluna Indica como os cabeçalhos do conjunto de dados, se houver, serão tratados.
      Ignorar linhas Indica quantas linhas, se houver, serão ignoradas no conjunto de registros.

      Selecione Avançar.

    6. O formulário Esquema é preenchido de forma inteligente com base nas seleções feitas no formulário Configurações e visualização. Aqui, configure o tipo de dados para cada coluna, revise os nomes das colunas e selecione quais delas não incluir no seu experimento.

      Selecione Avançar.

    7. O formulário Confirmar detalhes é um resumo das informações previamente preenchidas nos formulários Informações básicas e Configurações e versão prévia. Você também tem a opção de criar um perfil de dados para o seu conjunto de dados usando uma computação de criação de perfil habilitada. Saiba mais sobre a criação de perfil de dados.

      Selecione Avançar.

  3. Selecione seu conjunto de dados recém-criado assim que ele aparecer. Você também pode exibir uma versão prévia do conjunto de dados e das estatísticas de amostra.

  4. No formulário Configurar trabalho, selecione Criar novo e insira Tutorial-automl-deploy para o nome do experimento.

  5. Selecione uma coluna de destino, a qual representa a coluna na qual você gostaria de fazer previsões.

  6. Selecione um tipo de computação para o trabalho de treinamento e de criação de perfis de dados. Você pode selecionar um cluster de computação ou uma instância de computação.

  7. Selecione uma computação na lista suspensa das computações existentes. Para criar uma nova computação, siga as instruções da Etapa 8.

  8. Selecione Criar uma nova computação para configurar o contexto de computação desse experimento.

    Campo Descrição
    Nome da computação Insira um nome exclusivo que identifique o contexto da computação.
    Prioridade de máquina virtual As máquinas virtuais com baixa prioridade são as mais baratas, mas não garantem os nós de computação.
    Tipo de máquina virtual Selecione CPU ou GPU do tipo de máquina virtual.
    Tamanho da máquina virtual Selecione o tamanho da máquina virtual da computação.
    Mín./máx. de nós Para analisar os dados, é necessário especificar um ou mais nós. Insira o número máximo de nós da sua computação. Uma Computação do AzureML tem 6 nós como padrão.
    Configurações avançadas Estas configurações permitem que você configure uma conta de usuário e uma rede virtual existente para seu experimento.

    Selecione Criar. A criação da nova computação pode levar alguns minutos.

    Observação

    O nome da sua computação indicará se a computação que você selecionar/criar é habilitada para criação de perfil. (Consulte a seção criação de perfil de dados para obter mais detalhes.)

    Selecione Avançar.

  9. No formulário Tipo de tarefa e configurações, selecione o tipo de tarefa: classificação, regressão ou previsão. Consulte ostipos de tarefas com suporte para obter mais informações.

    1. Para aclassificação,você também pode habilitar o aprendizado profundo.

      Se o aprendizado profundo estiver habilitado, a validação será limitada àdivisão de train_validation. Saiba mais sobre as opções de validação.

    2. Para aprevisão,você pode,

      1. Habilitar o aprendizado profundo.

      2. Selecione acoluna de tempo: esta coluna contém os dados de tempo a serem usados.

      3. Selecione ohorizonte de previsão: Indique quantas unidades de tempo (minutos/horas/dias/semanas/meses/anos) o modelo será capaz de prever para o futuro. Quanto mais o modelo for necessário para prever do futuro, menos preciso ele se torna. Saiba mais sobre previsão e horizonte de previsão.

  10. (Opcional) Exibir definições de configuração adicionais: configurações adicionais que você pode usar para controlar melhor o trabalho de treinamento. Caso contrário, os padrões são aplicados com base na seleção e nos dados de experimento.

    Configurações adicionais Descrição
    Métrica principal Métrica principal usada para a pontuação do seu modelo. Saiba mais sobre as métricas do modelo.
    Explicar o melhor modelo Selecione para habilitar ou desabilitar, a fim de mostrar as explicações do melhor modelo recomendado.
    Esta funcionalidade não está disponível atualmente paradeterminados algoritmos de previsão.
    Algoritmo bloqueado Selecione os algoritmos que você deseja excluir do trabalho de treinamento.

    A permissão dos algoritmos só está disponível para osexperimentos do SDK.
    Confira os algoritmos com suporte para cada tipo de tarefa.
    Critério de saída Quando qualquer um desses critérios for atendido, o trabalho de treinamento é interrompido.
    Tempo do trabalho de treinamento (horas) : o tempo permitido de execução do trabalho de treinamento.
    Limite de pontuação da métrica: pontuação mínima da métrica para todos os pipelines. Isso garante que, caso você tenha uma métrica de destino definida e que deseje alcançar, não gastará mais tempo no trabalho de treinamento do que o necessário.
    Simultaneidade Máximo de iterações simultâneas: número máximo de pipelines (iterações) a serem testados no trabalho de treinamento. O trabalho não será executado mais vezes do que o número de iterações especificado. Saiba mais de como o ML automatizado de confirma a execução devários trabalhos filhos em clusters.
  11. (Opcional)Exibição da definição do conjunto de recursos: se você optar por habilitar adefinição de recursos automáticano formulário dedefinições de configuração adicional, as técnicas padrão de personalização serão aplicadas. EmExibir configurações de definição de recursosvocê pode alterar esses padrões e personalizá-los adequadamente. Saiba como personalizar a definição de recursos.

    A captura de tela mostra a caixa de diálogo Selecionar tipo de tarefa em Exibir configurações de personalização de exibição de chamadas.

  12. O formulário [Opcional] Validar e testar permite que você faça o seguinte.

    1. Especifique o tipo de validação a ser usado para seu trabalho de treinamento. Saiba mais sobre a validação cruzada.

      1. As tarefas de previsão só dão suporte à validação cruzada k-fold.
    2. Forneça um conjuntos de dados de teste (versão prévia) para avaliar o modelo recomendado que o ML automatizado gera para você no final do experimento. Quando você fornece dados de teste, um trabalho de teste é disparado automaticamente no final do experimento. Esse trabalho de teste é p único trabalho no melhor modelo recomendado pelo ML automatizado. Saiba como obter os resultados do trabalho de teste remoto.

      Importante

      Fornecer um conjuntos de dados de teste para avaliar modelos gerados é uma versão prévia do recurso. Esse recurso está em versão prévia experimental e pode mudar a qualquer momento.

      • Os dados de teste são considerados separados do treinamento e da validação, para não enviesar os resultados do trabalho de teste do modelo recomendado. Saiba mais sobre desvio durante a validação do modelo.
      • Você pode fornecer seu próprio conjunto de dados de teste ou optar por usar uma porcentagem do seu conjunto de dados de treinamento. Os dados de teste devem estar na forma de um TabularDataset do Azure Machine Learning.
      • O esquema do conjunto de dados de teste deve corresponder ao conjunto de dados de treinamento. A coluna de destino é opcional, mas se nenhuma coluna de destino for indicada, nenhuma métrica de teste será calculada.
      • O conjunto de dados de teste não deve ser o mesmo que o conjunto de dados de treinamento ou o conjunto de dados de validação.
      • Os trabalhos de previsão não permite a divisão de treinamento/teste.

      Captura de tela que mostra o formulário onde selecionar dados de validação e dados de teste

Personalizar a definição de recursos

No formulárioDefinição de recursos,você pode habilitar/desabilitar a definição de recursos automática e personalizar as configurações de definição e recursos automática para o experimento. Para abrir este formulário,consulte a etapa 10 na seçãoCriar e executar experimento.

A tabela a seguir sintetize as personalizações disponíveis presente por meio do estúdio.

Coluna Personalização
Incluso Especifica quais as colunas incluir para treinamento.
Tipo de recurso Altera o tipo de valor da coluna selecionada.
Entrar com a conta da Microsoft Selecione qual valor entrar com a conta da Microsoft com valores ausentes em seus dados.

Definição de recursos personalizada do Estúdio do Azure Machine Learning

Executar o experimento e exibir os resultados

Selecione Concluir, para executar o experimento. O processo de preparação do experimento pode levar até 10 minutos. Os trabalhos de treinamento podem levar mais 2 a 3 minutos para que cada pipeline termine a execução.

Observação

Os algoritmos automated ML empregam uma aleatoriedade inerente que pode causar uma pequena variação em uma pontuação de métrica final do modelo recomendado, como a precisão. O ML automatizado também realiza operações nos dados como a Divisão de validação de treinamento,a divisão de validação ou cruzada, quando necessário. Portanto, se você executar um experimento com os mesmos parâmetros de configuração e métrica primária várias vezes, provavelmente verá a variação em cada experimento a pontuação de métricas finais devido a esses fatores.

Exibir detalhes do experimento

A tela Detalhes do Trabalho é aberta na guia Detalhes. Essa tela mostra um resumo do trabalho de experimento, incluindo uma barra de status na parte superior, ao lado do número de trabalho.

A guia Modelos contém uma lista dos modelos criados ordenados pela pontuação da métrica. Por padrão, o modelo com a pontuação mais alta de acordo com a métrica escolhida é exibido no início da lista. Como o trabalho de treinamento testa mais modelos, eles são adicionados à lista. Use isso para obter uma comparação rápida das métricas dos modelos produzidos até agora.

Detalhes do trabalho

Exibir detalhes do trabalho de treinamento

Analise detalhadamente qualquer um dos modelos concluídos para ver os detalhes do trabalho de treinamento. A guia Modelo exibe detalhes como um resumo do modelo e os hiperparmetros usados para o modelo selecionado.

Detalhes de hiperparâmetros

Você também pode ver gráficos de métricos de desempenho específicos do modelo na guia Métricas. Saiba mais sobre gráficos.

Detalhes da iteração

Na guia Transformação de Dados, você pode ver um diagrama do pré-processamento de dados, engenharia de recursos, técnicas de colocação em escala e algoritmo de aprendizado de máquina que foram aplicados para gerar esse modelo.

Importante

A guia Transformação de dados está em visualização. Esse recurso deve ser considerado experimental e pode ser alterado a qualquer momento.

Transformação de dados

Exibir resultados do trabalho de teste remoto (versão prévia)

Se você especificou um conjuntos de dados de teste ou optou por uma divisão de treinamento/teste durante a configuração do experimento, no formulário Validar e testar, o ML automatizado testará automaticamente o modelo recomendado por padrão. Como resultado, o ML automatizado calcula as métricas de teste para determinar a qualidade do modelo recomendado e suas previsões.

Importante

Testar seus modelos com um conjunto de dados de teste para avaliar modelos gerados por ML automatizados é uma versão prévia do recurso. Esse recurso está em versão prévia experimental e pode mudar a qualquer momento.

Para exibir as métricas do trabalho de teste do modelo recomendado,

  1. Navegue até a página Modelos e selecione o melhor modelo.
  2. Selecione a guia Resultados do teste (versão prévia) .
  3. Selecione o trabalho que você deseja e veja a guia Métricas. Guia de Resultados do teste do modelo recomendado e testado automaticamente

Para exibir as previsões de teste usadas para calcular as métricas de teste,

  1. Navegue até a parte inferior da página e selecione o link em Conjunto de dados de saída para abrir o conjuntos de dados.
  2. Na página Conjuntos de dados, selecione a guia Explorar para exibir as previsões do trabalho de teste.
    1. Como alternativa, o arquivo de previsão também pode ser exibido/baixado na guia Saídas + logs, expanda a pasta Previsões para localizar o predicted.csv arquivo.

Como alternativa, o arquivo de previsões também pode ser exibido/baixado na guia Saídas + logs, expanda a pasta Previsões para localizar seu arquivo predictions.csv.

O modelo de trabalho de teste gera o arquivo predictions.csv, que é armazenado no armazenamento de dados padrão criado com o workspace. Esse armazenamento de dados é visível para todos os usuários com a mesma assinatura. Os trabalhos de teste não são recomendados para cenários, se qualquer uma das informações usadas para o trabalho de teste ou por ele criadas precisar permanecer privada.

Testar um modelo de ML automatizado existente (versão prévia)

Importante

Testar seus modelos com um conjunto de dados de teste para avaliar modelos gerados por ML automatizados é uma versão prévia do recurso. Esse recurso está em versão prévia experimental e pode mudar a qualquer momento.

Depois que o experimento for concluído, você poderá testar os modelos que ML automatizado geraram para você. Se você quiser testar um modelo ML gerado automatizado diferente, não o modelo recomendado, poderá fazer isso com as etapas a seguir.

  1. Selecione um trabalho de experimento do ML automatizado existente.

  2. Navegue até a guia Modelos do trabalho e selecione o modelo concluído que você deseja testar.

  3. Na página Detalhes do modelo, selecione o botão Modelo de teste (versão prévia) para abrir o painel Modelo de teste.

  4. No painel Modelo de teste, selecione o cluster de computação e um conjunto de teste que você deseja usar para o trabalho de teste.

  5. Selecione no botão Testar. O esquema do conjunto de dados de teste deve corresponder ao conjunto de dados de treinamento, mas a coluna de destino é opcional.

  6. Após a criação bem-sucedida do trabalho de teste do modelo, a página Detalhes exibirá uma mensagem de êxito. Selecione a guia Resultados de teste para ver o progresso do trabalho.

  7. Para exibir os resultados do trabalho de teste, abra a página Detalhes e siga as etapas na seção Exibir resultados do trabalho de teste remoto.

    Formulário de modelo de teste

Explicações do modelo (versão prévia)

Para o reconhecimento do melhor modelo, você pode consultar quais os recursos de dados (brutos ou com engenharia) influenciaram as previsões do modelo com o painel de explicações do modelo.

O modelo do painel explicações fornece uma análise geral do modelo de treinamento junto com suas previsões e explicações. Ele também permite que você intervenha de um ponto de dados individual e de sua importância de recursos individuais. Saiba mais sobre as visualizações do painel de explicação.

Para obter explicações de um modelo específico,

  1. Na guiaModelos, selecione o modelo que você deseja entender.

  2. Selecione o botãoModelo de explicaçãoe forneça uma computação que possa ser usada para gerar as explicações.

  3. Verifique a guia Trabalhos filhospara obter o status.

  4. Uma vez concluído,navegue até a guiaExplicações (pré-visualização) que contém o painel explicações.

    Painel de explicação de modelo

Editar e enviar trabalhos (versão prévia)

Importante

A capacidade de copiar, editar e enviar um novo experimento com base em um experimento existente é uma versão prévia do recurso. Esse recurso está em versão prévia experimental e pode mudar a qualquer momento.

Em cenários em que você gostaria de criar um novo experimento com base nas configurações de um experimento existente, o ML automatizado fornece a opção de fazer isso com o botão Editar e enviar na interface do usuário do estúdio.

Essa funcionalidade é limitada a experimentos iniciados na interface do usuário do estúdio e requer o esquema de dados para o novo experimento corresponder ao teste original.

O botão Editar e enviar abre o assistente Criar um novo trabalho de ML automatizado com as configurações de dados, computação e teste já preenchidas. Você pode percorrer cada formulário e editar as seleções conforme necessário para o seu novo experimento.

Implantar o seu modelo

Assim que você tiver o melhor modelo em mãos, é hora de implantá-lo como um serviço Web para prever novos dados.

Dica

Se você considera implantar um modelo que foi gerado por meio doautomlpacote com o SDK do Python, você deveregistrar seu modelono espaço de trabalho.

Depois que o modelo for registrado, encontre-o no estúdio selecionandoModelosno painel esquerdo. Após abrir seu modelo, você pode selecionar o botãoImplantarna parte superior da tela e, em seguida, seguir as instruções, conforme descrito naEtapa 2da seçãoimplantar seu modelo.

O ML automatizado ajuda a implantar o modelo sem escrever códigos:

  1. Você tem algumas opções de implantação:

    • Opção 1: Implante o melhor modelo, conforme os critérios de métrica que você definiu.

      1. Conforme o experimento for concluído, navegue para a página do trabalho pai, selecionando Trabalho 1 na parte superior da tela.
      2. Selecione o modelo listado na seçãoMelhor resumo de modelo.
      3. SelecioneImplantarna parte superior esquerda da janela.
    • Opção 2: Para implantar uma iteração do modelo específica deste experimento.

      1. Selecione o modelo desejado na guia Modelos
      2. SelecioneImplantarna parte superior esquerda da janela.
  2. Preencha o painel Implantar um modelo.

    Campo Valor
    Nome Insira um nome exclusivo para sua implantação.
    Descrição Insira uma descrição para identificar melhor a finalidade da implantação.
    Tipo de computação Selecione o tipo de ponto de extremidade que você deseja implantar: Serviço de Kubernetes do Azure (AKS) ou Instância de Contêiner do Azure (ACI).
    Nome da computação Aplica-se somente ao AKS: selecione o nome do cluster AKS no qual você deseja fazer a implantação.
    Habilitar autenticação Selecione para permitir a autenticação baseada em token ou em chave.
    Usar ativos da implantação personalizada Habilite esse recurso caso queira carregar seu próprio script de pontuação e o arquivo de ambiente. Caso contrário, o ML automatizado fornecerá esses ativos para você por padrão. Saiba mais sobre scripts de pontuação.

    Importante

    Os nomes de arquivo devem ter menos de 32 caracteres e devem começar e terminar com caracteres alfanuméricos. Eles podem conter traços, sublinhados, pontos e caracteres alfanuméricos nas partes do meio. Espaços não são permitidos.

    O menu Avançado oferece recursos de implantação padrão, como coleta de dados e configurações de utilização de recursos. Caso queira substituir esses padrões, você deve fazê-lo nesse menu.

  3. Selecione Implantar. A implantação pode levar cerca de 20 minutos para ser concluída. Depois que a implantação for iniciada, a guia Resumo do modelo será exibida. Consulte o progresso da implantação na seção Status de implantação.

Agora você tem um serviço Web operacional para gerar previsões. Você pode testar as previsões por meio de consultas ao serviço de Suporte ao Azure Machine Learning interno do Power BI.

Próximas etapas