Tutorial: Designer - treine um modelo de regressão sem código

Treine um modelo linear de regressão que prevê os preços dos carros utilizando o designer Azure Machine Learning. Este tutorial é a primeira parte de uma série composta por duas partes.

Este tutorial usa o designer de Machine Learning Azure, para mais informações, ver O que é o designer de Aprendizagem automática Azure?

Na primeira parte do tutorial, aprende-se a:

  • Criar um novo oleoduto.
  • Dados de importação.
  • Prepare os dados.
  • Treine um modelo de aprendizagem automática.
  • Avaliar um modelo de aprendizagem automática.

Na segunda parte do tutorial, você implementa o seu modelo como um ponto final inferencing em tempo real para prever o preço de qualquer carro com base em especificações técnicas que você envia.

Nota

Uma versão completa deste tutorial está disponível como um pipeline de amostra.

Para encontrá-lo, vá ao designer no seu espaço de trabalho. Na secção Nova do gasoduto , selecione Sample 1 - Regression: Automobile Price Prediction (Basic).

Importante

Se não vir elementos gráficos mencionados neste documento, como botões em estúdio ou designer, poderá não ter o nível certo de permissões para o espaço de trabalho. Contacte o administrador de subscrição da Azure para verificar se lhe foi concedido o nível de acesso correto. Para obter mais informações, consulte Gerir utilizadores e funções.

Criar um novo oleoduto

Os oleodutos Azure Machine Learning organizam múltiplas etapas de aprendizagem automática e processamento de dados num único recurso. Os oleodutos permitem organizar, gerir e reutilizar fluxos complexos de aprendizagem automática em projetos e utilizadores.

Para criar um pipeline de aprendizagem automática Azure, você precisa de um espaço de trabalho de aprendizagem automática Azure. Nesta secção, aprende-se a criar estes dois recursos.

Criar uma nova área de trabalho

Precisa de um espaço de trabalho para aprender máquinas Azure para usar o designer. O espaço de trabalho é o recurso de alto nível para a Azure Machine Learning, fornece um lugar centralizado para trabalhar com todos os artefactos que você cria em Azure Machine Learning. Para obter instruções sobre a criação de um espaço de trabalho, consulte Criar recursos do espaço de trabalho.

Nota

Se o seu espaço de trabalho utilizar uma rede Virtual, existem passos de configuração adicionais que deve utilizar para utilizar o designer. Para mais informações, consulte use estúdio do Azure Machine Learning numa rede virtual Azure

Criar o pipeline

Nota

O designer suporta dois tipos de componentes, componentes pré-construídos clássicos e componentes personalizados. Estes dois tipos de componentes não são compatíveis.

Os componentes pré-construídos clássicos fornecem componentes pré-construídos principalmente para o processamento de dados e tarefas tradicionais de aprendizagem automática, como regressão e classificação. Este tipo de componente continua a ser suportado, mas não terá quaisquer novos componentes adicionados.

Os componentes personalizados permitem-lhe fornecer o seu próprio código como componente. Suporta a partilha em espaços de trabalho e a autoria perfeita através das interfaces Studio, CLI e SDK.

Este artigo aplica-se aos componentes pré-construídos clássicos.

  1. Inscreva-se para ml.azure.com e selecione o espaço de trabalho com o quais pretende trabalhar.

  2. Selecione Designer ->Clássico pré-construído

    Screenshot do espaço de trabalho visual mostrando como aceder ao designer.

  3. Selecione Criar um novo oleoduto utilizando componentes pré-construídos clássicos.

  4. Clique no ícone do lápis ao lado do nome de projeto de gasoduto gerado automaticamente, rebatizando-o para a previsão de preços do Automóvel. O nome não tem de ser exclusivo.

Screenshot do ícone do lápis para mudar o nome do projeto do pipeline.

Definir o alvo de computação padrão

Um pipeline trabalha num alvo de computação, que é um recurso computacional ligado ao seu espaço de trabalho. Depois de criar um alvo de computação, pode reutilizá-lo para empregos futuros.

Importante

O cálculo anexo não é suportado, use casos de computação ou clusters em vez disso.

Pode definir um alvo de computação padrão para todo o pipeline, que dirá a todos os componentes para usarem o mesmo alvo de computação por padrão. No entanto, pode especificar alvos de cálculo numa base por módulo.

  1. Selecione screenshot do ícone de engrenagem que está na UI.Regulações à direita da tela para abrir o painel de Definições.

  2. Selecione Create Azure ML compute instance.

    Se já tiver um alvo de computação disponível, pode selecioná-lo a partir do drop-down de instância de cálculo Select Azure ML para executar este pipeline.

  3. Insira um nome para o recurso compute.

  4. Selecione Criar.

    Nota

    Leva aproximadamente cinco minutos para criar um recurso computacional. Depois de criado o recurso, pode reutilizá-lo e saltar este tempo de espera para futuros empregos.

    O recurso computacional escala automaticamente para zero nós quando é inativo para economizar custos. Quando voltar a usá-lo depois de um atraso, poderá experimentar aproximadamente cinco minutos de tempo de espera enquanto volta a aumentar.

Importar dados

Existem vários conjuntos de dados de amostras incluídos no designer para você experimentar. Para este tutorial, utilize os dados de preços do automóvel (Raw).

  1. À esquerda da tela do gasoduto está uma paleta de conjuntos de dados e componentes. Selecione dados de>amostra de componente.

  2. Selecione os dados dados de preços do automóvel (Raw)e arraste-os para a tela.

    Gif de arrastar os dados do preço do automóvel para a tela.

Ver os dados

Pode visualizar os dados para entender o conjunto de dados que utilizará.

  1. Clique com o direito nos dados de preços do Automóvel (Raw) e selecione Os Dados de Pré-Visualização.

  2. Selecione as diferentes colunas na janela de dados para visualizar informações sobre cada uma delas.

    Cada linha representa um automóvel, e as variáveis associadas a cada automóvel aparecem como colunas. Há 205 linhas e 26 colunas neste conjunto de dados.

Preparar dados

Os conjuntos de dados normalmente requerem algum pré-processamento antes da análise. Deve ter reparado em alguns valores em falta quando inspecionou o conjunto de dados. Estes valores em falta devem ser limpos para que o modelo possa analisar os dados corretamente.

Remover uma coluna

Quando treinas um modelo, tens de fazer alguma coisa em relação aos dados que faltam. Neste conjunto de dados, a coluna de perdas normalizada está a perder muitos valores, pelo que excluirá completamente essa coluna do modelo.

  1. Nos conjuntos de dados e na paleta de componentes à esquerda da tela, clique em Componente e procure as Colunas Selecionadas no componente Dataset .

  2. Arraste as colunas selecionais no componente dataset para a tela. Deixe o componente abaixo do componente do conjunto de dados.

  3. Ligue o conjunto de dados de preços do automóvel (Raw) ao conjunto de colunas selecionadas no componente Dataset . Arraste da porta de saída do conjunto de dados, que é o pequeno círculo na parte inferior do conjunto de dados na tela, para a porta de entrada de Colunas Selecionadas no Conjunto de Dados, que é o pequeno círculo na parte superior do componente.

    Dica

    Cria-se um fluxo de dados através do seu oleoduto quando liga a porta de saída de um componente a uma porta de entrada de outro.

    Screenshot da ligação do componente de dados de preços do automóvel para selecionar colunas no componente dataset.

  4. Selecione as Colunas Selecione no componente Dataset .

  5. Clique no ícone de seta em Definições à direita da tela para abrir o painel de detalhes do componente. Em alternativa, pode clicar duas vezes no componente Select Columns in Dataset para abrir o painel de detalhes.

  6. Selecione editar a coluna à direita do painel.

  7. Expanda os nomes da Coluna ao lado de Incluir e selecione Todas as colunas.

  8. Selecione a + para adicionar uma nova regra.

  9. A partir dos menus suspensos, selecione os nomesDe excluir e colunas.

  10. Introduza perdas normalizadas na caixa de texto.

  11. No lado inferior direito, selecione Guardar para fechar o seletor de colunas.

    Screenshot de colunas selecionadas com exclusão realçada.

  12. No painel de detalhes do componente Select Columns in Dataset , expanda a informação do Nó.

  13. Selecione a caixa de texto 'Comentar' e introduza Excluir perdas normalizadas.

    Os comentários aparecerão no gráfico para ajudá-lo a organizar o seu pipeline.

Limpar dados em falta

O seu conjunto de dados ainda tem valores em falta depois de remover a coluna de perdas normalizada . Pode remover os dados restantes em falta utilizando o componente Clean Missing Data .

Dica

A limpeza dos valores em falta dos dados de entrada é um pré-requisito para a utilização da maioria dos componentes do designer.

  1. Nos conjuntos de dados e na paleta de componentes à esquerda da tela, clique em Componente e procure o componente De Dados Desaparecidos Limpos .

  2. Arraste o componente De Dados Desaparecidos Limpos para a tela do gasoduto. Conecte-o ao componente Select Columns no dataset .

  3. Selecione o componente 'Clean Missing Data '.

  4. Clique no ícone de seta em Definições à direita da tela para abrir o painel de detalhes do componente. Em alternativa, pode clicar duas vezes no componente Clean Missing Data para abrir o painel de detalhes.

  5. Selecione editar a coluna à direita do painel.

  6. Nas Colunas a limpar a janela que aparece, expanda o menu suspenso ao lado de Incluir. Selecione, Todas as colunas

  7. Selecione Guardar

  8. No painel de detalhes do componente Desem falta de limpeza , no modo de limpeza, selecione Remover toda a linha.

  9. No painel de detalhes do componente Clean Missing Data , expanda a informação do Nó.

  10. Selecione a caixa de texto 'Comentar' e introduza Remover linhas de valor em falta.

    O seu oleoduto deve agora ser parecido com isto:

    Screenshot dos dados de preços do automóvel ligados a colunas selecionadas no componente dataset, que está ligado a dados em falta.

Preparar um modelo de machine learning

Agora que tem os componentes no local para processar os dados, pode configurar os componentes de treino.

Porque queres prever o preço, que é um número, podes usar um algoritmo de regressão. Para este exemplo, utiliza-se um modelo linear de regressão.

Dividir os dados

Dividir dados é uma tarefa comum na aprendizagem automática. Dividirá os seus dados em dois conjuntos de dados separados. Um conjunto de dados irá treinar o modelo e o outro irá testar o quão bem o modelo foi executado.

  1. Nos conjuntos de dados e na paleta de componentes à esquerda da tela, clique em Componente e procure o componente De Dados Divididos .

  2. Arraste o componente De Dados Divididos para a tela do gasoduto.

  3. Ligue a porta esquerda do componente Clean Missing Data ao componente Dados Divididos .

    Importante

    Certifique-se de que a porta de saída esquerda de Dados Desaparecidos Limpos se liga a Dados Divididos. A porta esquerda contém os dados limpos. A porta direita contém os dados descartados.

  4. Selecione o componente Dados Divididos .

  5. Clique no ícone de seta em Definições à direita da tela para abrir o painel de detalhes do componente. Em alternativa, pode clicar duas vezes no componente Dados Divididos para abrir o painel de detalhes.

  6. No painel de detalhes de dados divididos , defina a Fração de linhas no primeiro conjunto de dados de saída para 0,7.

    Esta opção divide 70% dos dados para treinar o modelo e 30% para testá-lo. O conjunto de dados de 70% será acessível através da porta de saída esquerda. Os restantes dados estarão disponíveis através da porta de saída certa.

  7. No painel de detalhes do Dado Dividido , expanda a informação do Nó.

  8. Selecione a caixa de texto de comentário e introduza Dividir o conjunto de dados no conjunto de treino (0.7) e no conjunto de teste (0.3).

Preparar o modelo

Treine o modelo dando-lhe um conjunto de dados que inclui o preço. O algoritmo constrói um modelo que explica a relação entre as características e o preço apresentado pelos dados de formação.

  1. Nos conjuntos de dados e na paleta de componentes à esquerda da tela, clique em Componente e procure o componente de Regressão Linear .

  2. Arraste o componente de regressão linear para a lona do gasoduto.

  3. Nos conjuntos de dados e na paleta de componentes à esquerda da tela, clique em Componente e procure o componente do Modelo de Comboio .

  4. Arraste o componente do Modelo de Comboio para a tela do gasoduto.

  5. Ligue a saída do componente de regressão linear à entrada esquerda do componente Do Modelo de Comboio .

  6. Ligue a saída de dados de formação (porta esquerda) do componente Dados Divididos à entrada direita do componente Modelo de Comboio .

    Importante

    Certifique-se de que a porta de saída esquerda de Dados Divididos se liga ao Modelo de Comboio. A porta esquerda contém o conjunto de treino. A porta direita contém o conjunto de teste.

    A imagem que mostra a Regressão Linear liga-se à porta esquerda do Modelo de Comboio e os Dados Divididos ligam-se à porta direita do Modelo de Comboio.

  7. Selecione o componente Modelo de Comboio .

  8. Clique no ícone de seta em Definições à direita da tela para abrir o painel de detalhes do componente. Em alternativa, pode clicar duas vezes no componente Train Model para abrir o painel de detalhes.

  9. Selecione editar a coluna à direita do painel.

  10. Na janela da coluna Label que aparece, expanda o menu suspenso e selecione os nomes da Coluna.

  11. Na caixa de texto, introduza o preço para especificar o valor que o seu modelo vai prever.

    Importante

    Certifique-se de introduzir exatamente o nome da coluna. Não capitalize o preço.

    O seu oleoduto deve ser assim:

    Screenshot mostrando a configuração correta do pipeline depois de adicionar o componente Train Model.

Adicione o componente Do Modelo de Pontuação

Depois de treinar o seu modelo usando 70% dos dados, pode usá-lo para marcar os outros 30% para ver como funciona o seu modelo.

  1. Nos conjuntos de dados e na paleta de componentes à esquerda da tela, clique em Componente e procure o componente Do Modelo de Pontuação .

  2. Arraste o componente do Modelo de Pontuação para a tela do gasoduto.

  3. Ligue a saída do componente Train Model à porta de entrada esquerda do Modelo de Pontuação. Ligue a saída de dados de teste (porta direita) do componente Dados Divididos à porta de entrada direita do Modelo de Pontuação.

Adicione o componente do Modelo de Avaliação

Utilize o componente 'Avaliar o Modelo' para avaliar a forma como o seu modelo obteve a pontuação dos dados do teste.

  1. Nos conjuntos de dados e na paleta de componentes à esquerda da tela, clique em Componente e procure o componente Do Modelo de Avaliação .

  2. Arraste o componente do Modelo de Avaliação para a tela do gasoduto.

  3. Ligue a saída do componente 'Marcar' , à entrada esquerda do Modelo de Avaliação.

    O oleoduto final deve ser mais ou menos assim:

    Screenshot mostrando a configuração correta do pipeline.

Enviar o oleoduto

Agora que o seu oleoduto está todo configurado, pode submeter um trabalho de pipeline para treinar o seu modelo de aprendizagem automática. Pode submeter um trabalho de pipeline válido em qualquer ponto, que pode ser usado para rever alterações no seu pipeline durante o desenvolvimento.

  1. Na parte superior da tela, selecione Enviar por favor.

  2. Na caixa de diálogo de trabalho de trabalho de pipeline Configurar , selecione Criar novo.

    Nota

    Experiências agrupam trabalhos de gasoduto semelhantes juntos. Se executar um oleoduto várias vezes, pode selecionar a mesma experiência para trabalhos sucessivos.

    1. Para novo nome de experiência, insira Tutorial-CarPrices.

    2. Selecione Submeter.

    3. Você verá uma lista de submissão no painel esquerdo da tela, e uma notificação aparecerá no canto superior direito da página. Pode selecionar o link de detalhes de Trabalho para ir à página de detalhes de trabalho para depuração.

      Screenshot da lista de empregos submetida com uma notificação de sucesso.

    Se este for o primeiro trabalho, pode levar até 20 minutos para o seu oleoduto terminar de funcionar. As definições de computação predefinido têm um tamanho mínimo de nó de 0, o que significa que o designer deve alocar recursos depois de estar inativo. Os trabalhos de gasoduto repetidos levarão menos tempo, uma vez que os recursos de cálculo já estão alocados. Além disso, o designer utiliza resultados em cache para cada componente para melhorar ainda mais a eficiência.

Ver rótulos pontuados

Na página de detalhes do trabalho, pode verificar o estado do trabalho do pipeline, resultados e registos.

Screenshot mostrando a página de detalhe do trabalho do pipeline.

Após o fim do trabalho, pode ver os resultados do trabalho no oleoduto. Primeiro, veja as previsões geradas pelo modelo de regressão.

  1. Clique com o botão direito no componente 'Modelo de pontuação' e selecione preview data>dataset para visualizar a sua saída.

    Aqui pode ver os preços previstos e os preços reais a partir dos dados de teste.

    Screenshot da visualização de saída realçando a coluna 'Etiqueta Marcada'.

Avaliar modelos

Utilize o Modelo de Avaliação para ver como o modelo treinado foi bem executado no conjunto de dados de teste.

  1. Clique com o botão direito no componente 'Avaliar o Modelo' e selecioneos resultados da avaliação de dados>de pré-visualizaçãopara visualizar a sua saída.

As seguintes estatísticas são mostradas para o seu modelo:

  • Erro Absoluto Médio (MAE): A média de erros absolutos. Um erro é a diferença entre o valor previsto e o valor real.
  • Erro quadrado de raiz média (RMSE): A raiz quadrada da média de erros quadrados de previsões feitas no conjunto de dados de teste.
  • Erro relativo absoluto: A média dos erros absolutos relativos à diferença absoluta entre os valores reais e a média de todos os valores reais.
  • Erro ao quadrado absoluto: A média dos erros ao quadrado relativos à diferença ao quadrado entre os valores reais e a média de todos os valores reais.
  • Coeficiente de Determinação: Também conhecido como o valor quadrado R, esta métrica estatística indica quão bem um modelo se encaixa nos dados.

Em cada uma das estatísticas de erros, quanto mais pequeno, melhor. Um valor menor indica que as previsões estão mais próximas dos valores reais. Para o coeficiente de determinação, quanto mais próximo o seu valor for de um (1.0), melhor serão as previsões.

Limpar os recursos

Salte esta secção se quiser continuar com a parte 2 dos modelos tutoriais.

Importante

Pode utilizar os recursos que criou como pré-requisitos para outros tutoriais do Azure Machine Learning e artigos de procedimentos.

Apagar tudo

Se não pretender usar nada que tenha criado, elimine todo o grupo de recursos para não incorrer em quaisquer encargos.

  1. No portal do Azure, selecione grupos de recursos no lado esquerdo da janela.

    Eliminar grupo de recursos no portal do Azure

  2. Na lista, selecione o grupo de recursos que criou.

  3. Selecione Eliminar grupo de recursos.

A eliminação do grupo de recursos também elimina todos os recursos que criou no designer.

Eliminar ativos individuais

No designer onde criou a sua experiência, elimine os ativos individuais selecionando-os e selecionando o botão Eliminar .

O alvo de cálculo que criou aqui automaticamente escala automaticamente para zero nós quando não está a ser usado. Esta ação é tomada para minimizar as cargas. Se quiser eliminar o alvo do cálculo, tome estes passos:

Eliminar ativos

Pode desagregar conjuntos de dados do seu espaço de trabalho selecionando cada conjunto de dados e selecionando O Registo Não Registado.

Conjunto de dados não registador

Para eliminar um conjunto de dados, aceda à conta de armazenamento utilizando o portal do Azure ou Explorador de Armazenamento do Azure e elimine manualmente esses ativos.

Passos seguintes

Na segunda parte, aprenderás a implementar o teu modelo como ponto final em tempo real.