Crie a sua primeira experiência de ciência de dados no Machine Learning Studio (clássico)

APLICA A:Esta é uma marca de verificação, o que significa que este artigo se aplica ao Machine Learning Studio (clássico). Machine Learning Studio (clássico) Este é um X, o que significa que este artigo não se aplica ao Azure Machine Learning.Aprendizagem de Máquinas Azure

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Neste artigo, você cria uma experiência de machine learning no Machine Learning Studio (clássico) que prevê o preço de um carro com base em diferentes variáveis, tais como a make e as especificações técnicas.

Se você é novo em machine learning, a série de vídeo Data Science for Beginners é uma ótima introdução ao machine learning usando linguagem e conceitos do dia-a-dia.

Este arranque rápido segue o fluxo de trabalho padrão para uma experiência:

  1. Criar um modelo
  2. Preparar o modelo
  3. Pontuar e testar o modelo

Obter os dados

A primeira coisa que precisas na aprendizagem automática são os dados. Existem vários conjuntos de dados de amostras incluídos no Studio (clássico) que pode usar, ou pode importar dados de muitas fontes. Neste exemplo, vamos utilizar o conjunto de dados de exemplo, Automobile price data (Raw) (Dados de preços de automóveis (não processados)), que está incluído na sua área de trabalho. Este conjunto de dados inclui entradas para vários automóveis individuais, incluindo informações como a marca, o modelo, as especificações técnicas e o preço.

Dica

Pode encontrar uma cópia de trabalho da experimentação seguinte na Galeria de IA do Azure. Vá à sua primeira experiência de ciência de dados - Previsão de preços do automóvel e clique em Abrir no Estúdio para descarregar uma cópia da experiência no seu espaço de trabalho Machine Learning Studio (clássico).

Eis como obter o conjunto de dados na sua experimentação.

  1. Crie uma nova experiência clicando em +NEW na parte inferior da janela Machine Learning Studio (clássico). Selecione EXPERIMENT>Experiência em Branco.

  2. É dado um nome predefinido à experimentação, que pode ver na parte superior da tela. Selecione este texto e mude o nome para algo significativo, como, por exemplo, Previsão de preços de automóveis. O nome não tem de ser exclusivo.

    Mude o nome da experimentação

  3. À esquerda da tela da experimentação existe uma paleta de conjuntos de dados e módulos. Digite automóvel na caixa de pesquisa na parte superior desta paleta para localizar o conjunto de dados denominado Dados do preço automóvel (bruto). Arraste este conjunto de dados para a tela da experimentação.

    Encontre o conjunto de dados do automóvel e arraste-o para a tela da experiência

Para ver como são estes dados, clique na porta de saída na parte inferior do conjunto de dados do automóvel e, em seguida, selecione Visualize.

Clique na porta de saída e selecione

Dica

Os conjuntos de dados e os módulos têm portas de entrada e de saída, representadas por pequenos círculos. As portas de entrada estão em cima e as de saída estão em baixo. Para criar um fluxo de dados através da experimentação, ligue uma porta de saída de um módulo a uma porta de entrada de outro. Pode, em qualquer altura, clicar na porta de saída de um conjunto de dados ou de um módulo para ver o aspeto dos dados nessa fase do fluxo de dados.

Neste conjunto de dados, cada linha representa um automóvel, e as variáveis associadas a cada automóvel aparecem como colunas. Vamos prever o preço na coluna de extrema-direita (coluna 26, intitulada "preço") usando as variáveis para um automóvel específico.

Ver os dados do automóvel na janela de visualização de dados

Feche a janela de visualização, clicando no "x" no canto superior direito.

Preparar os dados

Normalmente, um conjunto de dados requer alguns pré-processamentos antes de poder ser analisado. Poderá ter reparado nos valores em falta presentes nas colunas de várias linhas. Estes valores em falta têm de ser apagados para que o modelo possa analisar os dados corretamente. Removeremos todas as linhas que tenham valores em falta. Além disso, a coluna das perdas normalizadas tem uma grande proporção de valores em falta, pelo que recomendamos que exclua totalmente essa coluna do modelo.

Dica

Apagar os valores em falta a partir dos dados de entrada é um pré-requisito para utilizar a maioria dos módulos.

Primeiro, adicionamos um módulo que remove completamente a coluna de perdas normalizada . Em seguida, adicionamos outro módulo que remove qualquer linha que tenha dados em falta.

  1. Digite colunas na caixa de pesquisa na parte superior da paleta do módulo para encontrar as Colunas Selecionadas no módulo Dataset. Em seguida, arrastá-lo para a tela de experimentação. Este módulo permite-nos selecionar quais as colunas de dados que pretendemos incluir ou excluir no modelo.

  2. Ligue a porta de saída do conjunto de dados de preços do automóvel (Raw) à porta de entrada das Colunas Selecionadas no Conjunto de Dados.

    Adicione o módulo

  3. Clique no módulo Select Columns in Dataset e clique em Launch column selector (Iniciar seletor de colunas), no painel Properties (Propriedades).

    • À esquerda, clique em Com regras

    • Em Começar Com, clique em Todas as colunas. Estas regras direcionam as Colunas Selecionadas no Conjunto de Dados para passar por todas as colunas (exceto as colunas que estamos prestes a excluir).

    • Nas listas pendentes, selecione Excluir e os nomes das colunas e, em seguida, clique dentro da caixa de texto. É apresentada uma lista de colunas. Selecione normalized-losses, que é adicionada à caixa de texto.

    • Clique no botão de marca de verificação (OK) para fechar o seletor de colunas (no lado inferior direito).

      Lance o seletor de colunas e exclua a coluna

      Agora, o painel de propriedades de Select Columns in Datase indica que o módulo vai percorrer todas as colunas do conjunto de dados, exceto normalized-losses.

      O painel de propriedades mostra que a coluna

      Dica

      Pode adicionar um comentário a um módulo, fazendo duplo clique no módulo e introduzindo o texto. Isto pode ajudá-lo a ver rapidamente o que o módulo está a fazer na sua experimentação. Neste caso, faça duplo clique no módulo Select Columns in Dataset (Selecionar Colunas no Conjunto de Dados) e escreva o comentário "Exclude normalized losses” (“Excluir perdas normalizadas").

      Clique duas vezes num módulo para adicionar um comentário

  4. Arraste o módulo Apagar dados em falta para a tela de experimentação e conecte-o ao módulo Selecionar colunas no conjunto de dados. No painel Properties, selecione Remove entire row (Remover linha inteira), em Cleaning mode (Modo de limpeza). Estas opções direcionam os Dados Em Falta para limpar os dados, removendo linhas que tenham valores em falta. Clique duas vezes no módulo e escreva o comentário "Remover linhas de valor em falta".

    Desave o modo de limpeza para

  5. Execute a experimentação clicando em EXECUTAR na parte inferior da página.

    Quando a execução da experimentação estiver concluída, todos os módulos têm uma marca de verificação a verde para indicar que foram concluídos com êxito. Repare também no estado Execução terminada no canto superior direito.

    Depois de executá-lo, a experiência deve ser algo como este

Dica

Porque é que executámos a experimentação agora? Ao executar a experimentação, as definições das colunas dos nossos dados passam do conjunto de dados para o módulo Select Columns in Dataset e para o módulo Clean Missing Data. Isto significa que qualquer módulo que liguemos a Clean Missing Data também terá estas informações.

Agora temos dados limpos. Se pretender ver o conjunto de dados limpo, clique na porta de saída à esquerda do módulo Clean Missing Data e selecione Visualize. Repare que a coluna perdas normalizadas já não está mais incluída e não existem valores em falta.

Agora que os dados foram apagados, estamos prontos para especificar quais as funcionalidades que vai utilizar no modelo preditivo.

Definir características

No machine learning, as características são propriedades mensuráveis individuais de algo que lhe interessa. No nosso conjunto de dados, cada linha representa um automóvel e cada coluna é uma funcionalidade desse automóvel.

Encontrar um bom conjunto de funcionalidades para criar um modelo preditivo requer experimentação e conhecimentos sobre o problema que pretende resolver. Algumas funcionalidades são melhores para prever num destino do que outras. Algumas características têm uma forte correlação com outras funcionalidades e podem ser removidas. Por exemplo, city-mpg e highway-mpg estão intimamente relacionados, pelo que podemos manter um e remover o outro sem afetar a predição significativamente.

Vamos criar um modelo que utiliza um subconjunto das funcionalidades no nosso conjunto de dados. Pode regressar mais tarde e selecionar funcionalidades diferentes, executar novamente a experimentação e ver se consegue obter melhores resultados. Contudo, para começar, vamos experimentar as seguintes funcionalidades:

fazer, estilo corpo, base de roda, tamanho do motor, potência, pico-rpm, highway-mpg, preço

  1. Arraste outro módulo Select Columns in Dataset para a tela da experimentação. Ligue a porta de saída à esquerda do módulo Clean Missing Data à porta de entrada do módulo Select Columns in Dataset.

    Ligue o módulo

  2. Clique duas vezes no módulo e escreva "Selecionar as funcionalidades para predição".

  3. Clique no painel Iniciar seletor de colunas no painel Propriedades.

  4. Clique em Com regras.

  5. Em Begin With (Começar Em), clique em No columns (Nenhuma coluna). Na linha do filtro, selecione Include (Incluir) e column names (nomes das colunas) e selecione a lista de nomes de colunas na caixa de texto. Este filtro direciona o módulo para não passar por nenhuma coluna (características) exceto as que especificamos.

  6. Clique no botão de marca de verificação (OK).

    Selecione as colunas (características) para incluir na previsão

Este módulo produz um conjunto de dados filtrado contendo apenas as funcionalidades que queremos passar para o algoritmo de aprendizagem que usaremos no próximo passo. Mais tarde, pode voltar e tentar novamente com uma seleção de funcionalidades diferente.

Escolha e aplique um algoritmo

Agora que os dados estão prontos, construir um modelo preditivo consiste em formar e testar. Utilizaremos os nossos dados para preparar o modelo e, em seguida, vamos testá-lo para ver com que exatidão consegue prever os preços.

Classficação e regrssão são dois tipos de algoritmos de machine learning supervisionados. A classificação prevê uma resposta a partir de um conjunto definido de categorias, tais como uma cor (vermelho, azul ou verde). A regressão é utilizada para prever um número.

Uma vez que queremos prever o preço, que é um número, vamos utilizar um algoritmo de regressão. Para este exemplo, usaremos um modelo linear de regressão .

Para preparar o modelo, damos-lhe um conjunto de dados que incluem o preço. O modelo analisa os dados e procura correlações entre as características e o preço de um automóvel. Depois, testamos o modelo. Damos-lhe um conjunto de características de automóveis com que estamos familiarizados e vemos a exatidão com que o modelo consegue prever o preço sabido.

Vamos utilizar os dados quer para preparar o modelo, quer para testá-lo, dividindo-os em conjuntos de dados de preparação e teste separados.

  1. Selecione e arraste o módulo Split Data (Dividir Dados) para a tela da experimentação e ligue-o ao último módulo Select Columns in Dataset.

  2. Clique no módulo Split Data para selecioná-lo. Localize Fraction of rows in the first output dataset (Fração de linhas no primeiro conjunto de dados de saída) (no painel Properties (Propriedades), no lado direito da tela) e defina-a como 0,75. Desta forma, vamos utilizar 75% dos dados para preparar o modelo e retenha 25% para fins de teste.

    Desafie a fração dividida do módulo

    Dica

    Ao alterar o parâmetro Seed aleatório, pode produzir diferentes amostras aleatórias para formação e testar. Este parâmetro controla a propagação do gerador de número pseudo-aleatório.

  3. Execute a experimentação. Quando a experimentação é executada, os módulos Select Columns in Dataset e Split Data passam as definições das colunas para os módulos que vamos adicionar em seguida.

  4. Para selecionar o algoritmo do Learning, expanda a categoria Machine Learning na paleta do módulo para a esquerda da tela e, em seguida, expanda Inicializar modelo. Isto apresenta várias categorias de módulos que podem ser utilizadas para inicializar algoritmos do Machine Learning. Nesta experimentação, selecione o módulo Linear Regression (Regressão Linear), na categoria Regression (Regressão) e arraste-o para a tela da experimentação. (Para encontrar o módulo, também pode escrever “linear regression” na caixa Pesquisa da paleta.)

  5. Localize e arraste o módulo Modelo de formação para a tela de experimentação. Ligue a saída do módulo Linear Regression à entrada da esquerda do módulo Train Model e ligue a saída de dados de preparação (porta da esquerda) do módulo Split Data à entrada da direita do módulo Train Model.

    Ligue o módulo

  6. Clique no módulo Train Model, clique em Launch column selectorno painel Properties e selecione a coluna price (preço). O preço é o valor que o nosso modelo vai prever.

    Para selecionar a coluna price no seletor de colunas, mova-a da lista Available columns (Colunas disponíveis) para a lista Selected columns (Colunas selecionadas).

    Selecione a coluna de preços para o módulo

  7. Execute a experimentação.

Temos agora um modelo de regressão preparado que pode ser utilizado para classificar dados de automóveis novos e fazer predições de preços.

Depois de correr, a experiência deve agora parecer algo como isto.

Prever novos preços de automóveis

Agora que experimentámos o modelo, utilizando 75% dos nossos dados, podemos utilizá-lo para pontuar os outros 25% por cento dos dados para ver quão bem funciona o nosso modelo.

  1. Localize e arraste o módulo Score Model (Classificar Modelo) para a tela da experimentação. Ligue a saída do módulo Train Model à porta de entrada da esquerda de Score Model. Ligue a saída de dados de teste (porta da direita) do módulo Split Data à porta de entrada da direita de Score Model.

    Ligue o módulo

  2. Executar a experiência e ver a saída do módulo 'Modelo de Pontuação', clicando na porta de saída do Modelo de Pontuação e selecione Visualize. O resultado mostra os valores previstos para os preços e os valores conhecidos dos dados do teste.

    Saída do módulo

  3. Por fim, vamos testar a qualidade dos resultados. Selecione e arraste o módulo Evaluate Model (Avaliar Modelo) para a tela da experimentação e ligue a saída do módulo Score Model à entrada da esquerda de Evaluate Model. A experimentação final deve ter este aspeto:

    A experiência final

  4. Execute a experimentação.

Para ver o resultado do módulo Evaluate Model, clique na porta de saída e, em seguida, selecione Visualize.

Resultados da avaliação da experiência

As estatísticas seguintes são apresentadas para o nosso modelo:

  • Média dos erros absolutos (MAE): A média dos erros absolutos (um erro é a diferença entre o valor previsto e o valor real).
  • Raiz quadrada da média dos erros (RMSE): A raiz quadrada da média dos erros ao quadrado das predições efetuadas no conjunto de dados de teste.
  • Erro relativo absoluto: A média dos erros absolutos relativos à diferença absoluta entre os valores reais e a média de todos os valores reais.
  • Erro ao quadrado absoluto: A média dos erros ao quadrado relativos à diferença ao quadrado entre os valores reais e a média de todos os valores reais.
  • Coeficiente de determinação: Também conhecido como o valor de R ao quadrado, esta é uma métrica de estatística que indica o quão bem um modelo é adequado para os dados.

Em cada uma das estatísticas de erros, quanto mais pequeno, melhor. Um valor mais pequeno indica que as predições mais detalhadas correspondem aos valores reais. No Coeficiente de determinação, quanto mais próximo for um valor de outro (1.0), melhores serão as predições.

Limpar os recursos

Se já não necessitar dos recursos criados utilizando este artigo, elimine-os para evitar incorrer em quaisquer encargos. Saiba como no artigo, Exporte e elimine os dados do utilizador no produto.

Passos seguintes

Neste arranque rápido, criou uma experiência simples usando um conjunto de dados de amostra. Para explorar o processo de criação e implantação de um modelo em maior profundidade, continue para o tutorial de solução preditiva.