Partilhar via


Crie seu primeiro experimento de ciência de dados no Machine Learning Studio (clássico)

APLICA-SE A: Esta é uma marca de seleção, o que significa que este artigo se aplica ao Machine Learning Studio (clássico).Machine Learning Studio (clássico) Este é um X, o que significa que este artigo não se aplica ao Azure Machine Learning.Azure Machine Learning

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Neste artigo, você cria um experimento de aprendizado de máquina no Machine Learning Studio (clássico) que prevê o preço de um carro com base em diferentes variáveis, como marca e especificações técnicas.

Se você é novo no aprendizado de máquina, a série de vídeos Data Science for Beginners é uma ótima introdução ao aprendizado de máquina usando linguagem e conceitos do dia a dia.

Este guia de início rápido segue o fluxo de trabalho padrão para um experimento:

  1. Criar um modelo
  2. Preparar o modelo
  3. Classificar e testar o modelo

Obter os dados

A primeira coisa que você precisa no aprendizado de máquina são dados. Há vários conjuntos de dados de exemplo incluídos no Studio (clássico) que você pode usar ou importar dados de várias fontes. Neste exemplo, vamos utilizar o conjunto de dados de exemplo, Automobile price data (Raw) (Dados de preços de automóveis (não processados)), que está incluído na sua área de trabalho. Este conjunto de dados inclui entradas para vários automóveis individuais, incluindo informações como a marca, o modelo, as especificações técnicas e o preço.

Gorjeta

Pode encontrar uma cópia de trabalho da experimentação seguinte na Galeria de IA do Azure. Vá para Seu primeiro experimento de ciência de dados - Previsão de preço de automóvel e clique em Abrir no Studio para baixar uma cópia do experimento em seu espaço de trabalho (clássico) do Machine Learning Studio.

Eis como obter o conjunto de dados na sua experimentação.

  1. Crie um novo experimento clicando em +NOVO na parte inferior da janela do Estúdio de Aprendizado de Máquina (clássico). Selecione EXPERIMENTO>em branco.

  2. É dado um nome predefinido à experimentação, que pode ver na parte superior da tela. Selecione este texto e mude o nome para algo significativo, como, por exemplo, Previsão de preços de automóveis. O nome não tem de ser exclusivo.

    Mude o nome da experimentação

  3. À esquerda da tela da experimentação existe uma paleta de conjuntos de dados e módulos. Digite automóvel na caixa de pesquisa na parte superior desta paleta para localizar o conjunto de dados denominado Dados do preço automóvel (bruto). Arraste este conjunto de dados para a tela da experimentação.

    Localize o conjunto de dados de automóveis e arraste-o para a tela da experimentação

Para ver a aparência desses dados, clique na porta de saída na parte inferior do conjunto de dados do automóvel e selecione Visualizar.

Clique na porta de saída e selecione

Gorjeta

Os conjuntos de dados e os módulos têm portas de entrada e de saída, representadas por pequenos círculos. As portas de entrada estão em cima e as de saída estão em baixo. Para criar um fluxo de dados através da experimentação, ligue uma porta de saída de um módulo a uma porta de entrada de outro. Pode, em qualquer altura, clicar na porta de saída de um conjunto de dados ou de um módulo para ver o aspeto dos dados nessa fase do fluxo de dados.

Neste conjunto de dados, cada linha representa um automóvel e as variáveis associadas a cada automóvel aparecem como colunas. Vamos prever o preço na coluna da extrema direita (coluna 26, intitulada "preço") usando as variáveis para um automóvel específico.

Veja os dados dos automóveis na janela de visualização de dados

Feche a janela de visualização, clicando no "x" no canto superior direito.

Preparar os dados

Normalmente, um conjunto de dados requer alguns pré-processamentos antes de poder ser analisado. Poderá ter reparado nos valores em falta presentes nas colunas de várias linhas. Estes valores em falta têm de ser apagados para que o modelo possa analisar os dados corretamente. Removeremos todas as linhas que tenham valores ausentes. Além disso, a coluna das perdas normalizadas tem uma grande proporção de valores em falta, pelo que recomendamos que exclua totalmente essa coluna do modelo.

Gorjeta

Apagar os valores em falta a partir dos dados de entrada é um pré-requisito para utilizar a maioria dos módulos.

Primeiro, adicionamos um módulo que remove completamente a coluna de perdas normalizadas. Em seguida, adicionamos outro módulo que remove qualquer linha que tenha dados ausentes.

  1. Digite selecionar colunas na caixa de pesquisa na parte superior da paleta de módulos para localizar o módulo Selecionar colunas no conjunto de dados. Em seguida, arraste-o para a tela do experimento. Este módulo permite-nos selecionar quais as colunas de dados que pretendemos incluir ou excluir no modelo.

  2. Conecte a porta de saída do conjunto de dados de preço do automóvel (bruto) à porta de entrada de Selecionar colunas no conjunto de dados.

    Adicione o módulo

  3. Clique no módulo Select Columns in Dataset e clique em Launch column selector (Iniciar seletor de colunas), no painel Properties (Propriedades).

    • À esquerda, clique em Com regras

    • Em Começar Com, clique em Todas as colunas. Essas regras direcionam Selecionar Colunas no Conjunto de Dados para passar por todas as colunas (exceto as colunas que estamos prestes a excluir).

    • Nas listas pendentes, selecione Excluir e os nomes das colunas e, em seguida, clique dentro da caixa de texto. É apresentada uma lista de colunas. Selecione normalized-losses, que é adicionada à caixa de texto.

    • Clique no botão de marca de seleção (OK) para fechar o seletor de coluna (no canto inferior direito).

      Inicie o seletor de colunas e exclua a coluna

      Agora, o painel de propriedades de Select Columns in Datase indica que o módulo vai percorrer todas as colunas do conjunto de dados, exceto normalized-losses.

      O painel de propriedades mostra que a coluna

      Gorjeta

      Pode adicionar um comentário a um módulo, fazendo duplo clique no módulo e introduzindo o texto. Isto pode ajudá-lo a ver rapidamente o que o módulo está a fazer na sua experimentação. Neste caso, faça duplo clique no módulo Select Columns in Dataset (Selecionar Colunas no Conjunto de Dados) e escreva o comentário "Exclude normalized losses” (“Excluir perdas normalizadas").

      Faça duplo clique num módulo para adicionar um comentário

  4. Arraste o módulo Apagar dados em falta para a tela de experimentação e conecte-o ao módulo Selecionar colunas no conjunto de dados. No painel Properties, selecione Remove entire row (Remover linha inteira), em Cleaning mode (Modo de limpeza). Essas opções direcionam Limpar dados ausentes para limpar os dados removendo linhas que tenham quaisquer valores ausentes. Clique duas vezes no módulo e escreva o comentário "Remover linhas de valor em falta".

    Defina o modo de limpeza como “Remove entire row” no módulo “Clean Missing Data”

  5. Execute a experimentação clicando em EXECUTAR na parte inferior da página.

    Quando a execução da experimentação estiver concluída, todos os módulos têm uma marca de verificação a verde para indicar que foram concluídos com êxito. Repare também no estado Execução terminada no canto superior direito.

    Depois de a executar, a experimentação deverá ter este aspeto

Gorjeta

Porque é que executámos a experimentação agora? Ao executar a experimentação, as definições das colunas dos nossos dados passam do conjunto de dados para o módulo Select Columns in Dataset e para o módulo Clean Missing Data. Isto significa que qualquer módulo que liguemos a Clean Missing Data também terá estas informações.

Agora temos dados limpos. Se pretender ver o conjunto de dados limpo, clique na porta de saída à esquerda do módulo Clean Missing Data e selecione Visualize. Repare que a coluna perdas normalizadas já não está mais incluída e não existem valores em falta.

Agora que os dados foram apagados, estamos prontos para especificar quais as funcionalidades que vai utilizar no modelo preditivo.

Definir recursos

No aprendizado de máquina, os recursos são propriedades mensuráveis individuais de algo em que você está interessado. No nosso conjunto de dados, cada linha representa um automóvel e cada coluna é uma funcionalidade desse automóvel.

Encontrar um bom conjunto de funcionalidades para criar um modelo preditivo requer experimentação e conhecimentos sobre o problema que pretende resolver. Algumas funcionalidades são melhores para prever num destino do que outras. Alguns recursos têm uma forte correlação com outros recursos e podem ser removidos. Por exemplo, city-mpg e highway-mpg estão intimamente relacionados, pelo que podemos manter um e remover o outro sem afetar a predição significativamente.

Vamos criar um modelo que utiliza um subconjunto das funcionalidades no nosso conjunto de dados. Pode regressar mais tarde e selecionar funcionalidades diferentes, executar novamente a experimentação e ver se consegue obter melhores resultados. Contudo, para começar, vamos experimentar as seguintes funcionalidades:

marca, carroçaria, distância entre eixos, tamanho do motor, potência, pico-rpm, auto-estrada-mpg, preço

  1. Arraste outro módulo Select Columns in Dataset para a tela da experimentação. Ligue a porta de saída à esquerda do módulo Clean Missing Data à porta de entrada do módulo Select Columns in Dataset.

    Ligue o módulo

  2. Clique duas vezes no módulo e escreva "Selecionar as funcionalidades para predição".

  3. Clique no painel Iniciar seletor de colunas no painel Propriedades.

  4. Clique em Com regras.

  5. Em Begin With (Começar Em), clique em No columns (Nenhuma coluna). Na linha do filtro, selecione Include (Incluir) e column names (nomes das colunas) e selecione a lista de nomes de colunas na caixa de texto. Este filtro direciona o módulo para não passar por nenhuma coluna (recursos), exceto as que especificamos.

  6. Clique no botão de marca de verificação (OK).

    Selecione as colunas (características) a incluir na predição

Este módulo produz um conjunto de dados filtrado contendo apenas os recursos que queremos passar para o algoritmo de aprendizagem que usaremos na próxima etapa. Mais tarde, pode voltar e tentar novamente com uma seleção de funcionalidades diferente.

Escolher e aplicar um algoritmo

Agora que os dados estão prontos, construir um modelo preditivo consiste em formar e testar. Utilizaremos os nossos dados para preparar o modelo e, em seguida, vamos testá-lo para ver com que exatidão consegue prever os preços.

Classficação e regrssão são dois tipos de algoritmos de machine learning supervisionados. A classificação prevê uma resposta a partir de um conjunto definido de categorias, tais como uma cor (vermelho, azul ou verde). A regressão é utilizada para prever um número.

Uma vez que queremos prever o preço, que é um número, vamos utilizar um algoritmo de regressão. Para este exemplo, usaremos um modelo de regressão linear.

Para preparar o modelo, damos-lhe um conjunto de dados que incluem o preço. O modelo analisa os dados e procura correlações entre as características e o preço de um automóvel. Depois, testamos o modelo. Damos-lhe um conjunto de características de automóveis com que estamos familiarizados e vemos a exatidão com que o modelo consegue prever o preço sabido.

Vamos utilizar os dados quer para preparar o modelo, quer para testá-lo, dividindo-os em conjuntos de dados de preparação e teste separados.

  1. Selecione e arraste o módulo Split Data (Dividir Dados) para a tela da experimentação e ligue-o ao último módulo Select Columns in Dataset.

  2. Clique no módulo Split Data para selecioná-lo. Localize Fraction of rows in the first output dataset (Fração de linhas no primeiro conjunto de dados de saída) (no painel Properties (Propriedades), no lado direito da tela) e defina-a como 0,75. Desta forma, vamos utilizar 75% dos dados para preparar o modelo e retenha 25% para fins de teste.

    Defina a fração de divisão do módulo

    Gorjeta

    Ao alterar o parâmetro Seed aleatório, pode produzir diferentes amostras aleatórias para formação e testar. Este parâmetro controla a propagação do gerador de número pseudo-aleatório.

  3. Execute a experimentação. Quando a experimentação é executada, os módulos Select Columns in Dataset e Split Data passam as definições das colunas para os módulos que vamos adicionar em seguida.

  4. Para selecionar o algoritmo do Learning, expanda a categoria Machine Learning na paleta do módulo para a esquerda da tela e, em seguida, expanda Inicializar modelo. Isto apresenta várias categorias de módulos que podem ser utilizadas para inicializar algoritmos do Machine Learning. Nesta experimentação, selecione o módulo Linear Regression (Regressão Linear), na categoria Regression (Regressão) e arraste-o para a tela da experimentação. (Para encontrar o módulo, também pode escrever “linear regression” na caixa Pesquisa da paleta.)

  5. Localize e arraste o módulo Modelo de formação para a tela de experimentação. Ligue a saída do módulo Linear Regression à entrada da esquerda do módulo Train Model e ligue a saída de dados de preparação (porta da esquerda) do módulo Split Data à entrada da direita do módulo Train Model.

    Ligue o módulo “Train Module” aos módulos “Linear Regression” e “Split Data”

  6. Clique no módulo Train Model, clique em Launch column selectorno painel Properties e selecione a coluna price (preço). Preço é o valor que o nosso modelo vai prever.

    Para selecionar a coluna price no seletor de colunas, mova-a da lista Available columns (Colunas disponíveis) para a lista Selected columns (Colunas selecionadas).

    Selecione a coluna de preços do módulo “Train Model”

  7. Execute a experimentação.

Temos agora um modelo de regressão preparado que pode ser utilizado para classificar dados de automóveis novos e fazer predições de preços.

Depois de ser executada, a experimentação deverá ter este aspeto

Prever novos preços de automóveis

Agora que experimentámos o modelo, utilizando 75% dos nossos dados, podemos utilizá-lo para pontuar os outros 25% por cento dos dados para ver quão bem funciona o nosso modelo.

  1. Localize e arraste o módulo Score Model (Classificar Modelo) para a tela da experimentação. Ligue a saída do módulo Train Model à porta de entrada da esquerda de Score Model. Ligue a saída de dados de teste (porta da direita) do módulo Split Data à porta de entrada da direita de Score Model.

    Ligue o módulo

  2. Execute o experimento e visualize a saída do módulo Score Model clicando na porta de saída do Score Model e selecione Visualizar. O resultado mostra os valores previstos para os preços e os valores conhecidos dos dados do teste.

    Saída do módulo “Score Model”

  3. Por fim, vamos testar a qualidade dos resultados. Selecione e arraste o módulo Evaluate Model (Avaliar Modelo) para a tela da experimentação e ligue a saída do módulo Score Model à entrada da esquerda de Evaluate Model. A experimentação final deve ter este aspeto:

    A experimentação final

  4. Execute a experimentação.

Para ver o resultado do módulo Evaluate Model, clique na porta de saída e, em seguida, selecione Visualize.

Resultados da avaliação da experimentação

As estatísticas seguintes são apresentadas para o nosso modelo:

  • Média dos erros absolutos (MAE): A média dos erros absolutos (um erro é a diferença entre o valor previsto e o valor real).
  • Raiz quadrada da média dos erros (RMSE): A raiz quadrada da média dos erros ao quadrado das predições efetuadas no conjunto de dados de teste.
  • Erro relativo absoluto: A média dos erros absolutos relativos à diferença absoluta entre os valores reais e a média de todos os valores reais.
  • Erro ao quadrado absoluto: A média dos erros ao quadrado relativos à diferença ao quadrado entre os valores reais e a média de todos os valores reais.
  • Coeficiente de determinação: Também conhecido como o valor de R ao quadrado, esta é uma métrica de estatística que indica o quão bem um modelo é adequado para os dados.

Em cada uma das estatísticas de erros, quanto mais pequeno, melhor. Um valor mais pequeno indica que as predições mais detalhadas correspondem aos valores reais. No Coeficiente de determinação, quanto mais próximo for um valor de outro (1.0), melhores serão as predições.

Clean up resources (Limpar recursos)

Se você não precisar mais dos recursos que criou usando este artigo, exclua-os para evitar incorrer em cobranças. Saiba como no artigo, Exportar e excluir dados do usuário no produto.

Próximos passos

Neste início rápido, você criou um experimento simples usando um conjunto de dados de exemplo. Para explorar o processo de criação e implantação de um modelo com mais profundidade, continue para o tutorial da solução preditiva.