Conjuntos de dados de pipelines & de exemplo para designer de aprendizagem de máquinas Azure

Use os exemplos incorporados no designer de Aprendizagem automática Azure para começar rapidamente a construir os seus próprios oleodutos de aprendizagem automática. O repositório gitHub do designer de machine learning Azure contém documentação detalhada para ajudá-lo a entender alguns cenários comuns de aprendizagem automática.

Pré-requisitos

  • Uma subscrição do Azure. Se não tiver uma subscrição do Azure, crie uma conta gratuita
  • Uma área de trabalho do Azure Machine Learning

Importante

Se não vir elementos gráficos mencionados neste documento, como botões em estúdio ou designer, poderá não ter o nível certo de permissões para o espaço de trabalho. Contacte o administrador de subscrição da Azure para verificar se lhe foi concedido o nível de acesso correto. Para obter mais informações, consulte Gerir utilizadores e funções.

Utilize gasodutos de amostra

O designer guarda uma cópia dos oleodutos da amostra para o seu espaço de trabalho do estúdio. Pode editar o pipeline para adaptá-lo às suas necessidades e guardá-lo como seu. Use-os como ponto de partida para iniciar os seus projetos.

Eis como usar uma amostra de designer:

  1. Inscreva-se para ml.azure.com e selecione o espaço de trabalho com o quais pretende trabalhar.

  2. Selecione Designer.

  3. Selecione um gasoduto de amostra sob a secção do novo gasoduto .

    Selecione Mostrar mais amostras para uma lista completa de amostras.

  4. Para executar um oleoduto, primeiro tem de definir o alvo de computação padrão para executar o oleoduto.

    1. No painel de Definições à direita da tela, selecione Selecione o alvo de cálculo.

    2. No diálogo que aparece, selecione um alvo de computação existente ou crie um novo. Selecione Guardar.

    3. Selecione Submeter-se na parte superior da tela para submeter um trabalho de pipeline.

    Dependendo do gasoduto de amostra e das definições de cálculo, os trabalhos podem demorar algum tempo a ser concluídos. As definições de computação predefinido têm um tamanho mínimo de nó de 0, o que significa que o designer deve alocar recursos depois de estar inativo. Os trabalhos de gasoduto repetidos levarão menos tempo, uma vez que os recursos de cálculo já estão alocados. Além disso, o designer utiliza resultados em cache para cada componente para melhorar ainda mais a eficiência.

  5. Depois de o gasoduto terminar em funcionamento, pode rever o oleoduto e ver a saída para cada componente para saber mais. Utilize os seguintes passos para visualizar as saídas dos componentes:

    1. Clique com o direito no componente na tela cuja saída gostaria de ver.
    2. Selecione Visualizar.

    Utilize as amostras como pontos de partida para alguns dos cenários mais comuns de aprendizagem automática.

Regressão

Explore estas amostras de regressão incorporadas.

Título de exemplo Description
Regressão - Previsão dos Preços do Automóvel (Básico) Prever os preços dos carros usando a regressão linear.
Regressão - Previsão do Preço do Automóvel (Avançado) Prever os preços dos automóveis usando a floresta de decisão e impulsionar os regressores de árvores de decisão. Compare os modelos para encontrar o melhor algoritmo.

Classificação

Explore estas amostras de classificação incorporadas. Você pode aprender mais sobre as amostras abrindo as amostras e visualizando os comentários do componente no designer.

Título de exemplo Description
Classificação Binária com Seleção de Recursos - Previsão de Rendimento Prever o rendimento tão alto ou baixo, usando uma árvore de decisão reforçada de duas classes. Use a correlação Pearson para selecionar funcionalidades.
Classificação binária com script pitão personalizado - Previsão do Risco de Crédito Classificar os pedidos de crédito como de alto ou baixo risco. Utilize o componente 'Executar o Script Python' para pesar os seus dados.
Classificação Binária - Previsão da Relação do Cliente Prever o churn do cliente usando árvores de decisão de duas classes. Utilize o SMOTE para recolher amostras de dados tendenciosos.
Classificação de texto - Wikipedia SP 500 Dataset Classifique os tipos de empresas de artigos da Wikipédia com regressão logística multiclasse.
Classificação Multiclasse - Reconhecimento de Letras Crie um conjunto de classificadores binários para classificar letras escritas.

Imagem digitalizada

Explore estas amostras de visão computacional incorporadas. Você pode aprender mais sobre as amostras abrindo as amostras e visualizando os comentários do componente no designer.

Título de exemplo Description
Classificação de imagem usando DenseNet Utilize componentes de visão computacional para construir um modelo de classificação de imagem baseado no PyTorch DenseNet.

Recomendador

Explore estas amostras de recomendadores incorporadas. Você pode aprender mais sobre as amostras abrindo as amostras e visualizando os comentários do componente no designer.

Título de exemplo Description
Recomendação de base profunda ampla & - Previsão de Classificação de Restaurantes Construa um motor de recomendação de restaurante a partir de funcionalidades e classificações de restaurante/utilizador.
Recomendação - Tweets de Classificação de Filmes Construa um motor de recomendação de filme a partir de funcionalidades de filme/utilizador e classificações.

Utilitário

Saiba mais sobre as amostras que demonstram serviços e funcionalidades de aprendizagem automática. Você pode aprender mais sobre as amostras abrindo as amostras e visualizando os comentários do componente no designer.

Título de exemplo Description
Classificação Binária usando Modelo de Wabbit Vowpal - Previsão do Rendimento de Adultos Vowpal Wabbit é um sistema de aprendizagem automática que empurra a fronteira da aprendizagem automática com técnicas como online, hashing, allreduce, reduções, learning2search, ative, e aprendizagem interativa. Esta amostra mostra como usar o modelo Vowpal Wabbit para construir um modelo de classificação binária.
Use script R personalizado - Previsão do atraso de voo Use o script R personalizado para prever se um voo de passageiros programado será adiado por mais de 15 minutos.
Validação cruzada para classificação binária - Previsão do Rendimento de Adultos Utilize validação cruzada para construir um classificador binário para o rendimento de adultos.
Importância da funcionalidade de permutação Utilizar a importância da funcionalidade de permutação para calcular as pontuações de importância para o conjunto de dados do teste.
Parâmetros de sintonização para classificação binária - Previsão do Rendimento de Adultos Utilize hiperparmetros tune model para encontrar hiperparímetros ideais para construir um classificador binário.

Conjuntos de dados

Quando cria um novo pipeline no designer Azure Machine Learning, uma série de conjuntos de dados da amostra são incluídos por padrão. Estes conjuntos de dados da amostra são utilizados pelos gasodutos de amostra na página inicial do designer.

Os conjuntos de dados da amostra estão disponíveis na categoria Datasets-Samples . Pode encontrar isto na paleta de componentes à esquerda da tela no designer. Pode utilizar qualquer um destes conjuntos de dados no seu próprio oleoduto arrastando-o para a tela.

Nome do conjunto de dados Descrição do conjunto de dados
Conjunto de dados de classificação binária de rendimento do rendimento do rendimento de adultos Um subconjunto da base de dados censos de 1994, utilizando adultos que trabalham com mais de 16 anos com um índice de rendimento ajustado de > 100.
Utilização: Classificar as pessoas que usam a demografia para prever se uma pessoa ganha mais de 50 mil por ano.
Investigação Relacionada: Kohavi, R., Becker, B., (1996). Uci Machine Learning Repository. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação
Dados sobre os preços do automóvel (Raw) Informação sobre automóveis por marca e modelo, incluindo o preço, características como o número de cilindros e MPG, bem como uma pontuação de risco de seguro.
A pontuação de risco está inicialmente associada ao preço automóvel. É então ajustado para o risco real num processo conhecido pelos atuadores como símbolo. Um valor de +3 indica que o automóvel é arriscado, e um valor de -3 que provavelmente é seguro.
Utilização: Prever a pontuação de risco por funcionalidades, utilizando a regressão ou classificação multivariada.
Investigação Relacionada: Schlimmer, J.C. (1987). Uci Machine Learning Repository. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação.
Rótulos de Appetency CRM compartilhados Etiquetas do desafio de previsão da relação com o cliente KDD Cup 2009 (orange_small_train_appetency.labels).
Etiquetas CRM Churn Compartilhadas Etiquetas do desafio de previsão da relação com o cliente KDD Cup 2009 (orange_small_train_churn.labels).
Conjunto de dados crm compartilhado Estes dados provêm do desafio de previsão da relação com o cliente da KDD Cup 2009 (orange_small_train.data.zip).
O conjunto de dados contém clientes de 50K da empresa francesa de telecomunicações Orange. Cada cliente tem 230 funcionalidades anonimizadas, das quais 190 são numéricas e 40 são categóricas. As características são muito escassas.
Etiquetas de upselling CRM partilhadas Rótulos do desafio de previsão da relação com o cliente KDD Cup 2009 (orange_large_train_upselling.labels
Dados de atrasos de voo Dados de desempenho de voo de passageiros retirados da recolha de dados tranStats do Departamento de Transportes dos EUA (On-Time).
O conjunto de dados cobre o período de tempo April-October 2013. Antes de enviar para o designer, o conjunto de dados foi processado da seguinte forma:
- O conjunto de dados foi filtrado para cobrir apenas os 70 aeroportos mais movimentados dos EUA
- Voos cancelados foram rotulados como atrasados por mais de 15 minutos
- Voos desviados foram filtrados
- Foram selecionadas as seguintes colunas: Ano, Mês, DiaofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelado
Conjunto de dados do Cartão de Crédito Alemão UCI O conjunto de dados da UCI Statlog (Cartão de Crédito Alemão) (Statlog+German+Credit+Data), utilizando o ficheiro german.data.
O conjunto de dados classifica as pessoas, descritas por um conjunto de atributos, como riscos de crédito baixos ou elevados. Cada exemplo representa uma pessoa. Existem 20 características, tanto numéricas como categóricas, e uma etiqueta binária (o valor do risco de crédito). As entradas de alto risco de crédito têm etiqueta = 2, as entradas de baixo risco de crédito têm etiqueta = 1. O custo de classificar mal um exemplo de baixo risco como elevado é 1, enquanto o custo de classificação errada de um exemplo de alto risco como baixo é 5.
Títulos de filme do IMDB O conjunto de dados contém informações sobre filmes que foram classificados em tweets do Twitter: ID filme IMDB, nome do filme, género e ano de produção. Há filmes de 17K no conjunto de dados. O conjunto de dados foi introduzido no jornal "S. Dooms, T. De Pessemier e L. Martens. MovieTweetings: um conjunto de dados de classificação de filme recolhido do Twitter. Workshop de Crowdsourcing e Computação Humana para Sistemas Recomendadores, CrowdRec na RecSys 2013."
Classificações de Filmes O conjunto de dados é uma versão estendida do conjunto de dados movie Tweetings. O conjunto de dados tem classificações de 170K para filmes, extraídos de tweets bem estruturados no Twitter. Cada instância representa um tweet e é um tuple: ID do utilizador, ID de filme IMDB, classificação, timetamp, número de favoritos para este tweet, e número de retweets deste tweet. O conjunto de dados foi disponibilizado por A. Said, S. Dooms, B. Loni e D. Tikk para o Recommender Systems Challenge 2014.
Conjunto de dados meteorológicos Observações meteorológicas por hora da NOAA (dados fundidos de 201304 a 201310).
Os dados meteorológicos cobrem observações feitas a partir de estações meteorológicas do aeroporto, abrangendo o período April-October 2013. Antes de enviar para o designer, o conjunto de dados foi processado da seguinte forma:
- Os IDs da estação meteorológica foram mapeados para os iDs do aeroporto correspondentes
- Estações meteorológicas não associadas aos 70 aeroportos mais movimentados foram filtradas
- A coluna Date foi dividida em colunas separadas do Ano, Mês e Dia
- Foram selecionadas as seguintes colunas: AirportID, Ano, Mês, Dia, Tempo, TimeZone, SkyCondition, Visibilidade, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, Hourpreciply, AlPreciply, Alprettime, Alter
Conjunto de dados Wikipedia SP 500 Os dados são derivados da Wikipédia (https://www.wikipedia.org/) com base em artigos de cada empresa S&P 500, armazenados como dados XML.
Antes de enviar para o designer, o conjunto de dados foi processado da seguinte forma:
- Extrair conteúdo de texto para cada empresa específica
- Remover a formatação wiki
- Remover caracteres não alfanuméricos
- Converter todo o texto em minúsculas
- Foram adicionadas categorias de empresas conhecidas
Note-se que para algumas empresas não foi possível encontrar um artigo, pelo que o número de registos é inferior a 500.
Dados de Características do Restaurante Um conjunto de metadados sobre restaurantes e suas características, como tipo de comida, estilo de jantar e localização.
Utilização: Utilize este conjunto de dados, em combinação com os outros dois conjuntos de dados do restaurante, para treinar e testar um sistema de recomendadores.
Investigação Relacionada: Bache, K. e Lichman, M. (2013). Uci Machine Learning Repository. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação.
Classificações de Restaurantes Contém classificações dadas pelos utilizadores a restaurantes numa escala de 0 a 2.
Utilização: Utilize este conjunto de dados, em combinação com os outros dois conjuntos de dados do restaurante, para treinar e testar um sistema de recomendadores.
Investigação Relacionada: Bache, K. e Lichman, M. (2013). Uci Machine Learning Repository. Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação.
Dados do Cliente do Restaurante Um conjunto de metadados sobre clientes, incluindo demografia e preferências.
Utilização: Utilize este conjunto de dados, em combinação com os outros dois conjuntos de dados do restaurante, para treinar e testar um sistema de recomendadores.
Investigação Relacionada: Bache, K. e Lichman, M. (2013). Repositório de Aprendizagem automática da UCI Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciências da Computação.

Limpar os recursos

Importante

Pode utilizar os recursos que criou como pré-requisitos para outros tutoriais do Azure Machine Learning e artigos de procedimentos.

Apagar tudo

Se não pretender usar nada que tenha criado, elimine todo o grupo de recursos para não incorrer em quaisquer encargos.

  1. No portal do Azure, selecione grupos de recursos no lado esquerdo da janela.

    Eliminar grupo de recursos no portal do Azure

  2. Na lista, selecione o grupo de recursos que criou.

  3. Selecione Eliminar grupo de recursos.

A eliminação do grupo de recursos também elimina todos os recursos que criou no designer.

Eliminar ativos individuais

No designer onde criou a sua experiência, elimine os ativos individuais selecionando-os e selecionando o botão Eliminar .

O alvo de cálculo que criou aqui automaticamente escala automaticamente para zero nós quando não está a ser usado. Esta ação é tomada para minimizar as cargas. Se quiser eliminar o alvo do cálculo, tome estes passos:

Eliminar ativos

Pode desagregar conjuntos de dados do seu espaço de trabalho selecionando cada conjunto de dados e selecionando O Registo Não Registado.

Conjunto de dados não registador

Para eliminar um conjunto de dados, aceda à conta de armazenamento utilizando o portal do Azure ou Explorador de Armazenamento do Azure e elimine manualmente esses ativos.

Passos seguintes

Aprenda os fundamentos da análise preditiva e machine learning com tutorial: Preveja o preço do automóvel com o designer