Partilhar via


Usar os conjuntos de dados de exemplo no Machine Learning Studio (clássico)

APLICA-SE A: Aplica-se a.Machine Learning Studio (clássico) Não se aplica a.Azure Machine Learning

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Quando você cria um novo espaço de trabalho no Machine Learning Studio (clássico), vários conjuntos de dados de exemplo e experimentos são incluídos por padrão. Muitos desses conjuntos de dados de exemplo são usados pelos modelos de exemplo na Galeria de IA do Azure. Outros são incluídos como exemplos de vários tipos de dados normalmente usados no aprendizado de máquina.

Alguns desses conjuntos de dados estão disponíveis no armazenamento de Blob do Azure. Para esses conjuntos de dados, a tabela a seguir fornece um link direto. Você pode usar esses conjuntos de dados em seus experimentos usando o módulo Importar dados .

O restante desses conjuntos de dados de exemplo está disponível em seu espaço de trabalho em Conjuntos de dados salvos. Você pode encontrar isso na paleta de módulos à esquerda da tela de experimento no Machine Learning Studio (clássico). Você pode usar qualquer um desses conjuntos de dados em seu próprio experimento arrastando-o para a tela do experimento.

Conjuntos de Dados

Nome do conjunto de dados Descrição do conjunto de dados
Conjunto de dados da Classificação Binária de Renda do Censo Adulto Subconjunto da base de dados do Censo de 1994, utilizando adultos trabalhadores com mais de 16 anos com um índice de rendimento ajustado de > 100.

Uso: classifique as pessoas usando dados demográficos para prever se uma pessoa ganha mais de 50 mil por ano.

Investigação relacionada: Kohavi, R., Becker, B., (1996). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação
Conjunto de dados de códigos de aeroporto Códigos de aeroporto dos EUA.

Este conjunto de dados contém uma linha para cada aeroporto dos EUA, fornecendo o número de identificação e o nome do aeroporto, juntamente com a localização, cidade e estado.
Dados sobre os preços dos automóveis (Raw) Informações sobre automóveis por marca e modelo, incluindo o preço, características como o número de cilindros e MPG, bem como uma pontuação de risco de seguro.

A pontuação de risco está inicialmente associada ao preço do automóvel. Em seguida, é ajustado para ter em conta o risco real num processo conhecido pelos atuários como símbolo. Um valor de +3 indica que o automóvel é arriscado e um valor de -3 que é provavelmente seguro.

Uso: Prever a pontuação de risco por características, usando regressão ou classificação multivariada.

Investigação relacionada: Schlimmer, J.C. (1987). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação
Conjunto de dados UCI de aluguer de bicicletas Conjunto de dados UCI Bike Rental que é baseado em dados reais da empresa Capital Bikeshare que mantém uma rede de aluguel de bicicletas em Washington DC.

O conjunto de dados tem uma linha para cada hora de cada dia em 2011 e 2012, para um total de 17.379 linhas. A gama de aluguel de bicicletas por hora é de 1 a 977.
Imagem RGB de Bill Gates Arquivo de imagem disponível publicamente convertido em dados CSV.

O código para converter a imagem é fornecido na página de detalhes do modelo de agrupamento de cores usando K-Means.
Dados sobre a dádiva de sangue Um subconjunto de dados da base de dados de dadores de sangue do Centro de Serviços de Transfusão de Sangue da Cidade de Hsin-Chu, Taiwan.

Os dados relativos aos dadores incluem os meses decorridos desde a última dádiva) e a frequência, ou o número total de dádivas, o tempo decorrido desde a última dádiva e a quantidade de sangue doado.

Utilização: O objetivo é prever, através da classificação, se o dador doou sangue em março de 2007, em que 1 indica um dador durante o período alvo e 0 um não dador.

Investigação relacionada: Yeh, I.C., (2008). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação

Yeh, I-Cheng, Yang, King-Jang, e Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence", Sistemas Especialistas com Aplicações, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Dados sobre o cancro da mama Um dos três conjuntos de dados relacionados ao câncer fornecidos pelo Instituto de Oncologia que aparece com frequência na literatura de aprendizado de máquina. Combina informações de diagnóstico com características da análise laboratorial de cerca de 300 amostras de tecido.

Uso: Classifique o tipo de câncer, com base em 9 atributos, alguns dos quais são lineares e outros são categóricos.

Investigação relacionada: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação
Características do câncer de mama O conjunto de dados contém informações para 102 mil regiões suspeitas (candidatos) de imagens de raios-X, cada uma descrita por 117 recursos. Os recursos são proprietários e seu significado não é revelado pelos criadores do conjunto de dados (Siemens Healthcare).
Informação sobre o cancro da mama O conjunto de dados contém informações adicionais para cada região suspeita de imagem de raios-X. Cada exemplo fornece informações (por exemplo, rótulo, ID do paciente, coordenadas do patch em relação à imagem inteira) sobre o número da linha correspondente no conjunto de dados Recursos do Câncer de Mama. Cada paciente tem uma série de exemplos. Para os doentes que têm um cancro, alguns exemplos são positivos e outros negativos. Para pacientes que não têm câncer, todos os exemplos são negativos. O conjunto de dados tem exemplos de 102K. O conjunto de dados é tendencioso, 0,6% dos pontos são positivos, os restantes são negativos. O conjunto de dados foi disponibilizado pela Siemens Healthcare.
Rótulos de apetência do CRM compartilhados Rótulos do desafio de previsão de relacionamento com o cliente da Copa KDD 2009 (orange_small_train_appetency.labels).
Etiquetas de Churn do CRM compartilhadas Rótulos do desafio de previsão de relacionamento com o cliente da KDD Cup 2009 (orange_small_train_churn.labels).
Conjunto de dados do CRM compartilhado Estes dados são do desafio de previsão de relacionamento com o cliente KDD Cup 2009 (orange_small_train.data.zip).

O conjunto de dados contém 50 mil clientes da empresa francesa de telecomunicações Orange. Cada cliente tem 230 recursos anonimizados, sendo 190 numéricos e 40 categóricos. As características são muito escassas.
CRM Upselling Rótulos Compartilhados Rótulos do desafio de previsão de relacionamento com o cliente da Copa KDD 2009 (orange_large_train_upselling.labels).
Dados de regressão de eficiência energética Uma coleção de perfis de energia simulados, com base em 12 formas diferentes de edifícios. Os edifícios são diferenciados por oito características. Isso inclui a área de vidro, a distribuição da área de vidro e a orientação.

Uso: Use regressão ou classificação para prever a classificação de eficiência energética com base como uma das duas respostas de valor real. Para a classificação multiclasse, é arredondar a variável de resposta para o número inteiro mais próximo.

Pesquisa relacionada: Xifara, A. & Tsanas, A. (2012). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação
Dados de atrasos de voos Dados de desempenho pontual de voos de passageiros retirados da recolha de dados TranStats do Departamento de Transportes dos EUA (On-Time).

O conjunto de dados abrange o período de abril a outubro de 2013. Antes de ser carregado para o Machine Learning Studio (clássico), o conjunto de dados foi processado da seguinte forma:
  • O conjunto de dados foi filtrado para cobrir apenas os 70 aeroportos mais movimentados do continente dos EUA
  • Voos cancelados foram rotulados como atrasados por mais de 15 minutos
  • Voos desviados foram filtrados
  • Foram selecionadas as seguintes colunas: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Desempenho pontual do voo (Raw) Registros de chegadas e partidas de voos de aviões dentro dos Estados Unidos a partir de outubro de 2011.

Uso: Prever atrasos de voos.

Pesquisa relacionada: Do Departamento de Transportes https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Timedos EUA .
Dados sobre incêndios florestais Contém dados meteorológicos, tais como índices de temperatura e humidade e velocidade do vento. Os dados são retirados de uma área do nordeste de Portugal, combinados com registos de incêndios florestais.

Uso: Esta é uma tarefa de regressão difícil, onde o objetivo é prever a área queimada de incêndios florestais.

Pesquisa relacionada: Cortez, P., & Morais, A. (2008). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação

[Cortez e Morais, 2007] P. Cortez e A. Morais. Uma abordagem de mineração de dados para prever incêndios florestais usando dados meteorológicos. In J. Neves, M. F. Santos e J. Machado Eds., New Trends in Artificial Intelligence, Atas da 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, dezembro, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponível em: http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Conjunto de dados UCI de cartão de crédito alemão O conjunto de dados UCI Statlog (German Credit Card) (Statlog+German+Credit+Data), usando o arquivo german.data.

O conjunto de dados classifica as pessoas, descritas por um conjunto de atributos, como de baixo ou alto risco de crédito. Cada exemplo representa uma pessoa. Existem 20 características, numéricas e categóricas, e um rótulo binário (o valor do risco de crédito). As entradas de alto risco de crédito têm rótulo = 2, as entradas de baixo risco de crédito têm rótulo = 1. O custo de classificar incorretamente um exemplo de baixo risco como alto é 1, enquanto o custo de classificar incorretamente um exemplo de alto risco como baixo é 5.
Títulos de filmes IMDB O conjunto de dados contém informações sobre filmes que foram classificados em tweets do Twitter: ID do filme IMDB, nome do filme, gênero e ano de produção. Há 17 mil filmes no conjunto de dados. O conjunto de dados foi introduzido no artigo "S. Dooms, T. De Pessemier e L. Martens. MovieTweetings: um conjunto de dados de classificação de filmes coletados do Twitter. Workshop sobre Crowdsourcing e Computação Humana para Sistemas de Recomendação, CrowdRec na RecSys 2013."
Dados de duas classes Iris Esta é talvez a base de dados mais conhecida na literatura de reconhecimento de padrões. O conjunto de dados é relativamente pequeno, contendo 50 exemplos cada de medições de pétalas de três variedades de íris.

Uso: Preveja o tipo de íris a partir das medições.

Investigação relacionada: Fisher, R.A. (1988). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação
Tweets de filmes O conjunto de dados é uma versão estendida do conjunto de dados Movie Tweetings. O conjunto de dados tem 170 mil classificações para filmes, extraídas de tweets bem estruturados no Twitter. Cada instância representa um tweet e é uma tupla: ID de usuário, ID de filme IMDB, classificação, carimbo de data/hora, número de favoritos para este tweet e número de retweets deste tweet. O conjunto de dados foi disponibilizado por A. Said, S. Dooms, B. Loni e D. Tikk para o Recommender Systems Challenge 2014.
Dados MPG para vários automóveis Este conjunto de dados é uma versão ligeiramente modificada do conjunto de dados fornecido pela biblioteca StatLib da Universidade Carnegie Mellon. O conjunto de dados foi utilizado na American Statistical Association Exposition de 1983.

Os dados listam o consumo de combustível para vários automóveis em milhas por galão. Ele também inclui informações como o número de cilindros, cilindrada, potência, peso total e aceleração.

Uso: Preveja a economia de combustível com base em três atributos discretos de vários valores e cinco atributos contínuos.

Investigação relacionada: StatLib, Carnegie Mellon University, (1993). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação
Conjunto de dados Pima Indians Diabetes Binary Classification Um subconjunto de dados da base de dados do Instituto Nacional de Diabetes e Doenças Digestivas e Renais. O conjunto de dados foi filtrado para se concentrar em pacientes do sexo feminino de origem indígena Pima. Os dados incluem dados médicos, como níveis de glicose e insulina, bem como fatores de estilo de vida.

Uso: Prever se o sujeito tem diabetes (classificação binária).

Investigação relacionada: Sigillito, V. (1990). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning ". Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação
Restaurant customer data Um conjunto de metadados sobre clientes, incluindo dados demográficos e preferências.

Uso: use este conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação.

Investigação relacionada: Bache, K. e Lichman, M. (2013). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação.
Restaurant feature data Um conjunto de metadados sobre restaurantes e suas características, como tipo de comida, estilo de jantar e localização.

Uso: use este conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação.

Investigação relacionada: Bache, K. e Lichman, M. (2013). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação.
Restaurant ratings Contém classificações dadas pelos utilizadores aos restaurantes numa escala de 0 a 2.

Uso: use este conjunto de dados, em combinação com os outros dois conjuntos de dados de restaurantes, para treinar e testar um sistema de recomendação.

Investigação relacionada: Bache, K. e Lichman, M. (2013). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação.
Conjunto de dados multiclasse de recozimento de aço Este conjunto de dados contém uma série de registos de ensaios de recozimento de aço. Contém os atributos físicos (largura, espessura, tipo (bobina, chapa, etc.) dos tipos de aço resultantes.

Uso: Preveja qualquer um dos dois atributos de classe numérica: dureza ou força. Você também pode analisar correlações entre atributos.

As classes de aço seguem um padrão definido, definido pela SAE e outras organizações. Você está procurando uma 'nota' específica (a variável de classe) e quer entender os valores necessários.

Pesquisa relacionada: Sterling, D. & Buntine, W. (NA). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação e Ciência da Computação

Um guia útil para as classes de aço pode ser encontrado aqui: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Dados do telescópio Registro de explosões de partículas gama de alta energia juntamente com ruído de fundo, ambos simulados usando um processo de Monte Carlo.

A intenção da simulação era melhorar a precisão dos telescópios gama Cherenkov atmosféricos terrestres. Isto é feito usando métodos estatísticos para diferenciar entre o sinal desejado (chuveiros de radiação Cherenkov) e ruído de fundo (chuveiros hadrônicos iniciados por raios cósmicos na atmosfera superior).

Os dados foram pré-processados para criar um cluster alongado com o eixo longo é orientado para o centro da câmera. As características desta elipse (muitas vezes chamadas de parâmetros Hillas) estão entre os parâmetros de imagem que podem ser usados para discriminação.

Uso: Prever se a imagem de um chuveiro representa sinal ou ruído de fundo.

Notas: A precisão de classificação simples não é significativa para estes dados, uma vez que classificar um evento de fundo como sinal é pior do que classificar um evento de sinal como plano de fundo. Para a comparação de diferentes classificadores, deve ser utilizado o gráfico ROC. A probabilidade de aceitar um evento de fundo como sinal deve estar abaixo de um dos seguintes limites: 0,01, 0,02, 0,05, 0,1 ou 0,2.

Além disso, note que o número de eventos de fundo (h, para chuvas hadrônicas) é subestimado. Em medições reais, a classe h ou ruído representa a maioria dos eventos.

Investigação relacionada: Bock, R.K. (1995). Repositório https://archive.ics.uci.edu/mlUCI Machine Learning . Irvine, CA: Universidade da Califórnia, Escola de Informação
Conjunto de dados meteorológicos Observações meteorológicas terrestres horárias da NOAA (dados mesclados de 201304 a 201310).

Os dados meteorológicos abrangem observações feitas a partir de estações meteorológicas de aeroportos, cobrindo o período de abril a outubro de 2013. Antes de ser carregado para o Machine Learning Studio (clássico), o conjunto de dados foi processado da seguinte forma:
  • Os IDs das estações meteorológicas foram mapeados para os IDs dos aeroportos correspondentes
  • As estações meteorológicas não associadas aos 70 aeroportos mais movimentados foram filtradas
  • A coluna Data foi dividida em colunas separadas Ano, Mês e Dia
  • Foram selecionadas as seguintes colunas: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Conjunto de dados Wikipedia SP 500 Os dados são derivados da Wikipédia (https://www.wikipedia.org/) com base em artigos de cada empresa S&P 500, armazenados como dados XML.

Antes de ser carregado para o Machine Learning Studio (clássico), o conjunto de dados foi processado da seguinte forma:
  • Extraia conteúdo de texto para cada empresa específica
  • Remover formatação wiki
  • Remover caracteres não alfanuméricos
  • Converter todo o texto em minúsculas
  • Foram adicionadas categorias de empresas conhecidas

Note-se que para algumas empresas não foi possível encontrar um artigo, pelo que o número de registos é inferior a 500.
direct_marketing.csv O conjunto de dados contém dados de clientes e indicações sobre sua resposta a uma campanha de mala direta. Cada linha representa um cliente. O conjunto de dados contém nove recursos sobre dados demográficos do usuário e comportamento passado, além de três colunas de rótulo (visita, conversão e gasto). Visit é uma coluna binária que indica que um cliente visitou após a campanha de marketing. A conversão indica que um cliente comprou algo. Gastar é o valor que foi gasto. O conjunto de dados foi disponibilizado por Kevin Hillstrom para o MineThatData E-Mail Analytics And Data Mining Challenge.
lyrl2004_tokens_test.csv Características dos exemplos de teste no conjunto de dados de notícias RCV1-V2 Reuters. O conjunto de dados tem 781 mil artigos de notícias juntamente com seus IDs (primeira coluna do conjunto de dados). Cada artigo é tokenizado, interrompido e derivado. O conjunto de dados foi disponibilizado por David. D. Lewis.
lyrl2004_tokens_train.csv Características dos exemplos de formação no conjunto de dados de notícias RCV1-V2 Reuters. O conjunto de dados tem 23 mil artigos de notícias juntamente com seus IDs (primeira coluna do conjunto de dados). Cada artigo é tokenizado, interrompido e derivado. O conjunto de dados foi disponibilizado por David. D. Lewis.
network_intrusion_detection.csv
Conjunto de dados da KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

O conjunto de dados foi baixado e armazenado no armazenamento de Blob do Azure (network_intrusion_detection.csv) e inclui conjuntos de dados de treinamento e teste. O conjunto de dados de treinamento tem aproximadamente 126K linhas e 43 colunas, incluindo os rótulos. Três colunas fazem parte das informações do rótulo e 40 colunas, que consistem em características numéricas e string/categóricas, estão disponíveis para treinar o modelo. Os dados de teste têm aproximadamente 22,5 mil exemplos de teste com as mesmas 43 colunas dos dados de treinamento.
rcv1-v2.topics.qrels.csv Atribuições de tópicos para artigos de notícias no conjunto de dados de notícias RCV1-V2 Reuters. Um artigo de notícias pode ser atribuído a vários tópicos. O formato de cada linha é "<topic name><document id> 1". O conjunto de dados contém 2,6 milhões de atribuições de tópicos. O conjunto de dados foi disponibilizado por David. D. Lewis.
student_performance.txt Estes dados provêm do desafio KDD Cup 2010 Student performance evaluation (avaliação do desempenho dos alunos). Os dados utilizados são o conjunto de treinamento Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Álgebra I 2008-2009. Conjunto de dados do desafio do KDD Cup 2010 Educational Data Mining Challenge. Encontre-o em downloads.jsp.

O conjunto de dados foi baixado e armazenado no armazenamento de Blob do Azure (student_performance.txt) e contém arquivos de log de um sistema de tutoria para alunos. Os recursos fornecidos incluem ID do problema e sua breve descrição, ID do aluno, carimbo de data/hora e quantas tentativas o aluno fez antes de resolver o problema da maneira correta. O conjunto de dados original tem 8,9 milhões de registros; este conjunto de dados foi reduzido para as primeiras linhas de 100K. O conjunto de dados tem 23 colunas separadas por tabulações de vários tipos: numéricas, categóricas e carimbo de data/hora.

Próximos passos