Utilisation des exemples de jeux de données dans Machine Learning Studio (classique)

S’APPLIQUE À :S’applique à Machine Learning Studio (classique) Ne s’applique pas à Azure Machine Learning

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Quand vous créez un espace de travail dans Machine Learning Studio (classique), vous disposez par défaut d’un certain nombre d’exemples de jeux de données et d’expériences. Plusieurs de ces exemples de jeux de données sont utilisés par les exemples de modèles d’Azure AI Gallery. D’autres sont inclus comme exemples des différents types de données généralement utilisées dans Machine Learning.

Certains de ces jeux de données sont disponibles dans le Stockage Blob Azure. Le tableau ci-dessous fournit un lien direct vers ces jeux de données. Vous pouvez utiliser ces jeux de données dans vos expériences à l’aide du module Importer les données.

Les autres exemples de jeux de données sont disponibles dans votre espace de travail, dans Jeux de données enregistrés. Vous le trouverez dans la palette de modules, à gauche du canevas de l’expérience, dans Machine Learning Studio (classique). Vous pouvez utiliser un de ces jeux de données dans votre propre expérience en le faisant glisser sur le canevas de l'expérience.

Groupes de données

Nom du jeu de données Description du jeu de données
Jeu de données Adult Census Income Binary Classification Sous-ensemble de la base de données Census de 1994, qui recense les adultes de plus de 16 ans en activité avec un index des revenus ajustés supérieur à 100.

Utilisation : classifier des personnes en utilisant des données démographiques pour prédire si une personne gagne plus de 50 000 $ par an.

Recherche associée : Kohavi, R., Becker, B., (1996). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Jeu de données des codes de l'aéroport Codes des aéroports des États-Unis.

Ce jeu de données contient une seule ligne par aéroport des États-Unis. Il indique le numéro d'identification de l'aéroport et son nom, ainsi que la ville et l'état dans lesquels il se trouve.
Données sur le prix des véhicules automobiles (brutes) Informations sur les véhicules automobiles par marque et modèle, incluant le prix, des caractéristiques telles que le nombre de cylindres et de litres au 100, et une note de risque d'assurance.

La note de risque est initialement associée au prix de l’automobile. Elle est ensuite ajustée en fonction du risque réel selon un processus que les actuaires connaissent sous le nom de symbolisation. La valeur +3 indique que le véhicule est à risque et la valeur -3 qu’il est plutôt sûr.

Utilisation : prédire le score de risque en fonction des caractéristiques, en utilisant une classification de régression ou multivariée.

Recherche associée : Schlimmer, J.C. (1987). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Jeu de données de location de vélos de l'UCI Le jeu de données de location de vélo de l'UCI est basé sur les données réelles de la société Capital Bikeshare qui assure l'entretien du réseau de location de vélos à Washington DC.

Ce jeu de données comporte une seule ligne pour chaque heure de chaque jour en 2011 et 2012, soit un total de 17 379 lignes. Le nombre de locations de vélos par heure varie entre 1 et 977.
Image RVB de Bill Gates Fichier image accessible au public et converti en données CSV.

Le code utilisé pour convertir l’image se trouve dans la page d’informations sur le modèle de Quantification des couleurs à l’aide de l’algorithme des k-moyennes.
Données sur le don de sang Sous-ensemble de la base de données des donneurs de sang du centre de transfusion sanguine de Hsin-Chu City à Taiwan.

Les données associées aux donneurs incluent le nombre de mois depuis le dernier don et la fréquence, ou le nombre total de dons, la durée écoulée depuis le dernier don et la quantité de sang donnée.

Utilisation : l’objectif est de prédire par la classification si le donneur a donné du sang en mars 2007, 1 indiquant un donneur pendant la période ciblée et 0 une personne n’ayant pas fait de don.

Recherche associée : Yeh, I.C., (2008). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Yeh, I-Cheng, Yang, King-Jang et Ting, Tao-Ming, « Détection des connaissances sur le modèle RFM à l’aide de la séquence Bernoulli, » Expert Systems avec Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018
Données sur le cancer du sein Un des trois jeux de données sur le cancer fournis par l’Oncology Institute, fréquemment cité dans la littérature sur l’apprentissage automatique. Combine des informations de diagnostic et des caractéristiques d'analyse de laboratoire sur environ 300 échantillons de tissu.

Utilisation : classifier le type de cancer en se basant sur 9 attributs, certains étant linéaires et d’autres catégoriels.

Recherche associée : Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Caractéristiques du cancer du sein Le jeu de données contient des informations sur 102 000 régions suspectes (candidats) d’images radio, chacune décrite par 117 caractéristiques. Ces caractéristiques sont propriétaires et leur signification n’est pas révélée par les créateurs du jeu de données (Siemens Healthcare).
Informations sur le cancer du sein Le jeu de données contient des informations complémentaires sur chaque région suspecte dans l’image radio. Chaque exemple donne des informations (par exemple, étiquette, ID du patient, coordonnées du correctif par rapport à la totalité de l’image) sur le numéro de ligne correspondant dans le jeu de données Caractéristiques cancer du sein. Chaque patient présente un certain nombre d’exemples. Pour les patients atteints de cancer, certains exemples sont positifs et d’autres négatifs. Pour les patients non atteints de cancer, tous les exemples sont négatifs. Le jeu de données contient 102 000 exemples. Le jeu de données est biaisé, avec 0,6 % des points positifs, le reste étant négatif. Ce jeu de données a été fourni par Siemens Healthcare.
Étiquettes de l'appétence CRM partagées Étiquettes provenant du KDD Cup 2009 Customer Relationship Prediction Challenge (orange_small_train_appetency.labels).
Étiquettes de l'attrition CRM partagées Étiquettes provenant du KDD Cup 2009 Customer Relationship Prediction Challenge (orange_small_train_churn.labels).
Jeu de données CRM partagé Ces données proviennent du KDD Cup 2009 Customer Relationship Prediction Challenge (orange_small_train.data.zip).

Le jeu de données contient 50 000 clients de la société de télécoms française Orange. Chaque client possède 230 caractéristiques rendues anonymes, dont 190 sont numériques et 40 sont catégorielles. Elles sont très fragmentées.
Étiquettes de vente incitative CRM partagées Étiquettes provenant du KDD Cup 2009 Customer Relationship Prediction Challenge (orange_large_train_upselling.labels).
Données de régression sur l’efficacité énergétique Collection de profils d'énergie simulés, basée sur 12 formes différentes de bâtiments. Huit caractéristiques différencient les bâtiments, notamment la zone de vitrage, sa distribution et l’orientation.

Utilisation : utiliser la régression ou la classification pour prédire la notation de l’efficacité énergétique sous la forme de l’une des deux réponses en valeur réelle. Pour la classification multiclasse, arrondit la variable de la réponse à l’entier le plus proche.

Recherche associée : Xifara, A. & Tsanas, A. (2012). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Données relatives aux vols retardés Données de ponctualité des vols passagers provenant de la collection de données TranStats du ministère Ministère des transports des États-Unis (à l’heure).

Le jeu de données couvre la période d’avril à octobre 2013. Avant son chargement dans Machine Learning Studio (classique), le jeu de données a été traité comme suit :
  • Le jeu de données a été filtré afin de prendre uniquement en compte les 70 aéroports les plus fréquentés aux États-Unis.
  • Les vols annulés ont été considérés comme ayant été retardés de plus de 15 minutes
  • Les vols déviés ont été supprimés.
  • Les colonnes suivantes ont été sélectionnées : Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
Performance concernant les vols à l'heure (brutes) Enregistrements des arrivées et départs de vols aux États-Unis à compter d’octobre 2011.

Utilisation : prédire les retards des vols.

Recherche associée : From US Dept. of Transportation https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.
Données sur les feux de forêt Contient des données météorologiques, par exemple, les indices de température et d’humidité et la vitesse du vent. Les données proviennent d’une région du Nord-Est du Portugal et d’archives d’incendies de forêt.

Utilisation : il s’agit d’une tâche difficile de régression, dont l’objectif est de prédire la zone brûlée par des feux de forêt.

Recherche associée : Cortez, P., & Morais, A. (2008). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

[Cortez et Morais, 2007] P. Cortez et A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. Dans J. Neves, M. F. Santos et J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, décembre, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponibles sur : http://www.dsi.uminho.pt/~pcortez/fires.pdf.
Jeu de données d'UCI pour une carte de crédit allemande Jeu de données UCI Statlog (carte de crédit allemande) (Statlog+German+Credit+Data), utilisant le fichier german.data.

Le jeu de données classe les gens, décrits par un ensemble d’attributs, par risque de crédit (faible ou élevé). Chaque exemple représente une personne. Il y a 20 caractéristiques, numériques et catégoriques, ainsi qu’une étiquette binaire (la valeur du risque de crédit). Les entrées avec un risque de crédit élevé portent une étiquette = 2, tandis que les entrées avec un risque de crédit faible portent une étiquette = 1. Le coût d’une erreur de classification d’un risque de crédit faible en risque élevé est de 1 tandis qu’il est de 5 dans le cas inverse (classification d’un risque de crédit élevé en risque faible).
Titres de films IMDB Ce jeu de données contient des informations sur les films évalués dans des tweets sur Twitter : ID de film IMDB, titre du film, genre et année de production. Ce jeu de données contient 17 000 films. Le jeu de données provient du document « S. Dooms, T. De Pessemier et L. Martens. MovieTweetings: a Movie Rating Dataset Collected From Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013. »
Données sur deux classes d'iris Il s’agit sans doute de l’une des bases de données les plus réputées dans la littérature de la reconnaissance des formes. Le jeu de données est relativement petit, avec 50 exemples de mesures de pétales de trois variétés d’iris.

Utilisation : prédire le type d’iris à partir des mesures.

Recherche associée : Fisher, R.A. (1988). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Tweets de films Ce jeu de données est une version étendue du jeu de données Movie Tweetings. Il contient 170 000 évaluations de film, tirées de tweets structurés publiés sur Twitter. Chaque instance correspond à un tweet et constitue un tuple : ID utilisateur, ID IMDB, évaluation, horodatage, nombre de favoris pour ce tweet et nombre de retweets pour ce tweet. Ce jeu de données a été fourni par A. Said, S. Dooms, B. Loni et D. Tikk dans le cadre du Recommender Systems Challenge 2014.
Données sur la quantité de litres au 100 pour différents véhicules automobiles Ce jeu de données diffère légèrement de la version fournie par la bibliothèque StatLib de l’université de Carnegie Mellon. Le jeu de données a été utilisé lors de l'exposition de l'American Statistical Association de 1983.

Les données répertorient la consommation de carburant de différentes automobiles, en miles par gallon. Elles comprennent également des informations telles que le nombre de cylindres, la cylindrée, la puissance, le poids total et l’accélération.

Utilisation : prédire l’économie de carburant à partir de trois attributs discrets multivalués et de cinq attributs continus.

Recherche associée : StatLib, Carnegie Mellon University, (1993). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science
Jeu de données sur la classification binaire du diabète chez les indiens Pima Sous-ensemble de la base de données du National Institute of Diabetes and Digestive and Kidney Diseases. Le jeu de données a été filtré pour s’intéresser aux patientes féminines des descendants des indiens Pima. Les données incluent des données médicales comme les taux de glucose et d'insuline, et des facteurs liés au style de vie.

Utilisation : prédire si le sujet a du diabète (classification binaire).

Recherche associée : Sigillito, V. (1990). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml  ». Irvine, CA: University of California, School of Information and Computer Science
Données sur les clients de restaurant Jeu de données sur les clients, comprenant des données démographiques et des préférences.

Utilisation : utiliser ce jeu de données avec les deux autres jeux de données sur les restaurants, pour former et tester un système de recommandation.

Recherche associée : Bache, K. and Lichman, M. (2013). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Données sur les caractéristiques de restaurants Jeu de métadonnées sur des restaurants et leurs caractéristiques, comme le type de gastronomie, le style de lieu et l'emplacement.

Utilisation : utiliser ce jeu de données avec les deux autres jeux de données sur les restaurants, pour former et tester un système de recommandation.

Recherche associée : Bache, K. and Lichman, M. (2013). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Notations de restaurants Contient les notes attribuées par les consommateurs à des restaurants sur une échelle de 0 à 2.

Utilisation : utiliser ce jeu de données avec les deux autres jeux de données sur les restaurants, pour former et tester un système de recommandation.

Recherche associée : Bache, K. and Lichman, M. (2013). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.
Jeu de données multiclasse de recuit d'acier Ce jeu de données contient une série d’enregistrements d’essais de recuit de l’acier. Il contient les attributs physiques (largeur, épaisseur, type : bobine, feuille, etc.) des types d’acier obtenus.

Utilisation : prédire un des deux attributs de classe numérique : robustesse ou force. Vous pouvez également analyser les corrélations entre attributs.

Les qualités d'acier répondent à un standard défini par la SAE et d'autres organisations. Vous recherchez une qualité d’acier spécifique (variable de classe) et vous cherchez à comprendre les valeurs nécessaires.

Recherche associée : Sterling, D. & Buntine, W. (NA). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science

Vous trouverez ici un guide utile sur les qualités d’acier : https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
Données sur les télescopes Enregistrement sur les sursauts de particules gamma de haute énergie et le bruit de fond, à partir de simulations de Monte-Carlo.

L’objectif de la simulation était d’améliorer la précision de télescopes gamma Tcherenkov atmosphériques au sol. Pour cela, des méthodes statistiques ont été utilisées pour faire la différence entre le signal souhaité (douches à effet Tcherenkov) et le bruit de fond (douches hadroniques dues à des rayons cosmiques dans la haute atmosphère).

Les données ont été prétraitées pour créer un cluster allongé avec l'axe long orienté vers le centre de la caméra. Les caractéristiques de cette ellipse (souvent appelées paramètres de Hillas) font partie des paramètres d’image qui peuvent servir pour la discrimination.

Utilisation : prédire si l’image d’une douche représente un signal ou un bruit de fond.

Remarques : La simple précision de la classification n’est pas significative pour ces données, car classifier un événement de bruit de fond comme événement de signal est pire que classifier un événement de signal comme événement de bruit de fond. Pour comparer différents classificateurs, il faut utiliser la courbe ROC. La probabilité d’accepter un événement de bruit de fond comme signal doit être inférieure à un des seuils suivants : 0,01, 0,02, 0,05, 0,1 ou 0,2.

Notez également que le nombre d’événements de bruit de fond (h, pour douches hadroniques) est sous-estimé. Dans les mesures réelles, la classe h ou classe bruitée représente la majorité des événements.

Recherche associée : Bock, R.K. (1995). Référentiel Machine Learning UCI https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information
Jeu de données météorologiques Observations météorologiques terrestres effectuées toutes les heures par la NOAA (données fusionnées, de 201304 à 201310).

Les données météorologiques couvrent les observations effectuées depuis les stations météo des aéroports, entre les mois d’avril et octobre 2013. Avant son chargement dans Machine Learning Studio (classique), le jeu de données a été traité comme suit :
  • Les identifiants des stations météo ont été alignés sur les identifiants des aéroports correspondants.
  • Les stations météo non associées à un des 70 aéroports sélectionnés ont été supprimées.
  • La colonne Date a été fractionnée en plusieurs colonnes distinctes indiquant l'année, le mois et le jour.
  • Les colonnes suivantes avaient été sélectionnées : AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
Jeu de données Wikipedia concernant le SP 500 Les données sont extraites de Wikipédia (https://www.wikipedia.org/), notamment d’articles sur chaque société S&P 500 et sont stockées sous forme de données XML.

Avant son chargement dans Machine Learning Studio (classique), le jeu de données a été traité comme suit :
  • Extraction du contenu textuel de chaque société particulière
  • Suppression de la mise en forme wiki
  • Suppression des caractères non alphanumériques
  • Conversion de tout le texte en minuscule
  • Ajout d'autres catégories de sociétés connues

Notez que pour certaines sociétés, aucun article n’a pu être trouvé, donc le nombre d’enregistrements est inférieur à 500.
direct_marketing.csv Le jeu de données contient les informations client et les indications relatives à leurs réponses à une campagne de publipostage direct. Chaque ligne représente un client. Le jeu de données contient neuf caractéristiques sur les données démographiques et le comportement passé des utilisateurs, ainsi que trois colonnes d’étiquettes (visite, conversion et dépense). La colonne visite est binaire ; elle indique qu’un client a effectué une visite après la campagne marketing. La conversion indique qu’un client a acheté quelque chose. La dépense est le montant dépensé. Le jeu de données a été fourni par Kevin Hillstrom dans le cadre du MineThatData E-Mail Analytics And Data Mining Challenge.
lyrl2004_tokens_test.csv Caractéristiques des exemples de test du jeu de données de presse RCV1-V2 Reuters. Ce jeu de données contient 781 000 articles de presse, accompagnés de leur ID (première colonne du jeu de données). Chaque article est tokénisé, traité et les mots vides définis. Ce jeu de données est fourni par David. D. Lewis.
lyrl2004_tokens_train.csv Caractéristiques des exemples d’apprentissage du jeu de données de presse RCV1-V2 Reuters. Ce jeu de données contient 23 000 articles de presse, accompagnés de leur ID (première colonne du jeu de données). Chaque article est tokénisé, traité et les mots vides définis. Ce jeu de données est fourni par David. D. Lewis.
network_intrusion_detection.csv
Jeu de données provenant du KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html).

Le jeu de données a été téléchargé et stocké dans le stockage d’objets blob Azure (network_intrusion_detection.csv) et il inclut à la fois les jeux de données d’apprentissage et de test. Le jeu de données d'apprentissage comporte environ 126 000 lignes et 43 colonnes, étiquettes comprises. Trois colonnes font partie des informations d’étiquette et 40 colonnes, constituées de caractéristiques numériques et catégorielles/de chaîne, sont disponibles pour s’entraîner avec le modèle. Les données de test contiennent environ 22 500 exemples avec les mêmes 43 colonnes que les données d’apprentissage.
rcv1-v2.topics.qrels.csv Affectation de rubriques aux articles de presse contenus dans le jeu de données de presse Reuters RCV1-V2. Un article de presse peut être affecté à plusieurs rubriques. Le format de chaque ligne est « <nom de rubrique><ID de document> 1 ». Le jeu de données contient 2,6 millions d’affectations de rubrique. Ce jeu de données est fourni par David. D. Lewis.
student_performance.txt Ces données proviennent du KDD Cup 2010 Student Performance Evaluation Challenge (évaluation des performances des étudiants). Les données utilisées correspondent au jeu d’apprentissage Algebra_2008_2009 (Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Jeu de données issu du KDD Cup 2010 Educational Data Mining Challenge. Pour le trouver, accédez à downloads.jsp.

Le jeu de données a été téléchargé et stocké dans le stockage d’objets blob Azure (student_performance.txt) et il contient les fichiers journaux d’un système de tutorat des étudiants. Les caractéristiques fournies incluent l’identifiant du problème avec une description sommaire, l’identifiant de l’étudiant, un horodatage et le nombre de tentatives de résolution du problème avant la réussite. Le jeu de données original comporte 8,9 millions d’enregistrements. Ce jeu de données a été échantillonné pour être réduit aux premières 100 000 lignes. Le jeu de données comporte 23 colonnes séparées par des tabulations de divers types : numérique, catégoriel et horodatage.

Étapes suivantes