Améliorez la précision de vos modèles de Machine Learning avec des jeux de données accessibles au public. Pour gagner du temps sur la découverte et la préparation des données, utilisez des ensembles de données analysées qui sont prêtes pour les projets d’apprentissage automatique.
Les enregistrements de trajets en taxi jaune incluent les dates et heures de début et fin de trajet, les emplacements respectifs, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur.
Les enregistrements de trajets en taxi vert incluent les dates et heures de début et fin de trajet, les emplacements respectifs, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur.
Les enregistrements de trajets des VTC incluent le numéro de licence de la base de dispatch et la date de prise en charge, l’heure et l’ID d’emplacement de zone de taxi.
La collection COVID-19 Data Lake contient des jeux de données liés à la pandémie de COVID-19 qui proviennent de diverses sources, couvrent les données de suivi des patients et des tests, la politique de distanciation sociale, la capacité hospitalière, la mobilité, etc.
Jeu de données de texte intégral et de métadonnées d’articles savants liés au COVID-19 et aux métadonnées, optimisé pour la lisibilité des ordinateurs et mis à la disposition de la communauté mondiale de recherche.
Le Genomics Data Lake propose divers ensembles de données publiques disponibles gratuitement, prêts à être intégrés dans vos flux de travail et applications d’analyse génomique. Les jeux de données contiennent des séquences de génome, diverses informations et des métadonnées sur le sujet/échantillon sous les formats de fichier BAM, FASTA, VCF et CSV.
US Labor Force Statistics fournit des statistiques sur la main-d’œuvre, les taux de participation à la main-d’œuvre et la population civile non institutionnelle par âge, par sexe, par race et par groupe ethnique aux États-Unis.
Le programme Current Employment Statistics (CES) produit des estimations détaillées de l’emploi non agricole, des heures de travail et des revenus des travailleurs salariés aux États-Unis.
Le programme Current Employment Statistics (CES) produit des estimations détaillées de l’emploi non agricole, des heures de travail et des revenus des travailleurs salariés aux États-Unis.
Les jeux de données du programme de statistiques sur le chômage au niveau local produisent des données mensuelles et annuelles sur l’emploi, le chômage et la population active pour les régions et divisions de recensement, les États, les comtés, les régions métropolitaines et de nombreuses villes des États-Unis.
L’Indice des prix du consommateur (CPI) mesure la variation moyenne au fil du temps dans les prix payés par les consommateurs urbains pour un panier de produits et de services de consommation.
L’Indice des prix du producteur (PPI) mesure le changement moyen, au fil du temps, dans les prix de vente reçus par les producteurs nationaux pour leur production.
L’Indice des prix du producteur (PPI) mesure le changement moyen, au fil du temps, dans les prix de vente reçus par les producteurs nationaux pour leur commodités.
Population des États-Unis par sexe et par race pour chaque comté américain tiré du recensement décennal de 2000 et 2010. Ce jeu de données est fourni par le Bureau du recensement des États-Unis (United States Census Bureau).
Population des États-Unis par sexe et par race pour chaque code postal américain tiré du recensement décennal de 2010. Ce jeu de données est fourni par le Bureau du recensement des États-Unis (United States Census Bureau).
Données concernant les appels aux services d’urgence (311) signalés à la ville de Boston. Ce jeu de données est stocké au format Parquet et reçoit des mises à jour quotidiennes.
Données concernant les appels aux services d’urgence (311) signalés à la ville de Chicago. Ce jeu de données est stocké au format Parquet et reçoit des mises à jour quotidiennes.
Ce jeu de données contient toutes les demandes de service 311 à New York de 2010 à nos jours. Ce jeu de données est stocké au format Parquet et reçoit des mises à jour quotidiennes.
Dispatches du 911/des pompiers de Seattle. Ce jeu de données est mis à jour quotidiennement. Il contient les enregistrements historiques accumulés de 2010 à aujourd’hui
Le jeu de données sur le diabète contient 442 échantillons avec 10 caractéristiques, ce qui en fait un outil idéal pour commencer à utiliser des algorithmes Machine Learning.
Ce jeu de données est dérivé du jeu de données OJ de Dominick. Il inclut des données simulées supplémentaires dans le but de fournir un jeu de données qui facilite la formation simultanée de milliers de modèles sur Azure Machine Learning.
La base de données MNIST de chiffres manuscrits présente un ensemble d’entraînement comportant 60 000 exemples, ainsi qu’un ensemble test de 10 000 exemples. Les chiffres présentent une taille normalisée et sont centrés dans une image à taille fixe.
MIcrosoft News Dataset (MIND) est un jeu de données à grande échelle pour la recherche d’actualités suggérées. Il fait office de jeu de données de référence pour les suggestions d’actualités, et de faciliter la recherche dans les systèmes de recommandation et les suggestions d’actualités.