Qu’est-ce qu’Azure Open Datasets et comment l’utiliser ?
Les jeux de données Azure Open Datasets sont des jeux de données publics organisés que vous pouvez utiliser pour ajouter des fonctionnalités spécifiques à des scénarios à des solutions de Machine Learning afin d'obtenir des modèles plus précis. Open Datasets se trouvent dans le cloud, sur Microsoft Azure et sont intégrés à Azure Machine Learning et facilement accessibles pour Azure Databricks et Machine Learning Studio (classique). Vous pouvez également accéder aux jeux de données via des API et les utiliser dans d'autres produits, tels que Power BI et Azure Data Factory.
Les jeux de données englobent des données du domaine public portant sur la météo, le recensement, les jours fériés, la sécurité publique et la localisation et vous aident à former des modèles Machine Learning et à enrichir des solutions prédictives. Vous pouvez également partager vos jeux de données publics sur la plateforme Azure Open Datasets.
Jeux de données organisés et préparés
Les jeux de données publics ouverts et organisés contenus dans Azure Open Datasets sont optimisés pour être utilisés dans les flux de travail de Machine Learning.
Pour voir tous les jeux de données disponibles, accédez au Catalogue Azure Open Datasets.
Les scientifiques des données passent souvent la majeure partie de leur temps à nettoyer et à préparer les données pour les analyses avancées. Les jeux de données ouverts sont copiés dans le cloud Azure et prétraités afin de vous faire gagner du temps. À intervalles réguliers, les données sont extraites des sources, par exemple par via une connexion FTP à la NOAA (National Oceanic and Atmospheric Administration). Ensuite, les données sont analysées dans un format structuré, puis enrichies en fonction de caractéristiques comme le code postal ou l’emplacement de la station météorologique la plus proche.
Les jeux de données sont co-hébergés avec les ressources de calcul du cloud Azure, ce qui facilite l'accès et la manipulation.
Voici quelques exemples de jeux de données disponibles.
Données météorologiques
Dataset | Notebooks | Description |
---|---|---|
Données de surface intégrées (DSI) de la NOAA | Azure Notebooks Azure Databricks |
Données météorologiques horaires mondiales de la NOAA offrant la meilleure couverture spatiale pour l'Amérique du Nord, l'Europe, l'Australie et certaines parties de l'Asie. Mises à jour quotidiennement. |
Global Forecast System (GFS) de la NOAA | Azure Notebooks Azure Databricks |
Données de prévisions météorologiques horaires concernant les États-Unis, sur 15 jours, fournies par la NOAA. Mises à jour quotidiennement. |
Données de calendrier
Dataset | Notebooks | Description |
---|---|---|
Jours fériés | Azure Notebooks Azure Databricks |
Données internationales portant sur les jours fériés et couvrant 41 pays ou régions, de 1970 à 2099. Désigne le pays/région et indique si la majorité des habitants bénéficient de congés payés. |
Accès aux jeux de données
Grâce à un compte Azure, vous pouvez accéder aux jeux de données ouverts à l'aide d'un code ou via l'interface de service Azure. Les données sont co-hébergées avec les ressources de calcul du cloud Azure pour être utilisées dans votre solution de Machine Learning.
Open Datasets sont disponibles via l’interface utilisateur et le kit de développement logiciel (SDK) Azure Machine Learning. De plus, Open Datasets fournissent des notebooks Azure Notebooks et Azure Databricks que vous pouvez utiliser pour connecter les données à Azure Machine Learning et à Azure Databricks. Les jeux de données sont également accessibles via un kit de développement logiciel (SDK) Python.
Toutefois, aucun compte Azure n’est nécessaire pour accéder à Open Datasets. Vous pouvez y accéder dans n’importe quel environnement Python, avec ou sans Spark.
Demander ou contribuer à la création des jeux de données
Si vous ne trouvez pas les données que vous recherchez, envoyez-nous un e-mail pour demander un jeu de données ou contribuer à la création d'un jeu de données.
Étapes suivantes
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : pendant toute l’année 2024, nous allons éliminer progressivement Problèmes GitHub comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, voir :Soumettre et afficher des commentaires pour