Partager via


Créer des jeux de données Azure Machine Learning à partir de Azure Open Datasets

Dans cet article, vous allez apprendre à intégrer des données d’enrichissement organisées dans vos expériences d’apprentissage automatique locales ou distantes grâce à des jeux de données Azure Machine Learning et Azure Open Datasets.

Grâce à un jeu de données Azure Machine Learning, vous créez une référence à l’emplacement de la source de données, ainsi qu’une copie de ses métadonnées. Étant donné que les jeux de données sont évalués tardivement et parce que les données restent à leur emplacement existant, vous

  • Ne risquez pas de changer involontairement vos sources de données d’origine
  • Vous n’engagez aucun coût de stockage supplémentaire.
  • Vous améliorez les performances des workflows de ML

Pour plus d’informations sur la place des jeux de données dans le flux de travail global d’accès aux données Azure Machine Learning, consultez l’article Sécuriser l’accès aux données.

Les jeux de données Azure Open Datasets sont des jeux de données publics organisés pour ajouter des fonctionnalités spécifiques à des scénarios afin d’enrichir vos solutions prédictives et d’améliorer leur précision. Reportez-vous au catalogue Open Datasets pour obtenir des données du domaine public qui peuvent vous aider à effectuer l’apprentissage de modèles Machine Learning, par exemple :

Les Open Datasets sont hébergés dans le cloud, sur Microsoft Azure. Azure Machine Learning Python SDK et Azure Machine Learning studio les incluent tous deux.

Prérequis

Ce dont vous avez besoin :

Remarque

Certaines classes de jeu de données ont des dépendances vis-à-vis du package azureml-dataprep. Ce package est compatible uniquement avec Python 64 bits. Pour les utilisateurs Linux, ces classes sont uniquement prises en charge dans ces distributions Linux :

  • Debian (8, 9)
  • Fedora (27, 28)
  • Red Hat Enterprise Linux (7, 8)
  • Ubuntu (14.04, 16.04, 18.04)

Créer des jeux de données avec le kit de développement logiciel (SDK)

Pour créer des jeux de données Azure Machine Learning à l’aide des classes Azure Open Datasets dans le Kit de développement logiciel (SDK) Python, assurez-vous d’avoir installé le package avec pip install azureml-opendatasets. Dans le Kit de développement logiciel (SDK), la classe de chaque jeu de données discret représente cette classe et certaines classes sont disponibles en tant que type de données Azure Machine Learning FileDataset , type de données azure Machine Learning TabularDataset ou les deux. Pour obtenir la liste complète des classes , visitez la documentation de référenceopendatasets.

Vous pouvez récupérer certaines classes opendatasets en tant que ressources TabularDataset ou FileDataset. Vous pouvez ensuite manipuler et/ou télécharger les fichiers directement. Les autres classes ne peuvent récupérer les données qu’en utilisant les fonctionsget_tabular_dataset() ou get_file_dataset()de la Datasetclasse dans le SDK Python.

Ce code montre que la classe opendatasets MNIST peut retourner TabularDataset ou FileDataset :

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

Dans cet exemple, la classe opendatasets Diabète n’est disponible qu’en tant que TabularDataset. Cela nécessite l’utilisation de get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Inscrire des jeux de données

Inscrivez un jeu de données Azure Machine Learning auprès de votre espace de travail afin de pouvoir partager ce jeu de données avec d’autres personnes et le réutiliser dans des expériences dans votre espace de travail. Lorsque vous enregistrez un jeu de données Azure Machine Learning créé à partir de Open Datasets, aucune donnée n’est immédiatement téléchargée, mais les données deviennent accessibles ultérieurement (pendant la formation, par exemple) lorsqu’elles sont demandées à partir d’un emplacement de stockage central.

Pour inscrire vos jeux de données auprès d’un espace de travail, utilisez la méthode register().

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Créer des jeux de données avec le studio

Vous pouvez également créer des ensembles de données Azure Machine Learning à partir d’Azure Open Datasets avec Azure Machine Learning studio. Cette interface web centralisée comprend des outils Machine Learning permettant de mettre en œuvre des scénarios de science des données pour les utilisateurs de science des données de tous niveaux de compétences.

Remarque

Les jeux de données créés via Azure Machine Learning Studio sont automatiquement inscrits auprès de l’espace de travail.

  1. Dans votre espace de travail, sélectionnez les données dans le menu gauche. Sous l’onglet Ressources de données, sélectionnez Créer, comme indiqué dans cette capture d’écran :

    Capture d’écran montrant le contrôle Créer sous l’onglet Ressources de données.

  2. À l’écran suivant, ajoutez un nom et une description facultative pour la nouvelle ressource de données. Sélectionnez ensuite Tabulaire dans la liste déroulante Type, comme illustré dans cette capture d’écran :

    Capture d’écran montrant la sélection de l’option tabulaire dans la liste déroulante Type.

  3. Dans l’écran suivant, sélectionnez À partir d’Azure Open Datasets, puis sélectionnez Suivant, comme indiqué dans cette capture d’écran :

    Capture d’écran montrant la sélection de l’option From Azure Open Datasets.

  4. À l’écran suivant, sélectionnez un jeu de données Azure Open disponible. Dans cette capture d’écran, nous avons sélectionné le jeu de données de sécurité San Francisco :

    Capture d’écran montrant la sélection du jeu de données us Labor Force Statistics.

  5. Faites défiler vers le bas si nécessaire, puis sélectionnez Suivant, comme illustré dans cette capture d’écran :

    Capture d’écran montrant la sélection du bouton Suivant.

  6. Si vous le souhaitez, filtrez les données avec les filtres disponibles, appropriés pour le jeu de données choisi. Pour le jeu de données de sécurité San Francisco, nous définissons la plage de dates filtrées entre une date de début du 1er juillet 2024 et di 17 juillet 2024. Sélectionnez Suivant, comme indiqué dans cette capture d’écran :

    Capture d’écran montrant la sélection des valeurs de filtre et la sélection du bouton Suivant.

  7. À l’écran suivant, passez en revue les paramètres de la nouvelle ressource de données et apportez les modifications nécessaires. Lorsqu’il semble bon, sélectionnez Créer, comme indiqué dans cette capture d’écran :

    Capture d’écran montrant la révision des paramètres choisis et la sélection du bouton Suivant.

  8. Pour plus d’informations sur les descriptions de champs et les plages de dates pour le jeu de données de données de sécurité San Francisco, visitez la ressource de données de sécurité de San Francisco. Pour plus d’informations sur les jeux de données supplémentaires, consultez la ressource de catalogue Azure Open Datasets.

Le jeu de données est maintenant disponible dans votre espace de travail sous Jeux de données. Vous pouvez l’utiliser de la même façon que les autres jeux de données que vous avez créés.

Accédez aux jeux de données pour vos expériences

Utilisez vos jeux de données dans vos expériences d’apprentissage automatique pour la formation de modèles ML. Pour obtenir plus d’informations, visitez En savoir plus sur l’apprentissage avec des jeux de données.

Exemples de notebooks

Pour obtenir des exemples et des démonstrations des fonctionnalités d’Open Datasets, évaluez ces exemples de notebooks.

Étapes suivantes