Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Cet article fournit des informations sur l’utilisation du Kit de développement logiciel (SDK) Azure Machine Learning v1. Le SDK v1 est déprécié depuis le 31 mars 2025 et la prise en charge de celui-ci prendra fin le 30 juin 2026. Vous pouvez installer et utiliser le Kit de développement logiciel (SDK) v1 jusqu’à cette date.
Nous vous recommandons de passer au SDK v2 avant le 30 juin 2026. Pour plus d’informations sur le Kit de développement logiciel (SDK) v2, consultez Présentation du Kit de développement logiciel (SDK) Python Azure Machine Learning v2 et référence du Kit de développement logiciel (SDK) v2.
Cet article vous montre comment accéder à vos données avec Azure Machine Learning studio. Connectez-vous à vos données dans les services de stockage Azure grâce aux magasins de données Azure Machine Learning. Ensuite, empaquetez ces données pour les tâches de flux de travail ML grâce aux jeux de données Azure Machine Learning.
Ce tableau définit et récapitule les avantages des magasins de données et jeux de données.
Objet | Descriptif | Avantages |
---|---|---|
Magasins de données | Pour vous connecter en toute sécurité à votre service de stockage sur Azure, stockez vos informations de connexion (ID d’abonnement, autorisation de jeton, etc.) dans le Key Vault associé à l’espace de travail | Étant donné que vos informations sont stockées en toute sécurité, vous ne mettez pas en danger les identifiants d’authentification ni les sources de données d’origine, et vous n’avez plus besoin de coder en dur ces valeurs dans vos scripts |
Groupes de données | En créant un jeu de données, vous créez également une référence à l’emplacement de la source de données, ainsi qu’une copie de ses métadonnées. Avec des jeux de données, vous pouvez accéder aux données pendant l’entraînement du modèle, partager des données, collaborer avec d’autres utilisateurs et utiliser des bibliothèques open source, comme pandas, pour l’exploration des données. | Étant donné que les jeux de données sont évalués tardivement et que les données restent à leur emplacement existant, vous devez garder une copie unique des données dans votre stockage. En outre, vous n’entraînez aucun coût de stockage supplémentaire, vous évitez les modifications involontaires apportées à vos sources de données d’origine, et les vitesses de performances de votre flux de travail ML s’améliorent. |
Pour plus d’informations sur l’emplacement des magasins de données et des jeux de données dans le flux de travail d’accès aux données Azure Machine Learning global, consultez Accès sécurisé aux données.
Pour plus d’informations sur le Kit de développement logiciel (SDK) Python Azure Machine Learning et une première expérience de code, visitez
- Se connecter aux services de stockage Azure avec les magasins de données
- Créer des jeux de données Azure Machine Learning
Prérequis
Un abonnement Azure. Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer. Essayer la version gratuite ou payante d’Azure Machine Learning
Accéder à Azure Machine Learning studio
Un espace de travail Azure Machine Learning. Créer des ressources d’espace de travail
- Quand vous créez un espace de travail, un conteneur blob Azure et un partage de fichiers Azure sont inscrits automatiquement en tant que magasins de données dans l’espace de travail. sous les noms
workspaceblobstore
etworkspacefilestore
respectivement. Pour assurer suffisamment de ressources de stockage blob, leworkspaceblobstore
est défini en tant que magasin de stockage par défaut dont la configuration est déjà prête à l’utilisation. Pour plus de ressources de stockage blob, il vous faudra un compte de stockage Azure avec un type de stockage pris en charge.
- Quand vous créez un espace de travail, un conteneur blob Azure et un partage de fichiers Azure sont inscrits automatiquement en tant que magasins de données dans l’espace de travail. sous les noms
Créer des magasins de données
Vous pouvez créer des magasins de données à partir de ces solutions de stockage Azure. Pour les solutions de stockage non prises en charge, et pour réduire le coût de sortie des données pendant les expériences de Machine Learning, vous devez déplacer vos données vers une solution de stockage Azure prise en charge. Pour plus d’informations sur les magasins de données, consultez cette ressource.
Vous pouvez créer des magasins de données avec un accès basé sur les informations d’identification ou un accès basé sur l’identité.
Créez un magasin de données avec Azure Machine Learning studio.
Important
Si votre compte de stockage de données se trouve dans un réseau virtuel, des étapes de configuration supplémentaires sont nécessaires pour vous assurer que le studio peut accéder à vos données. Consultez Isolement et confidentialité de réseau pour plus d’informations sur les étapes de configuration appropriées.
- Connectez-vous à Azure Machine Learning Studio.
- Dans le volet gauche, sous Ressources, sélectionnez Données.
- En haut, sélectionnez Magasins de données.
- Sélectionnez +Créer.
- Complétez le formulaire pour créer et inscrire un nouveau magasin de données. Le formulaire est mis à jour intelligemment en fonction du type de stockage Azure et du type d’authentification que vous sélectionnez. Pour plus d’informations sur l’emplacement où rechercher les informations d’identification d’authentification nécessaires pour remplir ce formulaire, consultez la section accès au stockage et autorisations de ce document.
La capture d’écran suivante montre le panneau de création du magasin de données Blob Azure :
Créer des ressources de données
Après avoir créé un magasin de données, créez un jeu de données pour interagir avec vos données. Les jeux de données intègrent vos données dans un objet consommable évalué tardivement pour les tâches de Machine Learning. Cela comprend par exemple la formation. Consultez Créer des jeux de données Azure Machine Learning pour plus d’informations à propos des jeux de données.
Il existe deux types de jeux de données : FileDataset et TabularDataset. Les FileDatasets créent des références à un ou plusieurs fichiers, ou à des URL publiques. Les TabularDatasets représentent vos données sous format tabulaire. Vous pouvez créer des TabularDatasets à partir de
- .csv
- .tsv
- .parquet
- fichiers .json et de résultats de requêtes SQL.
Les étapes suivantes montrent comment créer un jeu de données dans Azure Machine Learning Studio.
Notes
Les jeux de données créés via Azure Machine Learning Studio sont automatiquement inscrits auprès de l’espace de travail.
Accédez à Azure Machine Learning Studio
Sous Ressources dans le volet de navigation gauche, sélectionnez Données. Sous l’onglet Ressources de données, sélectionnez Créer, comme illustré dans la capture d’écran suivante :
- Donnez un nom et une description facultative à la ressource de données. Ensuite, sous Type, sélectionnez un type de jeu de données, Fichier ou Tabulaire, comme illustré dans la capture d’écran suivante :
- Le volet Source de données s’ouvre ensuite, comme illustré dans la capture d’écran suivante :
Vous avez différentes options pour votre source de données. Pour des données déjà stockées dans Azure, choisissez « À partir du stockage Azure ». Pour charger des données à partir de votre disque local, choisissez « À partir de fichiers locaux ». Pour des données stockées dans un emplacement web public, choisissez « À partir de fichiers web ». Vous pouvez également créer une ressource de données à partir d’une base de données SQL ou d’Azure Open Datasets.
À l’étape de sélection des fichiers, sélectionnez l’emplacement où Azure doit stocker vos données, ainsi que les fichiers de données que vous souhaitez utiliser.
- Vous pouvez choisir d’ignorer la validation si vos données se trouvent dans un réseau virtuel. Pour plus d’informations sur l’isolation et la confidentialité du réseau virtuel, visitez cette ressource.
Suivez les étapes pour définir les paramètres d’analyse des données et le schéma de votre ressource de données. Les paramètres sont préremplies en fonction du type de fichier, et vous pouvez configurer vos paramètres avant la création de la ressource de données.
Une fois que vous avez atteint l’étape de Révision, sélectionnez Créer sur la dernière page
Aperçu et profil des données
Après avoir créé votre jeu de données, vérifiez que vous pouvez visualiser l’aperçu et le profil dans le studio :
- Connectez-vous à Azure Machine Learning Studio.
- Sous Ressources dans le volet de navigation gauche, sélectionnez Données , comme indiqué dans la capture d’écran suivante :
- Sélectionnez le nom du jeu de données que vous souhaitez afficher.
- Sélectionnez l’onglet Explorer .
- Sélectionnez l’onglet Aperçu , comme illustré dans la capture d’écran suivante :
- Sélectionnez l’onglet Profil , comme illustré dans la capture d’écran suivante :
Pour vérifier si votre jeu de données est prêt pour ML, vous pouvez utiliser des statistiques récapitulatives dans votre jeu de données. Pour les colonnes non numériques, ces statistiques incluent uniquement des mesures statistiques de base ( par exemple, min, max et nombre d’erreurs). Les colonnes numériques proposent des moments statistiques ainsi que des estimations de quantiles.
Le profil des données du jeu de données Azure Machine Learning comprend :
Notes
Les entrées vides apparaissent pour les fonctionnalités avec types non pertinents.
Statistique | Descriptif |
---|---|
Fonctionnalité | Le résumé du nom de colonne |
Profil | Une visualisation en ligne selon le type déduit. Les chaînes, les valeurs booléennes et les dates ont des décomptes de valeurs. Les décimales (numériques) ont des histogrammes approximatifs. Ces visualisations offrent une compréhension rapide de la distribution des données |
Distribution des types | Nombre de valeurs en ligne de types au sein d’une colonne. Les valeurs null ont un type propre ; ainsi, cette visualisation est utile pour détecter les valeurs impaires ou manquantes |
Catégorie | Type de colonne déduit. Les valeurs possibles incluent les chaînes, les valeurs booléennes, les dates et les décimales |
Min | Valeur minimale de la colonne. Les entrées vides apparaissent pour les fonctionnalités dont le type n’a pas d'ordre inhérent (par exemple, les valeurs booléennes) |
Max | Valeur maximale de la colonne. |
Nombre | Nombre total d’entrées manquantes et non manquantes de la colonne |
Non manquant | Nombre d’entrées dans la colonne qui ne sont pas manquantes. Les chaînes vides et les erreurs sont traitées en tant que valeurs et n’entrent donc pas dans le « Décompte non manquant ». |
Quantiles | Valeurs approximatives à chaque quantile pour donner une idée de la distribution des données |
Moyenne | Moyenne arithmétique ou moyenne ordinaire de la colonne |
Écart type | Mesure de la quantité de dispersion ou de variation des données de cette colonne |
Différence | Mesure de jusqu’où les données de cette colonne sont déployées par rapport à leur valeur moyenne |
Asymétrie | Mesure la différence entre les données de cette colonne et une distribution normale |
Kurtosis | Mesure le degré de kurtosis des données de cette colonne, par rapport à une distribution normale |
Accès et autorisations pour le stockage
Pour assurer que vous vous connectez en toute sécurité à votre service de stockage Azure, Azure Machine Learning exige que vous ayez l’autorisation d’accéder au stockage de données correspondant. Cet accès dépend des informations d’authentification utilisées pour inscrire le magasin de données.
Réseau virtuel
Si votre compte de stockage de données se trouve sur un réseau virtuel, des étapes de configuration supplémentaires sont nécessaires pour assurer qu’Azure Machine Learning puisse accéder à vos données. Visitez Utiliser Azure Machine Learning Studio dans un réseau virtuel pour vous assurer que les étapes de configuration appropriées sont appliquées lorsque vous créez et inscrivez votre magasin de données.
Validation de l’accès
Avertissement
L’accès aux comptes de stockage entre locataires n’est pas pris en charge. Si votre scénario a besoin d’un accès inter-clients, contacter l’alias de l’(équipe de support des données Azure Machine Learning) pour obtenir de l’aide sur une solution de code personnalisée.
Dans le cadre du processus de création et d’inscription du magasin de données initial, Azure Machine Learning vérifie automatiquement que le service de stockage sous-jacent existe et que le principal fourni par l’utilisateur (nom d’utilisateur, principal de service ou jeton SAS) ait un accès au stockage spécifié.
Après la création du magasin de données, cette validation est effectuée uniquement pour les méthodes qui requièrent un accès au conteneur de stockage sous-jacent. La validation n’est pas effectuée à chaque fois que les objets de magasin de données sont récupérés. Par exemple, la validation se produit lorsque vous souhaitez télécharger des fichiers à partir de votre magasin de données. Toutefois, si vous souhaitez modifier votre magasin de données par défaut, la validation ne se produit pas.
Pour authentifier votre accès au service de stockage sous-jacent, vous devez fournir votre clé de compte, des jetons de signatures d’accès partagé (SAS) ou le principal de service, selon le type de magasin de données que vous souhaitez créer. La matrice de types de stockage répertorie les types d’authentification pris en charge qui correspondent à chaque type de magasin de données.
Vous trouverez des informations sur la clé de compte, le jeton SAS et le principal de service à votre portail Azure.
Pour obtenir une clé de compte pour l’authentification, sélectionnez Comptes de stockage dans le volet gauche, puis choisissez le compte de stockage que vous souhaitez inscrire
- La page Vue d’ensemble fournit des informations telles que le nom du compte, le conteneur et le nom du partage de fichiers
- Développez le nœud Sécurité + mise en réseau dans le volet de navigation gauche
- Sélectionnez Clés d’accès.
- Les valeurs de clé disponibles servent de valeurs de Clé de compte
Afin d’obtenir un jeton SAS pour l’authentification, sélectionnez Comptes de stockage dans le volet gauche, puis choisissez le compte de stockage voulu
- Pour obtenir une valeur de Clé d'accès, développez le nœud Sécurité + mise en réseau dans le volet de navigation gauche
- Sélectionner Signature d’accès partagé
- Terminer le processus pour générer la valeur SAS
Pour utiliser un principal de service pour l’authentification, accédez à vos inscriptions d’applications et sélectionnez l’application que vous souhaitez utiliser
- Sa page Vue d’ensemble correspondante contient les informations requises telles que l’ID de locataire et l’ID client
Important
- Pour changer vos clés d’accès pour un compte de stockage Azure (clé de compte ou jeton SAS), veillez à synchroniser les nouveaux identifiants avec votre espace de travail et avec les magasins de données qui y sont connectés. Pour plus d’informations, consulter synchroniser vos informations d’identification mises à jour.
- Si vous annulez l’inscription, puis réinscrivez un magasin de données portant le même nom et que cette réinscription échoue, azure Key Vault pour votre espace de travail n’a peut-être pas activé la suppression réversible. Par défaut, la suppression réversible est activée pour l’instance de coffre de clés créée par votre espace de travail. Toutefois, elle peut ne pas être activée si vous avez utilisé un coffre de clés existant ou si un espace de travail a été créé avant octobre 2020. Pour plus d’informations à propos de l’activation de la suppression réversible, consultez Activer la suppression réversible pour un coffre de clés existant.
autorisations
Pour le conteneur de blobs Azure et le stockage Azure Data Lake Gen2, assurez-vous que vos informations d’authentification vous donnent un accès Lecteur des données blob du stockage. En savoir plus sur le Lecteur des données blob du stockage. Par défaut, un jeton SAS de compte ne dispose d'aucune autorisation.
Pour l’accès en lecture aux données, vos informations d’authentification doivent au minimum disposer d’autorisations de liste et de lecture pour les conteneurs et les objets.
Pour l’accès en écriture aux données, des autorisations d’écriture et d’ajout sont également requises.
Entraîner avec des jeux de données
Utilisez vos jeux de données dans vos expériences d’apprentissage automatique pour la formation de modèles ML. Découvrez-en plus sur l’entraînement avec des jeux de données.
Étapes suivantes
- Exemple pas à pas de formation avec des TabularDatasets et le Machine Learning automatisé
- Entraîner un modèle
- Pour obtenir plus d’exemples d’apprentissage de jeux de données, voir les exemples de notebooks