Partage via


Administration des données

Découvrez comment gérer l’accès aux données, et comment vous authentifier dans Azure Machine Learning.

S’APPLIQUE À :Extension Azure CLI v2 (actuelle)Kit de développement logiciel (SDK) Python azure-ai-ml v2 (version actuelle)

Important

Cet article est destiné aux administrateurs Azure qui souhaitent créer l’infrastructure requise pour une solution Azure Machine Learning.

Authentification des données basée sur les informations d’identification

En général, l’authentification des données basée sur les informations d’identification implique ces vérifications :

  • Vérifiez que l’utilisateur qui accède aux données à partir du magasin de données basé sur les informations d’identification possède un rôle affecté avec le contrôle d’accès en fonction du rôle (RBAC) qui contient Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action

    • Cette autorisation est nécessaire pour récupérer les informations d’identification de l’utilisateur dans le magasin de données.

    • Rôles intégrés qui contiennent déjà cette autorisation :

    • Vous devez savoir quel utilisateur spécifique souhaite accéder aux données. Un utilisateur spécifique peut être un utilisateur réel avec une identité d’utilisateur. Il peut également s’agir d’un ordinateur avec l’identité managée de calcul (MSI). Pour plus d’informations, consultez la section Scénarios et options d’authentification pour déterminer l’identité qui a besoin de l’autorisation ajoutée.

  • Les informations d’identification stockées (principal de service, clé de compte ou jeton de signature d’accès partagé) ont-elles accès à la ressource de données ?

Authentification des données basée sur l’identité

En général, l’authentification des données basée sur l’identité implique ces vérifications :

  • Quel utilisateur souhaite accéder aux ressources ?
    • Différents types d’authentification sont disponibles, en fonction du contexte au moment où les données sont accessibles. Par exemple :
      • Identité de l’utilisateur
      • Identité managée de calcul
      • Identité managée de l’espace de travail
    • Les travaux, notamment l’option Generate Profile du jeu de données, s’exécutent sur une ressource de calcul de votre abonnement, et accèdent aux données à partir de cet emplacement. L’identité managée de calcul, et non l’identité de l’utilisateur qui a soumis le travail, a besoin d’une autorisation d’accès à la ressource de stockage.
    • Pour l’authentification basée sur une identité utilisateur, vous devez savoir quel utilisateur spécifique a essayé d’accéder à la ressource de stockage. Pour plus d’informations sur l’authentification utilisateur, consultez Authentification pour Azure Machine Learning. Pour plus d’informations sur l’authentification au niveau du service, consultez Authentification entre Azure Machine Learning et d’autres services.
  • Cet utilisateur dispose-t-il d’une autorisation de lecture pour la ressource ?
  • Cet utilisateur dispose-t-il d’une autorisation d’écriture pour la ressource ?

Autres vérifications générales pour l’authentification

  • Qu’est-ce qui va accéder à la ressource exactement ?
    • Utilisateur : l’adresse IP du client se trouve-t-elle dans la plage de réseau/sous-réseau virtuel ?
    • Espace de travail : l’espace de travail est-il public, ou a-t-il un point de terminaison privé dans un réseau/sous-réseau virtuel ?
    • Stockage : le stockage autorise-t-il un accès public, ou limite-t-il l’accès via un point de terminaison de service ou un point de terminaison privé ?
  • Qu’est-ce que l’opération planifiée ?
    • Handles Azure Machine Learning
      • Créer
      • Lire
      • Update
      • Opérations de suppression Delete (CRUD) sur un magasin de données/jeu de données.
    • Les opérations d’archivage sur les ressources de données dans Azure Machine Learning studio nécessitent l’opération RBAC suivante : Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
    • Les appels d’accès aux données (par exemple aperçu ou schéma) vont vers le stockage sous-jacent, et nécessitent des autorisations supplémentaires.
  • Cette opération va-t-elle s’exécuter dans les ressources de calcul de votre abonnement Azure ou dans les ressources hébergées au sein d’un abonnement Microsoft ?
    • Tous les appels aux services de jeu de données et de magasin de données (à l’exception de l’option Generate Profile) utilisent des ressources hébergées dans un abonnement Microsoft pour exécuter les opérations.
    • Les travaux, notamment l’option Generate Profile du jeu de données, s’exécutent sur une ressource de calcul de votre abonnement, et accèdent aux données à partir de cet emplacement. L’identité de calcul, et non l’identité de l’utilisateur qui a soumis le travail, a besoin d’une autorisation d’accès à la ressource de stockage.

Ce schéma illustre le déroulement général d’un appel d’accès aux données. Ici, un utilisateur tente d’effectuer un appel d’accès aux données via un espace de travail Machine Learning, sans utiliser de ressource de calcul.

Diagramme montrant le flux logique au moment de l’accès aux données.

Scénarios et options d’authentification

Ce tableau liste les identités à utiliser pour des scénarios spécifiques :

Configuration Machine virtuelle locale/de notebooks du kit SDK Travail Aperçu du jeu de données Parcours du magasin de données
Informations d’identification + MSI d’espace de travail Informations d'identification Informations d'identification MSI d’espace de travail Informations d’identification (uniquement clé de compte et jeton de signature d’accès partagé)
Aucune information d’identification + MSI d’espace de travail MSI de calcul/identité de l’utilisateur MSI de calcul/identité de l’utilisateur MSI d’espace de travail Identité de l’utilisateur
Informations d’identification + Aucune MSI d’espace de travail Informations d'identification Informations d'identification Informations d’identification (non prises en charge pour l’aperçu du jeu de données dans le cadre d’un réseau privé) Informations d’identification (uniquement clé de compte et jeton de signature d’accès partagé)
Aucune information d’identification + Aucune MSI d’espace de travail MSI de calcul/identité de l’utilisateur MSI de calcul/identité de l’utilisateur Identité de l’utilisateur Identité de l’utilisateur

Pour le kit SDK V1, l’authentification des données dans un travail utilise toujours une identité MSI de calcul. Pour le Kit de développement logiciel (SDK) V2, l’authentification des données dans un travail dépend de la configuration du travail. Il peut s’agir d’une identité d’utilisateur ou d’une identité MSI de calcul basée sur cette configuration.

Conseil

Pour accéder aux données externes à Machine Learning, par exemple avec l’Explorateur Stockage Azure, cet accès repose probablement sur l’identité de l’utilisateur. Pour obtenir des informations spécifiques, consultez la documentation relative à l’outil ou au service que vous prévoyez d’utiliser. Pour plus d’informations sur le fonctionnement de Machine Learning avec les données, consultez Configurer l’authentification entre Azure Machine Learning et d’autres services.

Exigences spécifiques aux réseaux virtuels

Ces informations vous aident à configurer l’authentification des données à partir d’un espace de travail Machine Learning pour accéder aux données derrière un réseau virtuel.

Ajouter les autorisations d’un compte de stockage à une identité managée d’espace de travail Machine Learning

Quand vous utilisez un compte de stockage à partir du studio, si vous souhaitez voir l’aperçu du jeu de données, vous devez activer Utiliser l’identité managée d’espace de travail pour afficher un aperçu des données et les profiler dans Azure Machine Learning studio dans la configuration du magasin de données. Ajoutez ensuite ces rôles Azure RBAC de compte de stockage à l’identité managée de l’espace de travail :

  • Lecteur de données blob
  • Si le compte de stockage utilise un point de terminaison privé pour se connecter au réseau virtuel, vous devez octroyer le rôle Lecteur pour le point de terminaison privé du compte de stockage à l’identité managée.

Pour plus d’informations, consultez Utiliser Azure Machine Learning studio dans un réseau virtuel Azure.

Ces sections expliquent les limitations liées à l’utilisation d’un compte de stockage, avec votre espace de travail, dans un réseau virtuel.

Sécuriser la communication avec un compte de stockage

Si vous souhaitez sécuriser la communication entre Machine Learning et les comptes de stockage, configurez le stockage pour octroyer l’accès aux services Azure approuvés.

Pare-feu de Stockage Azure

Pour un compte de stockage situé derrière un réseau virtuel, le pare-feu de stockage peut normalement autoriser votre client à se connecter directement via Internet. Toutefois, quand vous utilisez le studio, votre client ne se connecte pas au compte de stockage. Machine Learning service, qui effectue la requête, se connecte au compte de stockage. L’adresse IP du service n’est pas documentée, et elle change fréquemment. L’activation du pare-feu de stockage ne permet pas au studio d’accéder au compte de stockage dans une configuration de réseau virtuel.

Type de point de terminaison de Stockage Azure

Si l’espace de travail utilise un point de terminaison privé, et que le compte de stockage se trouve également dans le réseau virtuel, des validations supplémentaires s’imposent quand vous utilisez le studio.

  • Si le compte de stockage utilise un point de terminaison de service, le point de terminaison privé de l’espace de travail et le point de terminaison de service du stockage doivent se trouver dans le même sous-réseau du réseau virtuel.
  • Si le compte de stockage utilise un point de terminaison privé, le point de terminaison privé de l’espace de travail et le point de terminaison privé du stockage doivent se trouver dans le même réseau virtuel. Dans ce cas, ils peuvent se trouver dans des sous-réseaux différents.

Azure Data Lake Storage Gen1

Quand vous utilisez Azure Data Lake Storage Gen1 en tant que magasin de données, vous pouvez uniquement utiliser des listes de contrôle d’accès de type POSIX. Vous pouvez accorder à l’identité managée de l’espace de travail l’accès aux ressources, comme pour tout autre principal de sécurité. Pour plus d’informations, consultez Contrôle d’accès dans Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Quand vous utilisez Azure Data Lake Storage Gen2 en tant que magasin de données, vous pouvez utiliser à la fois RBAC Azure et les listes ACL (listes de contrôle d’accès) de type POSIX pour contrôler l’accès aux données au sein d’un réseau virtuel.

  • Pour utiliser le contrôle RBAC Azure : suivez les étapes décrites dans Magasin de données : compte Stockage Azure. Data Lake Storage Gen2 est basé sur le service Stockage Azure. Les mêmes étapes s’appliquent donc quand vous utilisez le contrôle RBAC Azure.
  • Pour utiliser des listes ACL : vous pouvez accorder l’accès à l’identité managée de l’espace de travail comme pour tout autre principal de sécurité. Pour plus d’informations, consultez Listes de contrôle d’accès sur les fichiers et répertoires.

Étapes suivantes

Pour plus d’informations sur l’activation du studio dans un réseau, consultez Utiliser Azure Machine Learning studio dans un réseau virtuel Azure.