Se connecter à Azure Data Lake Storage dans Microsoft Purview
Cet article décrit le processus d’inscription et de gouvernance d’une source de données Azure Data Lake Storage (ADLS Gen2) dans Microsoft Purview, y compris des instructions pour s’authentifier et interagir avec la source ADLS Gen2.
Fonctionnalités prises en charge
Extraction de métadonnées | Analyse complète | Analyse incrémentielle | Analyse délimitée | Classification | Étiquetage | Stratégie d’accès | Lignée | Partage de données | Affichage en direct |
---|---|---|---|---|---|---|---|---|---|
Oui | Oui | Oui | Oui | Oui | Oui | Oui (préversion) | Limitée* | Oui | Oui |
* La traçabilité est prise en charge si le jeu de données est utilisé comme source/récepteur dans le pipeline Data Factory ou Synapse.
Lors de l’analyse Azure Data Lake Storage Gen2 source, Microsoft Purview prend en charge l’extraction de métadonnées techniques, notamment :
- Compte de stockage
- service Data Lake Storage Gen2
- Système de fichiers (conteneur)
- Folders
- Fichiers
- Jeux de ressources
Lors de la configuration de l’analyse, vous pouvez choisir d’analyser l’intégralité des dossiers ADLS Gen2 ou sélectifs. Découvrez le format de fichier pris en charge ici.
Configuration requise
Un compte Azure avec un abonnement actif. Créez un compte gratuitement.
Un compte Microsoft Purview actif.
Vous devez être administrateur de source de données et lecteur de données pour inscrire une source et la gérer dans le portail de gouvernance Microsoft Purview. Pour plus d’informations, consultez notre page Autorisations Microsoft Purview .
Vous devez disposer au moins de l’autorisation Lecteur sur le compte ADLS Gen 2 pour pouvoir l’inscrire.
Inscrire
Cette section vous permet d’inscrire la source de données ADLS Gen2 pour l’analyse et le partage de données dans Purview.
Prérequis pour l’inscription
- Vous devez être un Administration de source de données et l’un des autres rôles Purview (par exemple, Lecteur de données ou Contributeur Data Share) pour inscrire une source et la gérer dans le portail de gouvernance Microsoft Purview. Pour plus d’informations, consultez notre page Autorisations Microsoft Purview .
Étapes d’inscription
Il est important d’inscrire la source de données dans Microsoft Purview avant de configurer une analyse pour la source de données.
Accédez au portail de gouvernance Microsoft Purview en :
- Accédez directement à https://web.purview.azure.com votre compte Microsoft Purview et sélectionnez-les.
- Ouverture du Portail Azure, recherchez et sélectionnez le compte Microsoft Purview. Sélectionnez le bouton Portail de gouvernance Microsoft Purview .
Accédez à Data Map --> Sources
Créez la hiérarchie collection à l’aide du menu Collections et attribuez des autorisations à des sous-collections individuelles, selon les besoins
Accédez à la collection appropriée sous le menu Sources et sélectionnez l’icône Inscrire pour inscrire une nouvelle source de données ADLS Gen2
Sélectionnez la source de données Azure Data Lake Storage Gen2, puis sélectionnez Continuer
Fournissez un nom approprié pour la source de données, sélectionnez l’abonnement Azure approprié, le nom du compte Data Lake Store existant et la collection , puis sélectionnez Appliquer. Laissez le bouton bascule Gestion de l’utilisation des données sur la position désactivée jusqu’à ce que vous ayez la possibilité d’examiner attentivement ce document.
Le compte de stockage ADLS Gen2 s’affiche sous la collection sélectionnée
Analyser
Conseil
Pour résoudre les problèmes liés à l’analyse :
- Vérifiez que vous avez correctement configuré l’authentification pour l’analyse
- Consultez notre documentation sur la résolution des problèmes d’analyse.
Authentification pour une analyse
Votre réseau Azure peut autoriser les communications entre vos ressources Azure, mais si vous avez configuré des pare-feu, des points de terminaison privés ou des réseaux virtuels dans Azure, vous devez suivre l’une de ces configurations ci-dessous.
Contraintes de mise en réseau | Type de runtime d’intégration | Types d’informations d’identification disponibles |
---|---|---|
Aucun point de terminaison ou pare-feu privé | Azure IR | Identité managée (recommandé), principal de service ou clé de compte |
Pare-feu activé, mais aucun point de terminaison privé | Azure IR | Identité gérée |
Points de terminaison privés activés | *Runtime d’intégration auto-hébergé | Principal de service, clé de compte |
Importante
- *Pour utiliser un runtime d’intégration auto-hébergé, vous devez d’abord en créer un et confirmer vos paramètres réseau pour Microsoft Purview
- Si vous utilisez le runtime d’intégration Self-Hosted pour analyser les fichiers Parquet, vous devez installer JRE 8 (Java Runtime Environment) 64 bits ou OpenJDK sur votre ordinateur ir. Vous pouvez case activée notre guide d’installation de l’environnement d’exécution Java.
Utilisation d’une identité managée affectée par le système ou l’utilisateur pour l’analyse
Vous pouvez utiliser deux types d’identité managée :
Identité managée affectée par le système (recommandé) : dès que le compte Microsoft Purview est créé, une identité managée affectée par le système (SAMI) est créée automatiquement dans le locataire Azure AD. Selon le type de ressource, des attributions de rôles RBAC spécifiques sont requises pour que l’identité managée affectée par le système (SAMI) Microsoft Purview effectue les analyses.
Identité managée affectée par l’utilisateur (préversion) : à l’instar d’une identité managée système, une identité managée affectée par l’utilisateur (UAMI) est une ressource d’informations d’identification qui peut être utilisée pour permettre à Microsoft Purview de s’authentifier auprès d’Azure Active Directory. Pour plus d’informations, consultez notre guide sur les identités managées affectées par l’utilisateur.
Il est important de donner à votre compte Microsoft Purview ou à votre identité managée affectée par l’utilisateur (UAMI) l’autorisation d’analyser la source de données ADLS Gen2. Vous pouvez ajouter l’identité managée affectée par le système de votre compte Microsoft Purview (qui porte le même nom que votre compte Microsoft Purview) ou uAMI au niveau de l’abonnement, du groupe de ressources ou de la ressource, en fonction du niveau d’autorisations d’analyse nécessaires.
Remarque
Vous devez être propriétaire de l’abonnement pour pouvoir ajouter une identité managée sur une ressource Azure.
Dans le Portail Azure, recherchez l’abonnement, le groupe de ressources ou la ressource (par exemple, un compte de stockage Azure Data Lake Storage Gen2) que vous souhaitez autoriser l’analyse du catalogue.
Sélectionnez Access Control (IAM) dans le volet de navigation gauche, puis + Ajouter --Ajouter une attribution de rôle>
Définissez le rôle sur Lecteur de données Blob du stockage et entrez le nom de votre compte Microsoft Purview ou votre identité managée affectée par l’utilisateur sous la zone Sélectionner une entrée. Sélectionnez ensuite Enregistrer pour attribuer cette attribution de rôle à votre compte Microsoft Purview.
Remarque
Pour plus d’informations, consultez les étapes décrites dans Autoriser l’accès aux objets blob et aux files d’attente à l’aide d’Azure Active Directory
Remarque
Si le pare-feu est activé pour le compte de stockage, vous devez utiliser la méthode d’authentification d’identité managée lors de la configuration d’une analyse.
Accédez à votre compte de stockage ADLS Gen2 dans Portail Azure
Accédez à Sécurité + mise en réseau >
Choisissez Réseaux sélectionnés sous Autoriser l’accès à partir de
Dans la section Exceptions, sélectionnez Autoriser les services Microsoft approuvés à accéder à ce compte de stockage, puis appuyez sur Enregistrer.
Créer l’analyse
Ouvrez votre compte Microsoft Purview et sélectionnez le portail de gouvernance Ouvrir Microsoft Purview
Accédez à Data Map -->Sources pour afficher la hiérarchie de collection
Sélectionnez l’icône Nouvelle analyse sous la source de données ADLS Gen2 inscrite précédemment
Si vous utilisez une identité managée affectée par le système ou l’utilisateur
Fournissez un Nom pour l’analyse, sélectionnez l’identité managée affectée par le système ou affectée par l’utilisateur sous Informations d’identification, choisissez la collection appropriée pour l’analyse, puis sélectionnez Tester la connexion. Sur une connexion réussie, sélectionnez Continuer.
Étendue et exécution de l’analyse
Vous pouvez étendre votre analyse à des dossiers et sous-dossiers spécifiques en choisissant les éléments appropriés dans la liste.
Sélectionnez ensuite un ensemble de règles d’analyse. Vous pouvez choisir entre le système par défaut et les ensembles de règles personnalisés existants ou créer un nouvel ensemble de règles inline.
Si vous créez un ensemble de règles d’analyse, sélectionnez les types de fichiers à inclure dans la règle d’analyse.
Vous pouvez sélectionner les règles de classification à inclure dans la règle d’analyse
Choisissez votre déclencheur d’analyse. Vous pouvez configurer une planification ou exécuter l’analyse une seule fois.
Passez en revue votre analyse et sélectionnez Enregistrer et exécuter.
Afficher vos analyses et exécutions d’analyse
Pour afficher les analyses existantes :
- Accédez au portail de gouvernance Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
- Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
- Sélectionnez l’analyse qui contient les résultats que vous souhaitez afficher. Le volet affiche toutes les exécutions d’analyse précédentes, ainsi que les status et les métriques pour chaque exécution d’analyse.
- Sélectionnez l’ID d’exécution pour case activée les détails de l’exécution de l’analyse.
Gérer vos analyses
Pour modifier, annuler ou supprimer une analyse :
Accédez au portail de gouvernance Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
Sélectionnez l’analyse que vous souhaitez gérer. Vous pouvez ensuite :
- Modifiez l’analyse en sélectionnant Modifier l’analyse.
- Annulez une analyse en cours en sélectionnant Annuler l’exécution de l’analyse.
- Supprimez votre analyse en sélectionnant Supprimer l’analyse.
Remarque
- La suppression de votre analyse ne supprime pas les ressources de catalogue créées à partir d’analyses précédentes.
- La ressource ne sera plus mise à jour avec des modifications de schéma si votre table source a changé et que vous réexécuterez la table source après avoir modifié la description sous l’onglet Schéma de Microsoft Purview.
Partage des données
Partage de données Microsoft Purview (préversion) permet le partage de données sur place entre ADLS Gen2 et ADLS Gen2. Cette section fournit des détails sur les exigences spécifiques d’ADLS Gen2 pour le partage et la réception de données sur place. Consultez Comment partager des données et Comment recevoir un partage pour obtenir un guide pas à pas sur l’utilisation du partage de données.
Comptes de stockage pris en charge pour le partage de données sur place
Les comptes de stockage suivants sont pris en charge pour le partage de données sur place :
- Régions : Canada Centre, Canada Est, Royaume-Uni Sud, Royaume-Uni Ouest, Australie Est, Japon Est, Corée Sud et Afrique du Sud Nord
- Options de redondance : LRS, GRS, RA-GRS
- Niveaux : Chaud, Froid
Utilisez uniquement des comptes de stockage sans charge de travail de production pour la préversion.
Remarque
Les comptes de stockage source et cible doivent se trouver dans la même région. Ils n’ont pas besoin d’être dans la même région que le compte Microsoft Purview.
Autorisations de compte de stockage requises pour partager des données
Pour ajouter ou mettre à jour une ressource de compte de stockage dans un partage, vous avez besoin de l’une des autorisations suivantes :
- Microsoft.Authorization/roleAssignments/write : cette autorisation est disponible dans le rôle Propriétaire .
- Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ : cette autorisation est disponible dans le rôle Propriétaire des données du stockage Blob .
Autorisations de compte de stockage requises pour recevoir des données partagées
Pour mapper une ressource de compte de stockage dans un partage reçu, vous avez besoin de l’une des autorisations suivantes :
- Microsoft.Storage/storageAccounts/write : cette autorisation est disponible dans le rôle Contributeur et Propriétaire .
- Microsoft.Storage/storageAccounts/blobServices/containers/write : cette autorisation est disponible dans le rôle Contributeur, Propriétaire, Contributeur aux données Blob du stockage et Propriétaire des données Blob du stockage .
Mettre à jour les données partagées dans le compte de stockage source
Mises à jour que vous effectuez dans les fichiers partagés ou les données du dossier partagé à partir du compte de stockage source seront mis à la disposition du destinataire dans le compte de stockage cible en quasi-temps réel. Lorsque vous supprimez un sous-dossier ou des fichiers dans le dossier partagé, ils disparaissent pour le destinataire. Pour supprimer le dossier partagé, le fichier ou les dossiers parents ou conteneurs, vous devez d’abord révoquer l’accès à tous vos partages à partir du compte de stockage source.
Accéder aux données partagées dans le compte de stockage cible
Le compte de stockage cible permet au destinataire d’accéder aux données partagées en lecture seule en quasi-temps réel. Vous pouvez connecter des outils d’analyse tels que Synapse Workspace et Databricks aux données partagées pour effectuer des analyses. Le coût d’accès aux données partagées est facturé au compte de stockage cible.
Limite de service
Le compte de stockage source peut prendre en charge jusqu’à 20 cibles et le compte de stockage cible peut prendre en charge jusqu’à 100 sources. Si vous avez besoin d’une augmentation de la limite, contactez le support technique.
Ajouter une stratégie
Stratégies prises en charge
Les types de stratégies suivants sont pris en charge sur cette ressource de données à partir de Microsoft Purview :
Conditions préalables de la stratégie d’accès sur les comptes de stockage Azure
Prise en charge des régions
- Toutes les régions Microsoft Purview sont prises en charge.
- Les comptes de stockage dans les régions suivantes sont pris en charge sans nécessiter de configuration supplémentaire. Toutefois, les comptes de stockage redondant interzone (ZRS) ne sont pas pris en charge.
- USA Est
- USA Est2
- USA Centre Sud
- USA Ouest 2
- Canada Centre
- Europe Nord
- Europe Ouest
- France Centre
- Sud du Royaume-Uni
- Asie Sud-Est
- Australie Est
- Les comptes de stockage dans d’autres régions du cloud public sont pris en charge après la définition de l’indicateur de fonctionnalité AllowPurviewPolicyEnforcement, comme indiqué dans la section suivante. Les comptes de stockage ZRS nouvellement créés sont pris en charge, s’ils sont créés après la définition de l’indicateur de fonctionnalité AllowPurviewPolicyEnforcement.
Si nécessaire, vous pouvez créer un compte de stockage en suivant ce guide.
Configurer l’abonnement dans lequel réside le compte de stockage Azure pour les stratégies de Microsoft Purview
Cette étape n’est nécessaire que dans certaines régions (voir la section précédente). Pour permettre à Microsoft Purview de gérer les stratégies d’un ou de plusieurs comptes de stockage Azure, exécutez les commandes PowerShell suivantes dans l’abonnement dans lequel vous allez déployer votre compte stockage Azure. Ces commandes PowerShell permettent à Microsoft Purview de gérer les stratégies sur tous les comptes de stockage Azure de cet abonnement.
Si vous exécutez ces commandes localement, veillez à exécuter PowerShell en tant qu’administrateur. Vous pouvez également utiliser le Cloud Shell Azure dans le Portail Azure : https://shell.azure.com.
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
Si la sortie de la dernière commande indique RegistrationState comme Inscrit, votre abonnement est activé pour les stratégies d’accès. Si la sortie est En cours d’inscription, attendez au moins 10 minutes, puis réessayez la commande. Ne continuez pas, sauf si RegistrationState s’affiche comme Enregistré.
Configurer le compte Microsoft Purview pour les stratégies
Inscrire la source de données dans Microsoft Purview
Avant de pouvoir créer une stratégie dans Microsoft Purview pour une ressource de données, vous devez inscrire cette ressource de données dans Microsoft Purview Studio. Vous trouverez les instructions relatives à l’inscription de la ressource de données plus loin dans ce guide.
Remarque
Les stratégies Microsoft Purview s’appuient sur le chemin d’accès ARM de la ressource de données. Si une ressource de données est déplacée vers un nouveau groupe de ressources ou un nouvel abonnement, elle doit être désinscrit, puis ré-inscrite dans Microsoft Purview.
Configurer les autorisations pour activer la gestion de l’utilisation des données sur la source de données
Une fois qu’une ressource est inscrite, mais avant qu’une stratégie puisse être créée dans Microsoft Purview pour cette ressource, vous devez configurer les autorisations. Un ensemble d’autorisations est nécessaire pour activer la gestion de l’utilisation des données. Cela s’applique aux sources de données, aux groupes de ressources ou aux abonnements. Pour activer la gestion de l’utilisation des données, vous devez disposer de privilèges iam (Identity and Access Management) spécifiques sur la ressource, ainsi que des privilèges Microsoft Purview spécifiques :
Vous devez disposer de l’une des combinaisons de rôles IAM suivantes sur le chemin d’accès azure Resource Manager de la ressource ou sur n’importe quel parent de celui-ci (c’est-à-dire, en utilisant l’héritage d’autorisation IAM) :
- Propriétaire IAM
- Contributeur IAM et Administrateur de l’accès utilisateur IAM
Pour configurer les autorisations de contrôle d’accès en fonction du rôle (RBAC) Azure, suivez ce guide. La capture d’écran suivante montre comment accéder à la section Access Control dans la Portail Azure de la ressource de données pour ajouter une attribution de rôle.
Remarque
Le rôle Propriétaire IAM pour une ressource de données peut être hérité d’un groupe de ressources parent, d’un abonnement ou d’un groupe d’administration d’abonnement. Vérifiez quels utilisateurs, groupes et principaux de service Azure AD détiennent ou héritent du rôle Propriétaire IAM pour la ressource.
Vous devez également disposer du rôle d’administrateur de source de données Microsoft Purview pour la collection ou une collection parente (si l’héritage est activé). Pour plus d’informations, consultez le guide sur la gestion des attributions de rôles Microsoft Purview.
La capture d’écran suivante montre comment attribuer le rôle d’administrateur de source de données au niveau de la collection racine.
Configurer des autorisations Microsoft Purview pour créer, mettre à jour ou supprimer des stratégies d’accès
Pour créer, mettre à jour ou supprimer des stratégies, vous devez obtenir le rôle auteur de stratégie dans Microsoft Purview au niveau de la collection racine :
- Le rôle Auteur de stratégie peut créer, mettre à jour et supprimer des stratégies DevOps et Propriétaire des données.
- Le rôle Auteur de stratégie peut supprimer des stratégies d’accès en libre-service.
Pour plus d’informations sur la gestion des attributions de rôles Microsoft Purview, consultez Créer et gérer des regroupements dans le Mappage de données Microsoft Purview.
Remarque
Le rôle d’auteur de stratégie doit être configuré au niveau de la collection racine.
En outre, pour rechercher facilement des utilisateurs ou des groupes Azure AD lors de la création ou de la mise à jour de l’objet d’une stratégie, vous pouvez grandement tirer parti de l’obtention de l’autorisation Lecteurs d’annuaire dans Azure AD. Il s’agit d’une autorisation courante pour les utilisateurs d’un locataire Azure. Sans l’autorisation Lecteur d’annuaire, l’auteur de la stratégie doit taper le nom d’utilisateur ou l’e-mail complet pour tous les principaux inclus dans l’objet d’une stratégie de données.
Configurer des autorisations Microsoft Purview pour publier des stratégies de propriétaire des données
Les stratégies de propriétaire des données permettent des vérifications et des équilibres si vous attribuez les rôles d’auteur de stratégie Microsoft Purview et d’administrateur de source de données à différentes personnes dans le organization. Avant qu’une stratégie de propriétaire de données ne prenne effet, une deuxième personne (administrateur de source de données) doit l’examiner et l’approuver explicitement en la publiant. Cela ne s’applique pas aux stratégies d’accès DevOps ou libre-service, car la publication est automatique pour ces stratégies lors de la création ou de la mise à jour de ces stratégies.
Pour publier une stratégie de propriétaire de données, vous devez obtenir le rôle Administrateur de source de données dans Microsoft Purview au niveau de la collection racine.
Pour plus d’informations sur la gestion des attributions de rôles Microsoft Purview, consultez Créer et gérer des regroupements dans le Mappage de données Microsoft Purview.
Remarque
Pour publier des stratégies de propriétaire de données, le rôle d’administrateur de source de données doit être configuré au niveau de la collection racine.
Déléguer la responsabilité du provisionnement de l’accès aux rôles dans Microsoft Purview
Une fois qu’une ressource a été activée pour la gestion de l’utilisation des données, tout utilisateur Microsoft Purview disposant du rôle d’auteur de stratégie au niveau de la collection racine peut provisionner l’accès à cette source de données à partir de Microsoft Purview.
Remarque
Tout administrateur de collection racine Microsoft Purview peut attribuer de nouveaux utilisateurs aux rôles d’auteur de stratégie racine. Tout administrateur de collection peut affecter de nouveaux utilisateurs à un rôle d’administrateur de source de données sous le regroupement. Réduisez et vérifiez soigneusement les utilisateurs qui détiennent les rôles d’administrateur de collection Microsoft Purview, d’administrateur de source de données ou d’auteur de stratégie .
Si un compte Microsoft Purview avec des stratégies publiées est supprimé, ces stratégies cesseront d’être appliquées dans un délai qui dépend de la source de données spécifique. Cette modification peut avoir des implications sur la sécurité et la disponibilité de l’accès aux données. Les rôles Contributeur et Propriétaire dans IAM peuvent supprimer des comptes Microsoft Purview. Vous pouvez case activée ces autorisations en accédant à la section Contrôle d’accès (IAM) de votre compte Microsoft Purview et en sélectionnant Attributions de rôles. Vous pouvez également utiliser un verrou pour empêcher la suppression du compte Microsoft Purview via des verrous Resource Manager.
Inscrire la source de données dans Microsoft Purview pour la gestion de l’utilisation des données
La ressource Stockage Azure doit d’abord être inscrite auprès de Microsoft Purview avant de pouvoir créer des stratégies d’accès. Pour inscrire votre ressource, suivez les sections Prérequis et Inscription de ce guide :
Une fois que vous avez inscrit la source de données, vous devez activer la gestion de l’utilisation des données. Il s’agit d’une condition préalable avant de pouvoir créer des stratégies sur la source de données. La gestion de l’utilisation des données peut avoir un impact sur la sécurité de vos données, car elle délègue à certains rôles Microsoft Purview qui gèrent l’accès aux sources de données. Passez en revue les pratiques sécurisées liées à la gestion de l’utilisation des données dans ce guide : Comment activer la gestion de l’utilisation des données
Une fois que l’option Gestion de l’utilisation des données de votre source de données est activée, elle ressemble à cette capture
Créer une stratégie
Pour créer une stratégie d’accès pour Azure Data Lake Storage Gen2, suivez ce guide :
Pour créer des stratégies qui couvrent toutes les sources de données à l’intérieur d’un groupe de ressources ou d’un abonnement Azure, vous pouvez vous reporter à cette section.
Prochaines étapes
Suivez les guides ci-dessous pour en savoir plus sur Microsoft Purview et vos données.