Se connecter et gérer HDFS dans Microsoft Purview
Cet article explique comment inscrire hadoop Distributed File System (HDFS) et comment s’authentifier et interagir avec HDFS dans Microsoft Purview. Pour plus d’informations sur Microsoft Purview, consultez l’article d’introduction.
Fonctionnalités prises en charge
Extraction de métadonnées | Analyse complète | Analyse incrémentielle | Analyse délimitée | Classification | Étiquetage | Stratégie d’accès | Lignée | Partage de données | Affichage en direct |
---|---|---|---|---|---|---|---|---|---|
Oui | Oui | Oui | Oui | Oui | Non | Non | Non | Non | Non |
Lors de l’analyse de la source HDFS, Microsoft Purview prend en charge l’extraction de métadonnées techniques, notamment HDFS :
- Namenode
- Folders
- Fichiers
- Jeux de ressources
Lors de la configuration de l’analyse, vous pouvez choisir d’analyser l’intégralité des dossiers HDFS ou sélectifs. Découvrez le format de fichier pris en charge ici.
Le connecteur utilise le protocole webhdfs pour se connecter à HDFS et récupérer les métadonnées. La distribution MapR Hadoop n’est pas prise en charge.
Configuration requise
Un compte Azure avec un abonnement actif. Créez un compte gratuitement.
Un compte Microsoft Purview actif.
Vous avez besoin des autorisations Administrateur de source de données et Lecteur de données pour inscrire une source et la gérer dans le portail de gouvernance Microsoft Purview. Pour plus d’informations sur les autorisations, consultez Contrôle d’accès dans Microsoft Purview.
Configurez le dernier runtime d’intégration auto-hébergé. Pour plus d’informations, consultez le guide créer et configurer un runtime d’intégration auto-hébergé. La version Integration Runtime auto-hébergée minimale prise en charge est 5.20.8235.2.
- Vérifiez que Visual C++ Redistributable (version Visual Studio 2012 Update 4 ou ultérieure) est installé sur l’ordinateur du runtime d’intégration auto-hébergé. Si cette mise à jour n’est pas installée, vous pouvez la télécharger ici.
- Vérifiez que JRE ou OpenJDK est installé sur l’ordinateur du runtime d’intégration auto-hébergé pour analyser les fichiers Parquet et ORC. Pour en savoir plus , cliquez ici.
- Pour configurer votre environnement afin d’activer l’authentification Kerberos, consultez la section Utiliser l’authentification Kerberos pour le connecteur HDFS .
Inscrire
Cette section explique comment inscrire HDFS dans Microsoft Purview à l’aide du portail de gouvernance Microsoft Purview.
Étapes d’inscription
Pour inscrire une nouvelle source HDFS dans votre catalogue de données, procédez comme suit :
- Accédez à votre compte Microsoft Purview dans le portail de gouvernance Microsoft Purview.
- Sélectionnez Data Map dans le volet de navigation de gauche.
- Sélectionnez Inscrire.
- Dans Inscrire des sources, sélectionnez HDFS. Cliquez sur Continuer.
Dans l’écran Inscrire des sources (HDFS), procédez comme suit :
Entrez un Nom indiquant que la source de données sera répertoriée dans le catalogue.
Entrez l’URL de cluster du NameNode HDFS au format
https://<namenode>:<port>
ouhttp://<namenode>:<port>
, par exemplehttps://namenodeserver.com:50470
ouhttp://namenodeserver.com:50070
.Sélectionner une collection ou en créer une (facultatif)
Terminez l’inscription de la source de données.
Analyser
Suivez les étapes ci-dessous pour analyser HDFS afin d’identifier automatiquement les ressources. Pour plus d’informations sur l’analyse en général, consultez notre présentation des analyses et de l’ingestion.
Authentification pour une analyse
Le type d’authentification pris en charge pour une source HDFS est l’authentification Kerberos.
Créer et exécuter une analyse
Pour créer et exécuter une nouvelle analyse, procédez comme suit :
Vérifiez qu’un runtime d’intégration auto-hébergé est configuré. S’il n’est pas configuré, suivez les étapes mentionnées ici pour créer un runtime d’intégration auto-hébergé.
Accédez à Sources.
Sélectionnez la source HDFS inscrite.
Sélectionnez + Nouvelle analyse.
Dans la page « Analyser source_name », fournissez les détails ci-dessous :
Nom : nom de l’analyse
Se connecter via le runtime d’intégration : sélectionnez le runtime d’intégration auto-hébergé configuré. Consultez configuration requise dans la section Prérequis .
Informations d’identification : sélectionnez les informations d’identification pour vous connecter à votre source de données. Veillez à :
- Sélectionnez Authentification Kerberos lors de la création d’informations d’identification.
- Indiquez le nom d’utilisateur au format de
<username>@<domain>.com
dans le champ d’entrée Nom d’utilisateur. Pour plus d’informations , consultez Utiliser l’authentification Kerberos pour le connecteur HDFS. - Stockez le mot de passe utilisateur utilisé pour se connecter à HDFS dans la clé secrète.
Sélectionnez Tester la connexion.
Cliquez sur Continuer.
Dans la page « Étendue de votre analyse », sélectionnez le ou les chemins d’accès que vous souhaitez analyser.
Dans la page « Sélectionner un ensemble de règles d’analyse », sélectionnez l’ensemble de règles d’analyse que vous souhaitez utiliser pour l’extraction et la classification du schéma. Vous pouvez choisir entre le système par défaut et les ensembles de règles personnalisés existants ou créer un nouvel ensemble de règles inline. Pour plus d’informations, consultez Créer un ensemble de règles d’analyse.
Dans la page « Définir un déclencheur d’analyse », choisissez votre déclencheur d’analyse. Vous pouvez configurer une planification ou exécuter l’analyse une seule fois.
Passez en revue votre analyse et sélectionnez Enregistrer et exécuter.
Afficher vos analyses et exécutions d’analyse
Pour afficher les analyses existantes :
- Accédez au portail de gouvernance Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
- Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
- Sélectionnez l’analyse qui contient les résultats que vous souhaitez afficher. Le volet affiche toutes les exécutions d’analyse précédentes, ainsi que les status et les métriques pour chaque exécution d’analyse.
- Sélectionnez l’ID d’exécution pour case activée les détails de l’exécution de l’analyse.
Gérer vos analyses
Pour modifier, annuler ou supprimer une analyse :
Accédez au portail de gouvernance Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
Sélectionnez l’analyse que vous souhaitez gérer. Vous pouvez ensuite :
- Modifiez l’analyse en sélectionnant Modifier l’analyse.
- Annulez une analyse en cours en sélectionnant Annuler l’exécution de l’analyse.
- Supprimez votre analyse en sélectionnant Supprimer l’analyse.
Remarque
- La suppression de votre analyse ne supprime pas les ressources de catalogue créées à partir d’analyses précédentes.
- La ressource ne sera plus mise à jour avec des modifications de schéma si votre table source a changé et que vous réexécuterez la table source après avoir modifié la description sous l’onglet Schéma de Microsoft Purview.
Utiliser l’authentification Kerberos pour le connecteur HDFS
Il existe deux options pour configurer l’environnement local afin d’utiliser l’authentification Kerberos pour le connecteur HDFS. Vous pouvez choisir celle qui correspond le mieux à votre situation.
- Option 1 : Joindre une machine runtime d’intégration auto-hébergée dans le domaine Kerberos
- Option 2 : Activer l’approbation mutuelle entre le domaine Windows et le domaine Kerberos
Pour l’une ou l’autre option, veillez à activer webhdfs pour le cluster Hadoop :
Créez le principal HTTP et keytab pour webhdfs.
Importante
Le principal Kerberos HTTP doit commencer par « HTTP/ » conformément à la spécification SPNEGO HTTP Kerberos. Pour en savoir plus , cliquez ici.
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
Options de configuration HDFS : ajoutez les trois propriétés suivantes dans
hdfs-site.xml
.<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
Option 1 : Joindre une machine runtime d’intégration auto-hébergée dans le domaine Kerberos
Configuration requise
- L’ordinateur du runtime d’intégration auto-hébergé doit rejoindre le domaine Kerberos et ne peut joindre aucun domaine Windows.
Procédure de configuration
Sur le serveur KDC :
Créez un principal et spécifiez le mot de passe.
Importante
Le nom d’utilisateur ne doit pas contenir le nom d’hôte.
Kadmin> addprinc <username>@<REALM.COM>
Sur l’ordinateur du runtime d’intégration auto-hébergé :
Exécutez l’utilitaire Ksetup pour configurer le serveur et le domaine du Centre de distribution de clés (KDC) Kerberos.
La machine doit être configurée en tant que membre d’un groupe de travail, car un domaine Kerberos est différent d’un domaine Windows. Vous pouvez obtenir cette configuration en définissant le domaine Kerberos et en ajoutant un serveur KDC en exécutant les commandes suivantes. Remplacez REALM.COM par votre propre nom de domaine.
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
Après avoir exécuté ces commandes, redémarrez l’ordinateur.
Vérifiez la configuration avec la
Ksetup
commande . La sortie doit ressembler à ceci :C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
Dans votre compte Purview :
- Configurez des informations d’identification avec le type d’authentification Kerberos avec votre nom de principal Kerberos et votre mot de passe pour analyser le HDFS. Pour plus d’informations sur la configuration, case activée la partie des paramètres d’informations d’identification dans la section Analyse.
Option 2 : Activer l’approbation mutuelle entre le domaine Windows et le domaine Kerberos
Configuration requise
- L’ordinateur du runtime d’intégration auto-hébergé doit rejoindre un domaine Windows.
- Vous devez être autorisé à mettre à jour les paramètres du contrôleur de domaine.
Procédure de configuration
Remarque
Remplacez REALM.COM et AD.COM dans le tutoriel suivant par votre propre nom de domaine et contrôleur de domaine.
Sur le serveur KDC :
Modifiez la configuration du KDC dans le fichier krb5.conf pour permettre au KDC d’approuver le domaine Windows en faisant référence au modèle de configuration suivant. Par défaut, la configuration se trouve dans /etc/krb5.conf.
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
Après avoir configuré le fichier, redémarrez le service KDC.
Préparez un principal nommé krbtgt/REALM.COM@AD.COM dans le serveur KDC avec la commande suivante :
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
Dans le fichier de configuration du service HDFS hadoop.security.auth_to_local, ajoutez
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
.
Sur le contrôleur de domaine :
Exécutez les commandes suivantes
Ksetup
pour ajouter une entrée de domaine :C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Établissez l’approbation du domaine Windows vers le domaine Kerberos. [password] est le mot de passe du principal krbtgt/REALM.COM@AD.COM.
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
Sélectionnez l’algorithme de chiffrement utilisé dans Kerberos.
Sélectionnez Gestionnaire de serveur>stratégie de groupe Domaine> de gestion >stratégie de groupe Objets>Par défaut ou Stratégie de domaine active, puis sélectionnez Modifier.
Dans le volet Éditeur de gestion stratégie de groupe, sélectionnez Configuration> ordinateurStratégies>Paramètres Windows Paramètres>de sécurité Stratégies>locales>Options de sécurité, puis configurez Sécurité réseau : Configurer les types de chiffrement autorisés pour Kerberos.
Sélectionnez l’algorithme de chiffrement que vous souhaitez utiliser lorsque vous vous connectez au serveur KDC. Vous pouvez sélectionner toutes les options.
Utilisez la
Ksetup
commande pour spécifier l’algorithme de chiffrement à utiliser sur le domaine spécifié.C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
Créez le mappage entre le compte de domaine et le principal Kerberos, afin de pouvoir utiliser le principal Kerberos dans le domaine Windows.
Sélectionnez Outils>d’administration Utilisateurs et ordinateurs Active Directory.
Configurez les fonctionnalités avancées en sélectionnant Afficher les>fonctionnalités avancées.
Dans le volet Fonctionnalités avancées , cliquez avec le bouton droit sur le compte sur lequel vous souhaitez créer des mappages et, dans le volet Mappages de noms, sélectionnez l’onglet Noms Kerberos .
Ajoutez un principal à partir du domaine.
Sur l’ordinateur du runtime d’intégration auto-hébergé :
Exécutez les commandes suivantes
Ksetup
pour ajouter une entrée de domaine.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Dans votre compte Purview :
- Configurez des informations d’identification avec le type d’authentification Kerberos avec votre nom de principal Kerberos et votre mot de passe pour analyser le HDFS. Pour plus d’informations sur la configuration, case activée la partie des paramètres d’informations d’identification dans la section Analyse.
Limitations connues
Actuellement, le connecteur HDFS ne prend pas en charge la règle de modèle d’ensemble de ressources personnalisées pour l’ensemble de ressources avancé. Les modèles de jeu de ressources intégrés seront appliqués.
L’étiquette de confidentialité n’est pas encore prise en charge.
Prochaines étapes
Maintenant que vous avez inscrit votre source, suivez les guides ci-dessous pour en savoir plus sur Microsoft Purview et vos données.