Partager via


Se connecter et gérer HDFS dans Microsoft Purview

Cet article explique comment inscrire hadoop Distributed File System (HDFS) et comment s’authentifier et interagir avec HDFS dans Microsoft Purview. Pour plus d’informations sur Microsoft Purview, consultez l’article d’introduction.

Fonctionnalités prises en charge

Extraction de métadonnées Analyse complète Analyse incrémentielle Analyse délimitée Classification Étiquetage Stratégie d’accès Lignée Partage de données Affichage en direct
Oui Oui Oui Oui Oui Non Non Non Non Non

Lors de l’analyse de la source HDFS, Microsoft Purview prend en charge l’extraction de métadonnées techniques, notamment HDFS :

  • Namenode
  • Folders
  • Fichiers
  • Jeux de ressources

Lors de la configuration de l’analyse, vous pouvez choisir d’analyser l’intégralité des dossiers HDFS ou sélectifs. Découvrez le format de fichier pris en charge ici.

Le connecteur utilise le protocole webhdfs pour se connecter à HDFS et récupérer les métadonnées. La distribution MapR Hadoop n’est pas prise en charge.

Configuration requise

Inscrire

Cette section explique comment inscrire HDFS dans Microsoft Purview à l’aide du portail de gouvernance Microsoft Purview.

Étapes d’inscription

Pour inscrire une nouvelle source HDFS dans votre catalogue de données, procédez comme suit :

  1. Accédez à votre compte Microsoft Purview dans le portail de gouvernance Microsoft Purview.
  2. Sélectionnez Data Map dans le volet de navigation de gauche.
  3. Sélectionnez Inscrire.
  4. Dans Inscrire des sources, sélectionnez HDFS. Cliquez sur Continuer.

Dans l’écran Inscrire des sources (HDFS), procédez comme suit :

  1. Entrez un Nom indiquant que la source de données sera répertoriée dans le catalogue.

  2. Entrez l’URL de cluster du NameNode HDFS au format https://<namenode>:<port> ou http://<namenode>:<port>, par exemple https://namenodeserver.com:50470 ou http://namenodeserver.com:50070.

  3. Sélectionner une collection ou en créer une (facultatif)

  4. Terminez l’inscription de la source de données.

    Capture d’écran de l’inscription de la source HDFS dans Purview.

Analyser

Suivez les étapes ci-dessous pour analyser HDFS afin d’identifier automatiquement les ressources. Pour plus d’informations sur l’analyse en général, consultez notre présentation des analyses et de l’ingestion.

Authentification pour une analyse

Le type d’authentification pris en charge pour une source HDFS est l’authentification Kerberos.

Créer et exécuter une analyse

Pour créer et exécuter une nouvelle analyse, procédez comme suit :

  1. Vérifiez qu’un runtime d’intégration auto-hébergé est configuré. S’il n’est pas configuré, suivez les étapes mentionnées ici pour créer un runtime d’intégration auto-hébergé.

  2. Accédez à Sources.

  3. Sélectionnez la source HDFS inscrite.

  4. Sélectionnez + Nouvelle analyse.

  5. Dans la page « Analyser source_name », fournissez les détails ci-dessous :

    1. Nom : nom de l’analyse

    2. Se connecter via le runtime d’intégration : sélectionnez le runtime d’intégration auto-hébergé configuré. Consultez configuration requise dans la section Prérequis .

    3. Informations d’identification : sélectionnez les informations d’identification pour vous connecter à votre source de données. Veillez à :

      • Sélectionnez Authentification Kerberos lors de la création d’informations d’identification.
      • Indiquez le nom d’utilisateur au format de <username>@<domain>.com dans le champ d’entrée Nom d’utilisateur. Pour plus d’informations , consultez Utiliser l’authentification Kerberos pour le connecteur HDFS.
      • Stockez le mot de passe utilisateur utilisé pour se connecter à HDFS dans la clé secrète.

      Capture d’écran des configurations d’analyse HDFS dans Purview.

  6. Sélectionnez Tester la connexion.

  7. Cliquez sur Continuer.

  8. Dans la page « Étendue de votre analyse », sélectionnez le ou les chemins d’accès que vous souhaitez analyser.

  9. Dans la page « Sélectionner un ensemble de règles d’analyse », sélectionnez l’ensemble de règles d’analyse que vous souhaitez utiliser pour l’extraction et la classification du schéma. Vous pouvez choisir entre le système par défaut et les ensembles de règles personnalisés existants ou créer un nouvel ensemble de règles inline. Pour plus d’informations, consultez Créer un ensemble de règles d’analyse.

  10. Dans la page « Définir un déclencheur d’analyse », choisissez votre déclencheur d’analyse. Vous pouvez configurer une planification ou exécuter l’analyse une seule fois.

  11. Passez en revue votre analyse et sélectionnez Enregistrer et exécuter.

Afficher vos analyses et exécutions d’analyse

Pour afficher les analyses existantes :

  1. Accédez au portail de gouvernance Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
  2. Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
  3. Sélectionnez l’analyse qui contient les résultats que vous souhaitez afficher. Le volet affiche toutes les exécutions d’analyse précédentes, ainsi que les status et les métriques pour chaque exécution d’analyse.
  4. Sélectionnez l’ID d’exécution pour case activée les détails de l’exécution de l’analyse.

Gérer vos analyses

Pour modifier, annuler ou supprimer une analyse :

  1. Accédez au portail de gouvernance Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.

  2. Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .

  3. Sélectionnez l’analyse que vous souhaitez gérer. Vous pouvez ensuite :

    • Modifiez l’analyse en sélectionnant Modifier l’analyse.
    • Annulez une analyse en cours en sélectionnant Annuler l’exécution de l’analyse.
    • Supprimez votre analyse en sélectionnant Supprimer l’analyse.

Remarque

  • La suppression de votre analyse ne supprime pas les ressources de catalogue créées à partir d’analyses précédentes.
  • La ressource ne sera plus mise à jour avec des modifications de schéma si votre table source a changé et que vous réexécuterez la table source après avoir modifié la description sous l’onglet Schéma de Microsoft Purview.

Utiliser l’authentification Kerberos pour le connecteur HDFS

Il existe deux options pour configurer l’environnement local afin d’utiliser l’authentification Kerberos pour le connecteur HDFS. Vous pouvez choisir celle qui correspond le mieux à votre situation.

Pour l’une ou l’autre option, veillez à activer webhdfs pour le cluster Hadoop :

  1. Créez le principal HTTP et keytab pour webhdfs.

    Importante

    Le principal Kerberos HTTP doit commencer par « HTTP/ » conformément à la spécification SPNEGO HTTP Kerberos. Pour en savoir plus , cliquez ici.

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. Options de configuration HDFS : ajoutez les trois propriétés suivantes dans hdfs-site.xml.

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

Option 1 : Joindre une machine runtime d’intégration auto-hébergée dans le domaine Kerberos

Configuration requise

  • L’ordinateur du runtime d’intégration auto-hébergé doit rejoindre le domaine Kerberos et ne peut joindre aucun domaine Windows.

Procédure de configuration

Sur le serveur KDC :

Créez un principal et spécifiez le mot de passe.

Importante

Le nom d’utilisateur ne doit pas contenir le nom d’hôte.

Kadmin> addprinc <username>@<REALM.COM>

Sur l’ordinateur du runtime d’intégration auto-hébergé :

  1. Exécutez l’utilitaire Ksetup pour configurer le serveur et le domaine du Centre de distribution de clés (KDC) Kerberos.

    La machine doit être configurée en tant que membre d’un groupe de travail, car un domaine Kerberos est différent d’un domaine Windows. Vous pouvez obtenir cette configuration en définissant le domaine Kerberos et en ajoutant un serveur KDC en exécutant les commandes suivantes. Remplacez REALM.COM par votre propre nom de domaine.

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    Après avoir exécuté ces commandes, redémarrez l’ordinateur.

  2. Vérifiez la configuration avec la Ksetup commande . La sortie doit ressembler à ceci :

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

Dans votre compte Purview :

  • Configurez des informations d’identification avec le type d’authentification Kerberos avec votre nom de principal Kerberos et votre mot de passe pour analyser le HDFS. Pour plus d’informations sur la configuration, case activée la partie des paramètres d’informations d’identification dans la section Analyse.

Option 2 : Activer l’approbation mutuelle entre le domaine Windows et le domaine Kerberos

Configuration requise

  • L’ordinateur du runtime d’intégration auto-hébergé doit rejoindre un domaine Windows.
  • Vous devez être autorisé à mettre à jour les paramètres du contrôleur de domaine.

Procédure de configuration

Remarque

Remplacez REALM.COM et AD.COM dans le tutoriel suivant par votre propre nom de domaine et contrôleur de domaine.

Sur le serveur KDC :

  1. Modifiez la configuration du KDC dans le fichier krb5.conf pour permettre au KDC d’approuver le domaine Windows en faisant référence au modèle de configuration suivant. Par défaut, la configuration se trouve dans /etc/krb5.conf.

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    Après avoir configuré le fichier, redémarrez le service KDC.

  2. Préparez un principal nommé krbtgt/REALM.COM@AD.COM dans le serveur KDC avec la commande suivante :

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. Dans le fichier de configuration du service HDFS hadoop.security.auth_to_local, ajoutez RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//.

Sur le contrôleur de domaine :

  1. Exécutez les commandes suivantes Ksetup pour ajouter une entrée de domaine :

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. Établissez l’approbation du domaine Windows vers le domaine Kerberos. [password] est le mot de passe du principal krbtgt/REALM.COM@AD.COM.

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. Sélectionnez l’algorithme de chiffrement utilisé dans Kerberos.

    1. Sélectionnez Gestionnaire de serveur>stratégie de groupe Domaine> de gestion >stratégie de groupe Objets>Par défaut ou Stratégie de domaine active, puis sélectionnez Modifier.

    2. Dans le volet Éditeur de gestion stratégie de groupe, sélectionnez Configuration> ordinateurStratégies>Paramètres Windows Paramètres>de sécurité Stratégies>locales>Options de sécurité, puis configurez Sécurité réseau : Configurer les types de chiffrement autorisés pour Kerberos.

    3. Sélectionnez l’algorithme de chiffrement que vous souhaitez utiliser lorsque vous vous connectez au serveur KDC. Vous pouvez sélectionner toutes les options.

      Capture d’écran du volet Sécurité réseau : Configurer les types de chiffrement autorisés pour Kerberos.

    4. Utilisez la Ksetup commande pour spécifier l’algorithme de chiffrement à utiliser sur le domaine spécifié.

      C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
      
  4. Créez le mappage entre le compte de domaine et le principal Kerberos, afin de pouvoir utiliser le principal Kerberos dans le domaine Windows.

    1. Sélectionnez Outils>d’administration Utilisateurs et ordinateurs Active Directory.

    2. Configurez les fonctionnalités avancées en sélectionnant Afficher les>fonctionnalités avancées.

    3. Dans le volet Fonctionnalités avancées , cliquez avec le bouton droit sur le compte sur lequel vous souhaitez créer des mappages et, dans le volet Mappages de noms, sélectionnez l’onglet Noms Kerberos .

    4. Ajoutez un principal à partir du domaine.

      Capture d’écran du volet Mappage des identités de sécurité.

Sur l’ordinateur du runtime d’intégration auto-hébergé :

  • Exécutez les commandes suivantes Ksetup pour ajouter une entrée de domaine.

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

Dans votre compte Purview :

  • Configurez des informations d’identification avec le type d’authentification Kerberos avec votre nom de principal Kerberos et votre mot de passe pour analyser le HDFS. Pour plus d’informations sur la configuration, case activée la partie des paramètres d’informations d’identification dans la section Analyse.

Limitations connues

Actuellement, le connecteur HDFS ne prend pas en charge la règle de modèle d’ensemble de ressources personnalisées pour l’ensemble de ressources avancé. Les modèles de jeu de ressources intégrés seront appliqués.

L’étiquette de confidentialité n’est pas encore prise en charge.

Prochaines étapes

Maintenant que vous avez inscrit votre source, suivez les guides ci-dessous pour en savoir plus sur Microsoft Purview et vos données.