Herstellen einer Verbindung mit und Verwalten von HDFS in Microsoft Purview

In diesem Artikel wird beschrieben, wie Sie Hadoop Distributed File System (HDFS) registrieren und wie Sie sich in Microsoft Purview authentifizieren und mit HDFS interagieren. Weitere Informationen zu Microsoft Purview finden Sie im Einführungsartikel.

Unterstützte Funktionen

Metadatenextraktion Vollständiger Scan Inkrementelle Überprüfung Bereichsbezogene Überprüfung Klassifizierung Bezeichnen Zugriffsrichtlinie Linie Datenfreigabe Liveansicht
Ja Ja Ja Ja Ja Nein Nein Nein Nein Nein

Beim Überprüfen der HDFS-Quelle unterstützt Microsoft Purview das Extrahieren technischer Metadaten, einschließlich HDFS:

  • Nameode
  • Ordner
  • Dateien
  • Ressourcensätze

Beim Einrichten der Überprüfung können Sie den gesamten HDFS oder selektive Ordner überprüfen. Hier erfahren Sie mehr über das unterstützte Dateiformat.

Der Connector verwendet das webhdfs-Protokoll , um eine Verbindung mit HDFS herzustellen und Metadaten abzurufen. Die MapR Hadoop-Verteilung wird nicht unterstützt.

Voraussetzungen

Registrieren

In diesem Abschnitt wird beschrieben, wie Sie HDFS in Microsoft Purview mithilfe des Microsoft Purview-Governanceportals registrieren.

Schritte zum Registrieren

Führen Sie die folgenden Schritte aus, um eine neue HDFS-Quelle in Ihrem Datenkatalog zu registrieren:

  1. Navigieren Sie im Microsoft Purview-Governanceportal zu Ihrem Microsoft Purview-Konto.
  2. Wählen Sie im linken Navigationsbereich Data Map aus.
  3. Wählen Sie Registrieren aus.
  4. Wählen Sie unter Quellen registrieren die Option HDFS aus. Wählen Sie Weiter.

Führen Sie auf dem Bildschirm Quellen registrieren (HDFS) die folgenden Schritte aus:

  1. Geben Sie einen Namen ein, mit dem die Datenquelle im Katalog aufgeführt wird.

  2. Geben Sie die Cluster-URL des HDFS NameNode im Format oder https://<namenode>:<port>http://<namenode>:<port>ein, z. B. https://namenodeserver.com:50470 oder http://namenodeserver.com:50070.

  3. Auswählen einer Sammlung oder Erstellen einer neuen Sammlung (Optional)

  4. Schließen Sie ab, um die Datenquelle zu registrieren.

    Screenshot: HDFS-Quellregistrierung in Purview

Überprüfung

Führen Sie die folgenden Schritte aus, um HDFS zu überprüfen, um Ressourcen automatisch zu identifizieren. Weitere Informationen zum Scannen im Allgemeinen finden Sie in unserer Einführung in Scans und Erfassung.

Authentifizierung für eine Überprüfung

Der unterstützte Authentifizierungstyp für eine HDFS-Quelle ist die Kerberos-Authentifizierung.

Erstellen und Ausführen der Überprüfung

Führen Sie die folgenden Schritte aus, um eine neue Überprüfung zu erstellen und auszuführen:

  1. Stellen Sie sicher, dass eine selbstgehostete Integration Runtime eingerichtet ist. Wenn sie nicht eingerichtet ist, führen Sie die hier beschriebenen Schritte aus, um eine selbstgehostete Integration Runtime zu erstellen.

  2. Navigieren Sie zu Quellen.

  3. Wählen Sie die registrierte HDFS-Quelle aus.

  4. Wählen Sie + Neuer Scan aus.

  5. Geben Sie auf der Seite "Scan source_name" die folgenden Details an:

    1. Name: Der Name der Überprüfung

    2. Herstellen einer Verbindung über Integration Runtime: Wählen Sie die konfigurierte selbstgehostete Integration Runtime aus. Weitere Informationen finden Sie unter Setupanforderungen im Abschnitt Voraussetzungen .

    3. Anmeldeinformationen: Wählen Sie die Anmeldeinformationen aus, um eine Verbindung mit Ihrer Datenquelle herzustellen. Stellen Sie folgendes sicher:

      • Wählen Sie Beim Erstellen von Anmeldeinformationen die Option Kerberos-Authentifizierung aus.
      • Geben Sie den Benutzernamen im Format im <username>@<domain>.com Eingabefeld Benutzername an. Weitere Informationen finden Sie unter Verwenden der Kerberos-Authentifizierung für den HDFS-Connector.
      • Speichern Sie das Benutzerkennwort, das zum Herstellen einer Verbindung mit HDFS verwendet wird, im geheimen Schlüssel.

      Screenshot: HDFS-Scankonfigurationen in Purview

  6. Wählen Sie Verbindung testen aus.

  7. Wählen Sie Weiter.

  8. Wählen Sie auf der Seite "Bereich für Ihre Überprüfung" die Pfade aus, die Sie überprüfen möchten.

  9. Wählen Sie auf der Seite "Überprüfungsregelsatz auswählen" den Überprüfungsregelsatz aus, den Sie für die Schemaextraktion und -klassifizierung verwenden möchten. Sie können zwischen dem Systemstandard und vorhandenen benutzerdefinierten Regelsätzen wählen oder einen neuen Regelsatz inline erstellen. Weitere Informationen finden Sie unter Erstellen eines Überprüfungsregelsatzes.

  10. Wählen Sie auf der Seite "Scantrigger festlegen" Ihren Scantrigger aus. Sie können einen Zeitplan einrichten oder die Überprüfung einmal ausführen.

  11. Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.

Anzeigen Ihrer Überprüfungen und Überprüfungsausführungen

So zeigen Sie vorhandene Überprüfungen an:

  1. Navigieren Sie zum Microsoft Purview-Governanceportal. Wählen Sie im linken Bereich Data Map aus.
  2. Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
  3. Wählen Sie die Überprüfung aus, die Ergebnisse enthält, die Sie anzeigen möchten. Im Bereich werden alle vorherigen Überprüfungsausführungen zusammen mit den status und Metriken für jede Überprüfungsausführung angezeigt.
  4. Wählen Sie die Ausführungs-ID aus, um die Details der Überprüfungsausführung zu überprüfen.

Verwalten ihrer Überprüfungen

So bearbeiten, abbrechen oder löschen Sie eine Überprüfung:

  1. Navigieren Sie zum Microsoft Purview-Governanceportal. Wählen Sie im linken Bereich Data Map aus.

  2. Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.

  3. Wählen Sie die Überprüfung aus, die Sie verwalten möchten. Anschließend können Sie:

    • Bearbeiten Sie die Überprüfung, indem Sie Überprüfung bearbeiten auswählen.
    • Brechen Sie eine laufende Überprüfung ab, indem Sie Überprüfungsausführung abbrechen auswählen.
    • Löschen Sie Ihre Überprüfung, indem Sie Überprüfung löschen auswählen.

Hinweis

  • Durch das Löschen Ihrer Überprüfung werden keine Katalogressourcen gelöscht, die aus vorherigen Überprüfungen erstellt wurden.
  • Das Medienobjekt wird nicht mehr mit Schemaänderungen aktualisiert, wenn sich Ihre Quelltabelle geändert hat, und Sie die Quelltabelle erneut überprüfen, nachdem Sie die Beschreibung auf der Registerkarte Schema von Microsoft Purview bearbeitet haben.

Verwenden der Kerberos-Authentifizierung für den HDFS-Connector

Es gibt zwei Optionen zum Einrichten der lokalen Umgebung für die Verwendung der Kerberos-Authentifizierung für den HDFS-Connector. Sie können das auswählen, das besser zu Ihrer Situation passt.

Stellen Sie für beide Optionen sicher, dass Sie webhdfs für den Hadoop-Cluster aktivieren:

  1. Erstellen Sie den HTTP-Prinzipal und die Schlüsseltabelle für webhdfs.

    Wichtig

    Der HTTP-Kerberos-Prinzipal muss gemäß der Kerberos-HTTP-SPNEGO-Spezifikation mit "HTTP/" beginnen. Weitere Informationen finden Sie hier.

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. HDFS-Konfigurationsoptionen: Fügen Sie die folgenden drei Eigenschaften in hinzu hdfs-site.xml.

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

Option 1: Einbinden eines selbstgehosteten Integration Runtime-Computers im Kerberos-Bereich

Anforderungen

  • Der computer mit der selbstgehosteten Integration Runtime muss dem Kerberos-Bereich beitreten und kann keiner Windows-Domäne beitreten.

Konfigurieren von

Auf dem KDC-Server:

Erstellen Sie einen Prinzipal, und geben Sie das Kennwort an.

Wichtig

Der Benutzername darf den Hostnamen nicht enthalten.

Kadmin> addprinc <username>@<REALM.COM>

Auf dem Computer mit der selbstgehosteten Integration Runtime:

  1. Führen Sie das Hilfsprogramm Ksetup aus, um den Kerberos-KDC-Server (Key Distribution Center) und den Bereich zu konfigurieren.

    Der Computer muss als Mitglied einer Arbeitsgruppe konfiguriert werden, da sich ein Kerberos-Bereich von einer Windows-Domäne unterscheidet. Sie können diese Konfiguration erreichen, indem Sie den Kerberos-Bereich festlegen und einen KDC-Server hinzufügen, indem Sie die folgenden Befehle ausführen. Ersetzen Sie REALM.COM durch Ihren eigenen Bereichsnamen.

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    Nachdem Sie diese Befehle ausgeführt haben, starten Sie den Computer neu.

  2. Überprüfen Sie die Konfiguration mit dem Ksetup Befehl. Die Ausgabe sollte wie folgt aussehen:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

In Ihrem Purview-Konto:

  • Konfigurieren Sie Anmeldeinformationen mit dem Kerberos-Authentifizierungstyp mit Ihrem Kerberos-Prinzipalnamen und Kennwort, um das HDFS zu überprüfen. Weitere Konfigurationsdetails finden Sie im Abschnitt Überprüfung im Einstellungsteil für Anmeldeinformationen.

Option 2: Aktivieren der gegenseitigen Vertrauensstellung zwischen der Windows-Domäne und dem Kerberos-Bereich

Anforderungen

  • Der computer mit der selbstgehosteten Integration Runtime muss einer Windows-Domäne beitreten.
  • Sie benötigen die Berechtigung zum Aktualisieren der Einstellungen des Domänencontrollers.

Konfigurieren von

Hinweis

Ersetzen Sie REALM.COM und AD.COM im folgenden Tutorial durch Ihren eigenen Bereichsnamen und Domänencontroller.

Auf dem KDC-Server:

  1. Bearbeiten Sie die KDC-Konfiguration in der Datei krb5.conf , damit KDC der Windows-Domäne vertrauen kann, indem Sie auf die folgende Konfigurationsvorlage verweisen. Standardmäßig befindet sich die Konfiguration unter /etc/krb5.conf.

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    Nachdem Sie die Datei konfiguriert haben, starten Sie den KDC-Dienst neu.

  2. Bereiten Sie einen Prinzipal namens krbtgt/REALM.COM@AD.COM auf dem KDC-Server mit dem folgenden Befehl vor:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. Fügen Sie in der Konfigurationsdatei hadoop.security.auth_to_local HDFS-Diensts hinzu RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//.

Auf dem Domänencontroller:

  1. Führen Sie die folgenden Ksetup Befehle aus, um einen Bereichseintrag hinzuzufügen:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. Richten Sie eine Vertrauensstellung zwischen der Windows-Domäne und dem Kerberos-Bereich ein. [password] ist das Kennwort für den Prinzipal krbtgt/REALM.COM@AD.COM.

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. Wählen Sie den Verschlüsselungsalgorithmus aus, der in Kerberos verwendet wird.

    1. Wählen Sie Server-Manager>Gruppenrichtlinie Verwaltungsdomäne>>Gruppenrichtlinie Objekte>Standard oder Aktive Domänenrichtlinie aus, und wählen Sie dann Bearbeiten aus.

    2. Wählen Sie im Bereich Gruppenrichtlinie Verwaltungs-Editor die Option Computerkonfigurationsrichtlinien>>Windows-Einstellungen>Sicherheitseinstellungen>Lokale Richtlinien>Sicherheitsoptionen aus, und konfigurieren Sie dann Netzwerksicherheit: Für Kerberos zulässige Verschlüsselungstypen konfigurieren.

    3. Wählen Sie den Verschlüsselungsalgorithmus aus, den Sie verwenden möchten, wenn Sie eine Verbindung mit dem KDC-Server herstellen. Sie können alle Optionen auswählen.

      Screenshot des Bereichs

    4. Verwenden Sie den Ksetup Befehl, um den Verschlüsselungsalgorithmus anzugeben, der für den angegebenen Bereich verwendet werden soll.

      C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
      
  4. Erstellen Sie die Zuordnung zwischen dem Domänenkonto und dem Kerberos-Prinzipal, damit Sie den Kerberos-Prinzipal in der Windows-Domäne verwenden können.

    1. Wählen Sie Verwaltungstools>Active Directory-Benutzer und -Computer aus.

    2. Konfigurieren Sie erweiterte Features, indem SieErweiterte Featuresanzeigen> auswählen.

    3. Klicken Sie im Bereich Erweiterte Features mit der rechten Maustaste auf das Konto, für das Sie Zuordnungen erstellen möchten, und wählen Sie im Bereich Namenszuordnungen die Registerkarte Kerberos-Namen aus.

    4. Fügen Sie einen Prinzipal aus dem Bereich hinzu.

      Screenshot des Bereichs

Auf dem Computer mit der selbstgehosteten Integration Runtime:

  • Führen Sie die folgenden Ksetup Befehle aus, um einen Bereichseintrag hinzuzufügen.

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

In Ihrem Purview-Konto:

  • Konfigurieren Sie Anmeldeinformationen mit dem Kerberos-Authentifizierungstyp mit Ihrem Kerberos-Prinzipalnamen und Kennwort, um das HDFS zu überprüfen. Weitere Konfigurationsdetails finden Sie im Abschnitt Überprüfung im Einstellungsteil für Anmeldeinformationen.

Bekannte Einschränkungen

Derzeit unterstützt der HDFS-Connector keine benutzerdefinierte Ressourcensatzmusterregel für erweiterte Ressourcensätze. Die integrierten Ressourcensatzmuster werden angewendet.

Vertraulichkeitsbezeichnungen werden noch nicht unterstützt.

Nächste Schritte

Nachdem Sie Ihre Quelle registriert haben, folgen Sie den folgenden Anleitungen, um mehr über Microsoft Purview und Ihre Daten zu erfahren.