Herstellen einer Verbindung mit und Verwalten von HDFS in Microsoft Purview
In diesem Artikel wird beschrieben, wie Sie Hadoop Distributed File System (HDFS) registrieren und wie Sie sich in Microsoft Purview authentifizieren und mit HDFS interagieren. Weitere Informationen zu Microsoft Purview finden Sie im Einführungsartikel.
Unterstützte Funktionen
Metadatenextraktion | Vollständiger Scan | Inkrementelle Überprüfung | Bereichsbezogene Überprüfung | Klassifizierung | Bezeichnen | Zugriffsrichtlinie | Linie | Datenfreigabe | Liveansicht |
---|---|---|---|---|---|---|---|---|---|
Ja | Ja | Ja | Ja | Ja | Nein | Nein | Nein | Nein | Nein |
Beim Überprüfen der HDFS-Quelle unterstützt Microsoft Purview das Extrahieren technischer Metadaten, einschließlich HDFS:
- Nameode
- Ordner
- Dateien
- Ressourcensätze
Beim Einrichten der Überprüfung können Sie den gesamten HDFS oder selektive Ordner überprüfen. Hier erfahren Sie mehr über das unterstützte Dateiformat.
Der Connector verwendet das webhdfs-Protokoll , um eine Verbindung mit HDFS herzustellen und Metadaten abzurufen. Die MapR Hadoop-Verteilung wird nicht unterstützt.
Voraussetzungen
Ein Azure-Konto mit einem aktiven Abonnement. Erstellen Sie kostenlos ein Konto.
Ein aktives Microsoft Purview-Konto.
Sie benötigen Datenquellenadministrator- und Datenleserberechtigungen, um eine Quelle zu registrieren und im Microsoft Purview-Governanceportal zu verwalten. Weitere Informationen zu Berechtigungen finden Sie unter Zugriffssteuerung in Microsoft Purview.
Richten Sie die neueste selbstgehostete Integration Runtime ein. Weitere Informationen finden Sie im Leitfaden zum Erstellen und Konfigurieren einer selbstgehosteten Integration Runtime. Die mindestens unterstützte selbstgehostete Integration Runtime Version ist 5.20.8235.2.
- Stellen Sie sicher Visual C++ Redistributable (Version Visual Studio 2012 Update 4 oder höher) auf dem Computer der selbstgehosteten Integration Runtime installiert ist. Wenn Sie dieses Update nicht installiert haben, können Sie es hier herunterladen.
- Stellen Sie sicher, dass JRE oder OpenJDK auf dem Computer der selbstgehosteten Integration Runtime zum Analysieren von Parquet- und ORC-Dateien installiert ist. Weitere Informationen finden Sie hier.
- Informationen zum Einrichten Ihrer Umgebung zum Aktivieren der Kerberos-Authentifizierung finden Sie im Abschnitt Verwenden der Kerberos-Authentifizierung für den HDFS-Connector .
Registrieren
In diesem Abschnitt wird beschrieben, wie Sie HDFS in Microsoft Purview mithilfe des Microsoft Purview-Governanceportals registrieren.
Schritte zum Registrieren
Führen Sie die folgenden Schritte aus, um eine neue HDFS-Quelle in Ihrem Datenkatalog zu registrieren:
- Navigieren Sie im Microsoft Purview-Governanceportal zu Ihrem Microsoft Purview-Konto.
- Wählen Sie im linken Navigationsbereich Data Map aus.
- Wählen Sie Registrieren aus.
- Wählen Sie unter Quellen registrieren die Option HDFS aus. Wählen Sie Weiter.
Führen Sie auf dem Bildschirm Quellen registrieren (HDFS) die folgenden Schritte aus:
Geben Sie einen Namen ein, mit dem die Datenquelle im Katalog aufgeführt wird.
Geben Sie die Cluster-URL des HDFS NameNode im Format oder
https://<namenode>:<port>
http://<namenode>:<port>
ein, z. B.https://namenodeserver.com:50470
oderhttp://namenodeserver.com:50070
.Auswählen einer Sammlung oder Erstellen einer neuen Sammlung (Optional)
Schließen Sie ab, um die Datenquelle zu registrieren.
Überprüfung
Führen Sie die folgenden Schritte aus, um HDFS zu überprüfen, um Ressourcen automatisch zu identifizieren. Weitere Informationen zum Scannen im Allgemeinen finden Sie in unserer Einführung in Scans und Erfassung.
Authentifizierung für eine Überprüfung
Der unterstützte Authentifizierungstyp für eine HDFS-Quelle ist die Kerberos-Authentifizierung.
Erstellen und Ausführen der Überprüfung
Führen Sie die folgenden Schritte aus, um eine neue Überprüfung zu erstellen und auszuführen:
Stellen Sie sicher, dass eine selbstgehostete Integration Runtime eingerichtet ist. Wenn sie nicht eingerichtet ist, führen Sie die hier beschriebenen Schritte aus, um eine selbstgehostete Integration Runtime zu erstellen.
Navigieren Sie zu Quellen.
Wählen Sie die registrierte HDFS-Quelle aus.
Wählen Sie + Neuer Scan aus.
Geben Sie auf der Seite "Scan source_name" die folgenden Details an:
Name: Der Name der Überprüfung
Herstellen einer Verbindung über Integration Runtime: Wählen Sie die konfigurierte selbstgehostete Integration Runtime aus. Weitere Informationen finden Sie unter Setupanforderungen im Abschnitt Voraussetzungen .
Anmeldeinformationen: Wählen Sie die Anmeldeinformationen aus, um eine Verbindung mit Ihrer Datenquelle herzustellen. Stellen Sie folgendes sicher:
- Wählen Sie Beim Erstellen von Anmeldeinformationen die Option Kerberos-Authentifizierung aus.
- Geben Sie den Benutzernamen im Format im
<username>@<domain>.com
Eingabefeld Benutzername an. Weitere Informationen finden Sie unter Verwenden der Kerberos-Authentifizierung für den HDFS-Connector. - Speichern Sie das Benutzerkennwort, das zum Herstellen einer Verbindung mit HDFS verwendet wird, im geheimen Schlüssel.
Wählen Sie Verbindung testen aus.
Wählen Sie Weiter.
Wählen Sie auf der Seite "Bereich für Ihre Überprüfung" die Pfade aus, die Sie überprüfen möchten.
Wählen Sie auf der Seite "Überprüfungsregelsatz auswählen" den Überprüfungsregelsatz aus, den Sie für die Schemaextraktion und -klassifizierung verwenden möchten. Sie können zwischen dem Systemstandard und vorhandenen benutzerdefinierten Regelsätzen wählen oder einen neuen Regelsatz inline erstellen. Weitere Informationen finden Sie unter Erstellen eines Überprüfungsregelsatzes.
Wählen Sie auf der Seite "Scantrigger festlegen" Ihren Scantrigger aus. Sie können einen Zeitplan einrichten oder die Überprüfung einmal ausführen.
Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.
Anzeigen Ihrer Überprüfungen und Überprüfungsausführungen
So zeigen Sie vorhandene Überprüfungen an:
- Navigieren Sie zum Microsoft Purview-Governanceportal. Wählen Sie im linken Bereich Data Map aus.
- Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
- Wählen Sie die Überprüfung aus, die Ergebnisse enthält, die Sie anzeigen möchten. Im Bereich werden alle vorherigen Überprüfungsausführungen zusammen mit den status und Metriken für jede Überprüfungsausführung angezeigt.
- Wählen Sie die Ausführungs-ID aus, um die Details der Überprüfungsausführung zu überprüfen.
Verwalten ihrer Überprüfungen
So bearbeiten, abbrechen oder löschen Sie eine Überprüfung:
Navigieren Sie zum Microsoft Purview-Governanceportal. Wählen Sie im linken Bereich Data Map aus.
Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
Wählen Sie die Überprüfung aus, die Sie verwalten möchten. Anschließend können Sie:
- Bearbeiten Sie die Überprüfung, indem Sie Überprüfung bearbeiten auswählen.
- Brechen Sie eine laufende Überprüfung ab, indem Sie Überprüfungsausführung abbrechen auswählen.
- Löschen Sie Ihre Überprüfung, indem Sie Überprüfung löschen auswählen.
Hinweis
- Durch das Löschen Ihrer Überprüfung werden keine Katalogressourcen gelöscht, die aus vorherigen Überprüfungen erstellt wurden.
- Das Medienobjekt wird nicht mehr mit Schemaänderungen aktualisiert, wenn sich Ihre Quelltabelle geändert hat, und Sie die Quelltabelle erneut überprüfen, nachdem Sie die Beschreibung auf der Registerkarte Schema von Microsoft Purview bearbeitet haben.
Verwenden der Kerberos-Authentifizierung für den HDFS-Connector
Es gibt zwei Optionen zum Einrichten der lokalen Umgebung für die Verwendung der Kerberos-Authentifizierung für den HDFS-Connector. Sie können das auswählen, das besser zu Ihrer Situation passt.
- Option 1: Einbinden eines selbstgehosteten Integration Runtime-Computers im Kerberos-Bereich
- Option 2: Aktivieren der gegenseitigen Vertrauensstellung zwischen der Windows-Domäne und dem Kerberos-Bereich
Stellen Sie für beide Optionen sicher, dass Sie webhdfs für den Hadoop-Cluster aktivieren:
Erstellen Sie den HTTP-Prinzipal und die Schlüsseltabelle für webhdfs.
Wichtig
Der HTTP-Kerberos-Prinzipal muss gemäß der Kerberos-HTTP-SPNEGO-Spezifikation mit "HTTP/" beginnen. Weitere Informationen finden Sie hier.
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
HDFS-Konfigurationsoptionen: Fügen Sie die folgenden drei Eigenschaften in hinzu
hdfs-site.xml
.<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
Option 1: Einbinden eines selbstgehosteten Integration Runtime-Computers im Kerberos-Bereich
Anforderungen
- Der computer mit der selbstgehosteten Integration Runtime muss dem Kerberos-Bereich beitreten und kann keiner Windows-Domäne beitreten.
Konfigurieren von
Auf dem KDC-Server:
Erstellen Sie einen Prinzipal, und geben Sie das Kennwort an.
Wichtig
Der Benutzername darf den Hostnamen nicht enthalten.
Kadmin> addprinc <username>@<REALM.COM>
Auf dem Computer mit der selbstgehosteten Integration Runtime:
Führen Sie das Hilfsprogramm Ksetup aus, um den Kerberos-KDC-Server (Key Distribution Center) und den Bereich zu konfigurieren.
Der Computer muss als Mitglied einer Arbeitsgruppe konfiguriert werden, da sich ein Kerberos-Bereich von einer Windows-Domäne unterscheidet. Sie können diese Konfiguration erreichen, indem Sie den Kerberos-Bereich festlegen und einen KDC-Server hinzufügen, indem Sie die folgenden Befehle ausführen. Ersetzen Sie REALM.COM durch Ihren eigenen Bereichsnamen.
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
Nachdem Sie diese Befehle ausgeführt haben, starten Sie den Computer neu.
Überprüfen Sie die Konfiguration mit dem
Ksetup
Befehl. Die Ausgabe sollte wie folgt aussehen:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
In Ihrem Purview-Konto:
- Konfigurieren Sie Anmeldeinformationen mit dem Kerberos-Authentifizierungstyp mit Ihrem Kerberos-Prinzipalnamen und Kennwort, um das HDFS zu überprüfen. Weitere Konfigurationsdetails finden Sie im Abschnitt Überprüfung im Einstellungsteil für Anmeldeinformationen.
Option 2: Aktivieren der gegenseitigen Vertrauensstellung zwischen der Windows-Domäne und dem Kerberos-Bereich
Anforderungen
- Der computer mit der selbstgehosteten Integration Runtime muss einer Windows-Domäne beitreten.
- Sie benötigen die Berechtigung zum Aktualisieren der Einstellungen des Domänencontrollers.
Konfigurieren von
Hinweis
Ersetzen Sie REALM.COM und AD.COM im folgenden Tutorial durch Ihren eigenen Bereichsnamen und Domänencontroller.
Auf dem KDC-Server:
Bearbeiten Sie die KDC-Konfiguration in der Datei krb5.conf , damit KDC der Windows-Domäne vertrauen kann, indem Sie auf die folgende Konfigurationsvorlage verweisen. Standardmäßig befindet sich die Konfiguration unter /etc/krb5.conf.
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
Nachdem Sie die Datei konfiguriert haben, starten Sie den KDC-Dienst neu.
Bereiten Sie einen Prinzipal namens krbtgt/REALM.COM@AD.COM auf dem KDC-Server mit dem folgenden Befehl vor:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
Fügen Sie in der Konfigurationsdatei hadoop.security.auth_to_local HDFS-Diensts hinzu
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
.
Auf dem Domänencontroller:
Führen Sie die folgenden
Ksetup
Befehle aus, um einen Bereichseintrag hinzuzufügen:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Richten Sie eine Vertrauensstellung zwischen der Windows-Domäne und dem Kerberos-Bereich ein. [password] ist das Kennwort für den Prinzipal krbtgt/REALM.COM@AD.COM.
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
Wählen Sie den Verschlüsselungsalgorithmus aus, der in Kerberos verwendet wird.
Wählen Sie Server-Manager>Gruppenrichtlinie Verwaltungsdomäne>>Gruppenrichtlinie Objekte>Standard oder Aktive Domänenrichtlinie aus, und wählen Sie dann Bearbeiten aus.
Wählen Sie im Bereich Gruppenrichtlinie Verwaltungs-Editor die Option Computerkonfigurationsrichtlinien>>Windows-Einstellungen>Sicherheitseinstellungen>Lokale Richtlinien>Sicherheitsoptionen aus, und konfigurieren Sie dann Netzwerksicherheit: Für Kerberos zulässige Verschlüsselungstypen konfigurieren.
Wählen Sie den Verschlüsselungsalgorithmus aus, den Sie verwenden möchten, wenn Sie eine Verbindung mit dem KDC-Server herstellen. Sie können alle Optionen auswählen.
Verwenden Sie den
Ksetup
Befehl, um den Verschlüsselungsalgorithmus anzugeben, der für den angegebenen Bereich verwendet werden soll.C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
Erstellen Sie die Zuordnung zwischen dem Domänenkonto und dem Kerberos-Prinzipal, damit Sie den Kerberos-Prinzipal in der Windows-Domäne verwenden können.
Wählen Sie Verwaltungstools>Active Directory-Benutzer und -Computer aus.
Konfigurieren Sie erweiterte Features, indem SieErweiterte Featuresanzeigen> auswählen.
Klicken Sie im Bereich Erweiterte Features mit der rechten Maustaste auf das Konto, für das Sie Zuordnungen erstellen möchten, und wählen Sie im Bereich Namenszuordnungen die Registerkarte Kerberos-Namen aus.
Fügen Sie einen Prinzipal aus dem Bereich hinzu.
Auf dem Computer mit der selbstgehosteten Integration Runtime:
Führen Sie die folgenden
Ksetup
Befehle aus, um einen Bereichseintrag hinzuzufügen.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
In Ihrem Purview-Konto:
- Konfigurieren Sie Anmeldeinformationen mit dem Kerberos-Authentifizierungstyp mit Ihrem Kerberos-Prinzipalnamen und Kennwort, um das HDFS zu überprüfen. Weitere Konfigurationsdetails finden Sie im Abschnitt Überprüfung im Einstellungsteil für Anmeldeinformationen.
Bekannte Einschränkungen
Derzeit unterstützt der HDFS-Connector keine benutzerdefinierte Ressourcensatzmusterregel für erweiterte Ressourcensätze. Die integrierten Ressourcensatzmuster werden angewendet.
Vertraulichkeitsbezeichnungen werden noch nicht unterstützt.
Nächste Schritte
Nachdem Sie Ihre Quelle registriert haben, folgen Sie den folgenden Anleitungen, um mehr über Microsoft Purview und Ihre Daten zu erfahren.