Herstellen einer Verbindung mit und Verwalten von HDFS in Microsoft Purview
Artikel
In diesem Artikel wird beschrieben, wie Sie Hadoop Distributed File System (HDFS) registrieren und wie Sie sich in Microsoft Purview authentifizieren und mit HDFS interagieren. Weitere Informationen zu Microsoft Purview finden Sie im Einführungsartikel.
Beim Überprüfen der HDFS-Quelle unterstützt Microsoft Purview das Extrahieren technischer Metadaten, einschließlich HDFS:
Nameode
Ordner
Dateien
Ressourcensätze
Beim Einrichten der Überprüfung können Sie den gesamten HDFS oder selektive Ordner überprüfen. Hier erfahren Sie mehr über das unterstützte Dateiformat.
Der Connector verwendet das webhdfs-Protokoll , um eine Verbindung mit HDFS herzustellen und Metadaten abzurufen. Die MapR Hadoop-Verteilung wird nicht unterstützt.
Sie benötigen Datenquellenadministrator- und Datenleserberechtigungen, um eine Quelle zu registrieren und im Microsoft Purview-Governanceportal zu verwalten. Weitere Informationen zu Berechtigungen finden Sie unter Zugriffssteuerung in Microsoft Purview.
Stellen Sie sicher, dass JDK 11 auf dem Computer installiert ist, auf dem die selbstgehostete Integration Runtime installiert ist. Starten Sie den Computer neu, nachdem Sie das JDK neu installiert haben, damit es wirksam wird.
Stellen Sie sicher, dass Visual C++ Redistributable (Version Visual Studio 2012 Update 4 oder höher) auf dem Computer installiert ist, auf dem die selbstgehostete Integration Runtime ausgeführt wird. Wenn Sie dieses Update nicht installiert haben, laden Sie es jetzt herunter.
Wählen Sie im linken Navigationsbereich Data Map aus.
Wählen Sie Registrieren aus.
Wählen Sie unter Quellen registrieren die Option HDFS aus. Wählen Sie Weiter.
Führen Sie auf dem Bildschirm Quellen registrieren (HDFS) die folgenden Schritte aus:
Geben Sie einen Namen ein, mit dem die Datenquelle im Katalog aufgeführt wird.
Geben Sie die Cluster-URL des HDFS NameNode im Format oder https://<namenode>:<port>http://<namenode>:<port>ein, z. B. https://namenodeserver.com:50470 oder http://namenodeserver.com:50070.
Wählen Sie eine Sammlung aus der Liste aus.
Schließen Sie ab, um die Datenquelle zu registrieren.
Überprüfung
Führen Sie die folgenden Schritte aus, um HDFS zu überprüfen, um Ressourcen automatisch zu identifizieren. Weitere Informationen zum Scannen im Allgemeinen finden Sie in unserer Einführung in Scans und Erfassung.
Authentifizierung für eine Überprüfung
Der unterstützte Authentifizierungstyp für eine HDFS-Quelle ist die Kerberos-Authentifizierung.
Erstellen und Ausführen der Überprüfung
Führen Sie die folgenden Schritte aus, um eine neue Überprüfung zu erstellen und auszuführen:
Stellen Sie sicher, dass eine selbstgehostete Integration Runtime eingerichtet ist. Wenn sie nicht eingerichtet ist, führen Sie die unter Voraussetzungen beschriebenen Schritte aus, um eine selbstgehostete Integration Runtime zu erstellen.
Navigieren Sie zu Quellen.
Wählen Sie die registrierte HDFS-Quelle aus.
Wählen Sie + Neuer Scan aus.
Geben Sie auf der Seite "Scan source_name" die folgenden Details an:
Name: Der Name der Überprüfung
Herstellen einer Verbindung über Integration Runtime: Wählen Sie die konfigurierte selbstgehostete Integration Runtime aus. Weitere Informationen finden Sie unter Setupanforderungen im Abschnitt Voraussetzungen .
Anmeldeinformationen: Wählen Sie die Anmeldeinformationen aus, um eine Verbindung mit Ihrer Datenquelle herzustellen. Stellen Sie folgendes sicher:
Wählen Sie Beim Erstellen von Anmeldeinformationen die Option Kerberos-Authentifizierung aus.
Speichern Sie das Benutzerkennwort, das zum Herstellen einer Verbindung mit HDFS verwendet wird, im geheimen Schlüssel.
Wählen Sie Verbindung testen aus.
Wählen Sie Weiter.
Wählen Sie auf der Seite "Bereich für Ihre Überprüfung" die Pfade aus, die Sie überprüfen möchten.
Wählen Sie auf der Seite "Überprüfungsregelsatz auswählen" den Überprüfungsregelsatz aus, den Sie für die Schemaextraktion und -klassifizierung verwenden möchten. Sie können zwischen dem Systemstandard und vorhandenen benutzerdefinierten Regelsätzen wählen oder einen neuen Regelsatz inline erstellen. Weitere Informationen finden Sie unter Erstellen eines Überprüfungsregelsatzes.
Wählen Sie auf der Seite "Scantrigger festlegen" Ihren Scantrigger aus. Sie können einen Zeitplan einrichten oder die Überprüfung einmal ausführen.
Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.
Anzeigen Ihrer Überprüfungen und Überprüfungsausführungen
So zeigen Sie vorhandene Überprüfungen an:
Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.
Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
Wählen Sie die Überprüfung aus, die Ergebnisse enthält, die Sie anzeigen möchten. Im Bereich werden alle vorherigen Überprüfungsausführungen zusammen mit den status und Metriken für jede Überprüfungsausführung angezeigt.
So bearbeiten, abbrechen oder löschen Sie eine Überprüfung:
Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.
Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
Wählen Sie die Überprüfung aus, die Sie verwalten möchten. Anschließend können Sie:
Bearbeiten Sie die Überprüfung, indem Sie Überprüfung bearbeiten auswählen.
Brechen Sie eine laufende Überprüfung ab, indem Sie Überprüfungsausführung abbrechen auswählen.
Löschen Sie Ihre Überprüfung, indem Sie Überprüfung löschen auswählen.
Hinweis
Durch das Löschen Ihrer Überprüfung werden keine Katalogressourcen gelöscht, die aus vorherigen Überprüfungen erstellt wurden.
Verwenden der Kerberos-Authentifizierung für den HDFS-Connector
Es gibt zwei Optionen zum Einrichten der lokalen Umgebung für die Verwendung der Kerberos-Authentifizierung für den HDFS-Connector. Sie können das auswählen, das besser zu Ihrer Situation passt.
Option 1: Einbinden eines selbstgehosteten Integration Runtime-Computers im Kerberos-Bereich
Anforderungen
Der computer mit der selbstgehosteten Integration Runtime muss dem Kerberos-Bereich beitreten und kann keiner Windows-Domäne beitreten.
Konfigurieren von
Auf dem KDC-Server:
Erstellen Sie einen Prinzipal, und geben Sie das Kennwort an.
Wichtig
Der Benutzername darf den Hostnamen nicht enthalten.
Kadmin> addprinc <username>@<REALM.COM>
Auf dem Computer mit der selbstgehosteten Integration Runtime:
Führen Sie das Hilfsprogramm Ksetup aus, um den Kerberos-KDC-Server (Key Distribution Center) und den Bereich zu konfigurieren.
Der Computer muss als Mitglied einer Arbeitsgruppe konfiguriert werden, da sich ein Kerberos-Bereich von einer Windows-Domäne unterscheidet. Sie können diese Konfiguration erreichen, indem Sie den Kerberos-Bereich festlegen und einen KDC-Server hinzufügen, indem Sie die folgenden Befehle ausführen. Ersetzen Sie REALM.COM durch Ihren eigenen Bereichsnamen.
Konfigurieren Sie Anmeldeinformationen mit dem Kerberos-Authentifizierungstyp mit Ihrem Kerberos-Prinzipalnamen und Kennwort, um das HDFS zu überprüfen. Weitere Konfigurationsdetails finden Sie im Abschnitt Überprüfung im Einstellungsteil für Anmeldeinformationen.
Option 2: Aktivieren der gegenseitigen Vertrauensstellung zwischen der Windows-Domäne und dem Kerberos-Bereich
Anforderungen
Der computer mit der selbstgehosteten Integration Runtime muss einer Windows-Domäne beitreten.
Sie benötigen die Berechtigung zum Aktualisieren der Einstellungen des Domänencontrollers.
Konfigurieren von
Hinweis
Ersetzen Sie REALM.COM und AD.COM im folgenden Tutorial durch Ihren eigenen Bereichsnamen und Domänencontroller.
Auf dem KDC-Server:
Bearbeiten Sie die KDC-Konfiguration in der Datei krb5.conf , damit KDC der Windows-Domäne vertrauen kann, indem Sie auf die folgende Konfigurationsvorlage verweisen. Standardmäßig befindet sich die Konfiguration unter /etc/krb5.conf.
Richten Sie eine Vertrauensstellung zwischen der Windows-Domäne und dem Kerberos-Bereich ein. [password] ist das Kennwort für den Prinzipal krbtgt/REALM.COM@AD.COM.
Wählen Sie den Verschlüsselungsalgorithmus aus, der in Kerberos verwendet wird.
Wählen Sie Server-Manager>Gruppenrichtlinie Verwaltungsdomäne>>Gruppenrichtlinie Objekte>Standard oder Aktive Domänenrichtlinie aus, und wählen Sie dann Bearbeiten aus.
Wählen Sie im Bereich Gruppenrichtlinie Verwaltung EditorComputerkonfigurationsrichtlinien>>Windows-Einstellungen>Sicherheitseinstellungen>Lokale Richtlinien>Sicherheitsoptionen aus, und konfigurieren Sie dann Netzwerksicherheit: Für Kerberos zulässige Verschlüsselungstypen konfigurieren.
Wählen Sie den Verschlüsselungsalgorithmus aus, den Sie verwenden möchten, wenn Sie eine Verbindung mit dem KDC-Server herstellen. Sie können alle Optionen auswählen.
Verwenden Sie den Ksetup Befehl, um den Verschlüsselungsalgorithmus anzugeben, der für den angegebenen Bereich verwendet werden soll.
Erstellen Sie die Zuordnung zwischen dem Domänenkonto und dem Kerberos-Prinzipal, damit Sie den Kerberos-Prinzipal in der Windows-Domäne verwenden können.
Wählen Sie Verwaltung>aus Active Directory-Benutzer und -Computer.
Konfigurieren Sie erweiterte Features, indem SieErweiterte Featuresanzeigen> auswählen.
Klicken Sie im Bereich Erweiterte Features mit der rechten Maustaste auf das Konto, für das Sie Zuordnungen erstellen möchten, und wählen Sie im Bereich Namenszuordnungen die Registerkarte Kerberos-Namen aus.
Fügen Sie einen Prinzipal aus dem Bereich hinzu.
Auf dem Computer mit der selbstgehosteten Integration Runtime:
Führen Sie die folgenden Ksetup Befehle aus, um einen Bereichseintrag hinzuzufügen.
Konfigurieren Sie Anmeldeinformationen mit dem Kerberos-Authentifizierungstyp mit Ihrem Kerberos-Prinzipalnamen und Kennwort, um das HDFS zu überprüfen. Weitere Konfigurationsdetails finden Sie im Abschnitt Überprüfung im Einstellungsteil für Anmeldeinformationen.
Bekannte Einschränkungen
Derzeit unterstützt der HDFS-Connector keine benutzerdefinierte Ressourcensatzmusterregel für erweiterte Ressourcensätze. Die integrierten Ressourcensatzmuster werden angewendet.
Zeigen Sie Ihre Kenntnisse von allgemeinen Datentechnikaufgaben zum Implementieren und Verwalten von Datentechnikworkloads in Microsoft Azure unter Verwendung verschiedener Azure-Dienste.