Herstellen einer Verbindung mit und Verwalten von Hive-Metastore-Datenbanken in Microsoft Purview
In diesem Artikel wird beschrieben, wie Sie Hive-Metastore-Datenbanken registrieren, sich authentifizieren und mit Hive Metastore-Datenbanken in Microsoft Purview interagieren. Weitere Informationen zu Microsoft Purview finden Sie im Einführungsartikel.
Unterstützte Funktionen
Metadatenextraktion | Vollständiger Scan | Inkrementelle Überprüfung | Bereichsbezogene Überprüfung | Klassifizierung | Bezeichnen | Zugriffsrichtlinie | Herkunft | Datenfreigabe | Live-Ansicht |
---|---|---|---|---|---|---|---|---|---|
Ja | Ja | Nein | Ja | Nein | Nein | Nein | Ja* | Nein | Nein |
* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.
Die unterstützten Hive-Versionen sind 2.x bis 3.x. Die unterstützten Plattformen sind Apache Hadoop, Cloudera und Hortonworks. Wenn Sie Azure Databricks überprüfen möchten, wird empfohlen, den Azure Databricks-Connector zu verwenden, der kompatibler und benutzerfreundlicher ist.
Beim Überprüfen der Hive-Metastore-Quelle unterstützt Microsoft Purview Folgendes:
Extrahieren von technischen Metadaten, einschließlich:
- Server
- Datenbanken
- Tabellen, einschließlich der Spalten, Fremdschlüssel, Eindeutigkeitseinschränkungen und Speicherbeschreibung
- Ansichten, einschließlich der Spalten und der Speicherbeschreibung
Abrufen der statischen Herkunft für Ressourcenbeziehungen zwischen Tabellen und Sichten.
Beim Einrichten der Überprüfung können Sie eine gesamte Hive-Metastore-Datenbank überprüfen oder die Überprüfung auf eine Teilmenge von Schemas festlegen, die den angegebenen Namen oder Namensmustern entsprechen.
Bekannte Einschränkungen
Wenn das Objekt aus der Datenquelle gelöscht wird, wird das entsprechende Objekt in Microsoft Purview bei der nachfolgenden Überprüfung derzeit nicht automatisch entfernt.
Voraussetzungen
Sie müssen über ein Azure-Konto mit einem aktiven Abonnement verfügen. Erstellen Sie kostenlos ein Konto.
Sie müssen über ein aktives Microsoft Purview-Konto verfügen.
Sie benötigen Datenquellenadministrator- und Datenleserberechtigungen, um eine Quelle zu registrieren und im Microsoft Purview-Governanceportal zu verwalten. Weitere Informationen zu Berechtigungen finden Sie unter Zugriffssteuerung in Microsoft Purview.
Wenn Ihre Datenquelle nicht öffentlich zugänglich ist, richten Sie die neueste selbstgehostete Integration Runtime ein.
-
Wählen Sie die richtige Integration Runtime für Ihr Szenario aus:
-
So verwenden Sie eine selbstgehostete Integration Runtime:
- Befolgen Sie den Artikel zum Erstellen und Konfigurieren einer selbstgehosteten Integration Runtime.
- Stellen Sie sicher, dass JDK 11 auf dem Computer installiert ist, auf dem die selbstgehostete Integration Runtime installiert ist. Starten Sie den Computer neu, nachdem Sie das JDK neu installiert haben, damit es wirksam wird.
- Stellen Sie sicher, dass Visual C++ Redistributable (Version Visual Studio 2012 Update 4 oder höher) auf dem Computer installiert ist, auf dem die selbstgehostete Integration Runtime ausgeführt wird. Wenn Sie dieses Update nicht installiert haben, laden Sie es jetzt herunter.
- Laden Sie den JDBC-Treiber der Hive Metastore-Datenbank auf den Computer herunter, auf dem Ihre selbstgehostete Integration Runtime ausgeführt wird. Wenn die Datenbank beispielsweise mssql ist, laden Sie den JDBC-Treiber von Microsoft für SQL Server herunter. Notieren Sie sich den Ordnerpfad, den Sie zum Einrichten der Überprüfung verwenden.
-
So verwenden Sie eine von Kubernetes unterstützte selbstgehostete Integration Runtime:
- Befolgen Sie den Artikel zum Erstellen und Konfigurieren einer von Kubernetes unterstützten Integration Runtime.
- Laden Sie den JDBC-Treiber der Hive Metastore-Datenbank auf den Computer herunter, auf dem Ihre selbstgehostete Integration Runtime ausgeführt wird. Wenn die Datenbank beispielsweise mssql ist, laden Sie den JDBC-Treiber von Microsoft für SQL Server herunter. Notieren Sie sich den Ordnerpfad, den Sie zum Einrichten der Überprüfung verwenden.
-
So verwenden Sie eine selbstgehostete Integration Runtime:
Hinweis
Auf den JDBC-Treiber sollte die selbstgehostete Integration Runtime zugreifen können. Standardmäßig verwendet die selbstgehostete Integration Runtime das lokale Dienstkonto "NT SERVICE\DIAHostService". Stellen Sie sicher, dass sie über die Berechtigungen "Lesen und Ausführen" und "Ordnerinhalte auflisten" für den Treiberordner verfügt.
-
Wählen Sie die richtige Integration Runtime für Ihr Szenario aus:
Registrieren
In diesem Abschnitt wird beschrieben, wie Sie eine Hive-Metastore-Datenbank in Microsoft Purview mithilfe des Microsoft Purview-Governanceportals registrieren.
Die einzige unterstützte Authentifizierung für eine Hive-Metastore-Datenbank ist die Standardauthentifizierung.
Öffnen Sie das Microsoft Purview-Governanceportal wie folgt:
- Navigieren Sie direkt zu https://web.purview.azure.com Ihrem Microsoft Purview-Konto, und wählen Sie es aus.
- Öffnen Sie die Azure-Portal, suchen Sie nach dem Microsoft Purview-Konto, und wählen Sie es aus. Wählen Sie die Schaltfläche Microsoft Purview-Governanceportal aus.
Wählen Sie im linken Bereich Data Map aus.
Wählen Sie Registrieren aus.
Wählen Sie unter Quellen registrieren die Option Hive Metastore>Weiter aus.
Gehen Sie auf dem Bildschirm Quellen registrieren (Hive-Metastore) wie folgt vor:
Geben Sie unter Name einen Namen ein, den Microsoft Purview als Datenquelle auflistet.
Geben Sie unter Hive-Cluster-URL einen Wert ein, den Sie aus der Ambari-URL erhalten. Geben Sie beispielsweise hive.azurehdinsight.net ein.
Geben Sie unter Url des Hive-Metastore-Servers eine URL für den Server ein. Geben Sie beispielsweise sqlserver://hive.database.windows.net ein.
Wählen Sie eine Sammlung aus der Liste aus.
Klicken Sie auf Fertigstellen.
Überprüfung
Tipp
So beheben Sie Probleme mit der Überprüfung:
- Vergewissern Sie sich, dass Sie alle Voraussetzungen erfüllt haben.
- Lesen Sie unsere Dokumentation zur Problembehandlung bei Der Überprüfung.
Führen Sie die folgenden Schritte aus, um Hive-Metastore-Datenbanken zu überprüfen, um Ressourcen automatisch zu identifizieren. Weitere Informationen zum Scannen im Allgemeinen finden Sie unter Scans und Erfassung in Microsoft Purview.
Wählen Sie im Management Center Integration Runtimes aus. Stellen Sie sicher, dass eine selbstgehostete Integration Runtime eingerichtet ist. Wenn sie nicht eingerichtet ist, führen Sie die Schritte unter Voraussetzungen aus.
Wechseln Sie zu Quellen.
Wählen Sie die registrierte Hive-Metastore-Datenbank aus.
Wählen Sie + Neuer Scan aus.
Geben Sie die folgenden Details an:
Name: Geben Sie einen Namen für die Überprüfung ein.
Herstellen einer Verbindung über Integration Runtime: Wählen Sie die konfigurierte selbstgehostete Integration Runtime aus.
Anmeldeinformationen: Wählen Sie die Anmeldeinformationen aus, um eine Verbindung mit Ihrer Datenquelle herzustellen. Stellen Sie folgendes sicher:
- Wählen Sie Standardauthentifizierung beim Erstellen von Anmeldeinformationen aus.
- Geben Sie den Metastore-Benutzernamen in das entsprechende Feld ein.
- Speichern Sie das Metastore-Kennwort im geheimen Schlüssel.
Weitere Informationen finden Sie unter Anmeldeinformationen für die Quellauthentifizierung in Microsoft Purview.
Metastore-JDBC-Treiberspeicherort: Geben Sie den Pfad zum JDBC-Treiberspeicherort auf Ihrem Computer an, auf dem die Selbsthost-Integration Runtime ausgeführt wird. Beispiel:
D:\Drivers\HiveMetastore
.- Für selbstgehostete Integration Runtime auf einem lokalen Computer:
D:\Drivers\HiveMetastore
. Dies ist der Pfad zum gültigen Speicherort des JAR-Ordners. Der Wert muss ein gültiger absoluter Dateipfad sein und enthält keinen Speicherplatz. Stellen Sie sicher, dass auf den Treiber über die selbstgehostete Integration Runtime zugegriffen werden kann;; Weitere Informationen finden Sie im Abschnitt "Voraussetzungen". - Für von Kubernetes unterstützte selbstgehostete Integration Runtime:
./drivers/HiveMetastore
. Dies ist der Pfad zum gültigen Speicherort des JAR-Ordners. Der Wert muss ein gültiger relativer Dateipfad sein. Informationen zum Einrichten einer Überprüfung mit externen Treibern zum Hochladen von Treibern finden Sie in der Dokumentation.
- Für selbstgehostete Integration Runtime auf einem lokalen Computer:
Metastore JDBC-Treiberklasse: Geben Sie den Klassennamen für den Verbindungstreiber an. Geben Sie beispielsweise \com.microsoft.sqlserver.jdbc.SQLServerDriver ein.
Metastore-JDBC-URL: Geben Sie den Wert der Verbindungs-URL an, und definieren Sie die Verbindung mit der URL des Metastore-Datenbankservers. Beispiel:
jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300
.Hinweis
Wenn Sie die URL aus hive-site.xmlkopieren, entfernen Sie
amp;
aus der Zeichenfolge. Andernfalls schlägt die Überprüfung fehl.Laden Sie das SSL-Zertifikat auf den Computer der selbstgehosteten Integration Runtime herunter, und aktualisieren Sie dann den Pfad zum Speicherort des SSL-Zertifikats auf Ihrem Computer in der URL.
Wenn Sie lokale Dateipfade in der Scankonfiguration eingeben, ändern Sie das Windows-Pfadtrennzeichen von einem umgekehrten Schrägstrich (
\
) in einen Schrägstrich (/
). Wenn Sie das SSL-Zertifikat beispielsweise im lokalen Dateipfad D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem platzieren, ändern Sie denserverSslCert
Parameterwert in D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.Der Wert der Metastore-JDBC-URL sieht wie in diesem Beispiel aus:
jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem
Name der Metastore-Datenbank: Geben Sie den Namen der Hive-Metastore-Datenbank an.
Schema: Geben Sie eine Liste der zu importierenden Hive-Schemas an. Beispiel: schema1; schema2.
Alle Benutzerschemas werden importiert, wenn diese Liste leer ist. Alle Systemschemas (z. B. SysAdmin) und -Objekte werden standardmäßig ignoriert.
Akzeptable Schemanamensmuster, die SQL-Ausdruckssyntax
LIKE
verwenden, umfassen das Prozentzeichen (%). Bedeutet beispielsweiseA%; %B; %C%; D
:- Beginnen Sie mit A oder
- Enden Sie mit B oder
- C oder enthalten
- Gleich D
Die Verwendung von
NOT
- und -Sonderzeichen ist nicht zulässig.Maximal verfügbarer Arbeitsspeicher: Maximal verfügbarer Arbeitsspeicher (in Gigabyte) auf dem Computer des Kunden für die Überprüfungsprozesse. Dieser Wert hängt von der Größe der zu überprüfenden Hive Metastore-Datenbank ab.
Hinweis
Geben Sie als Faustregel 1 GB Arbeitsspeicher für jeweils 1.000 Tabellen an.
Wählen Sie Weiter.
Wählen Sie für Scantrigger aus, ob Sie einen Zeitplan einrichten oder die Überprüfung einmal ausführen möchten.
Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.
Anzeigen Ihrer Überprüfungen und Überprüfungsausführungen
So zeigen Sie vorhandene Überprüfungen an:
- Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.
- Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
- Wählen Sie die Überprüfung aus, die Ergebnisse enthält, die Sie anzeigen möchten. Im Bereich werden alle vorherigen Überprüfungsausführungen zusammen mit den status und Metriken für jede Überprüfungsausführung angezeigt.
- Wählen Sie die Ausführungs-ID aus, um die Details der Überprüfungsausführung zu überprüfen.
Verwalten ihrer Überprüfungen
So bearbeiten, abbrechen oder löschen Sie eine Überprüfung:
Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.
Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
Wählen Sie die Überprüfung aus, die Sie verwalten möchten. Anschließend können Sie:
- Bearbeiten Sie die Überprüfung, indem Sie Überprüfung bearbeiten auswählen.
- Brechen Sie eine laufende Überprüfung ab, indem Sie Überprüfungsausführung abbrechen auswählen.
- Löschen Sie Ihre Überprüfung, indem Sie Überprüfung löschen auswählen.
Hinweis
- Durch das Löschen Ihrer Überprüfung werden keine Katalogressourcen gelöscht, die aus vorherigen Überprüfungen erstellt wurden.
Herkunft
Nachdem Sie Ihre Hive-Metastore-Quelle überprüft haben, können Sie den Datenkatalog durchsuchen oder den Datenkatalog durchsuchen , um die Ressourcendetails anzuzeigen.
Wechseln Sie zur Registerkarte Asset –> Herkunft. Die Ressourcenbeziehung wird angezeigt, falls zutreffend. Informationen zu den unterstützten Hive Metastore-Herkunftsszenarien finden Sie im Abschnitt Unterstützte Funktionen . Weitere Informationen zur Herkunft im Allgemeinen finden Sie im Benutzerhandbuch zur Datenherkunft und -herkunft.
Nächste Schritte
Nachdem Sie Ihre Quelle registriert haben, verwenden Sie die folgenden Leitfäden, um mehr über Microsoft Purview und Ihre Daten zu erfahren: