Herstellen einer Verbindung mit und Verwalten von Hive-Metastore-Datenbanken in Microsoft Purview

In diesem Artikel wird beschrieben, wie Sie Hive-Metastore-Datenbanken registrieren, sich authentifizieren und mit Hive Metastore-Datenbanken in Microsoft Purview interagieren. Weitere Informationen zu Microsoft Purview finden Sie im Einführungsartikel.

Unterstützte Funktionen

Metadatenextraktion Vollständiger Scan Inkrementelle Überprüfung Bereichsbezogene Überprüfung Klassifizierung Bezeichnen Zugriffsrichtlinie Linie Datenfreigabe Liveansicht
Ja Ja Nein Ja Nein Nein Nein Ja* Nein Nein

* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.

Die unterstützten Hive-Versionen sind 2.x bis 3.x. Die unterstützten Plattformen sind Apache Hadoop, Cloudera und Hortonworks. Wenn Sie Azure Databricks überprüfen möchten, wird empfohlen, den Azure Databricks-Connector zu verwenden, der kompatibler und benutzerfreundlicher ist.

Beim Überprüfen der Hive-Metastore-Quelle unterstützt Microsoft Purview Folgendes:

  • Extrahieren von technischen Metadaten, einschließlich:

    • Server
    • Datenbanken
    • Tabellen, einschließlich der Spalten, Fremdschlüssel, Eindeutigkeitseinschränkungen und Speicherbeschreibung
    • Ansichten, einschließlich der Spalten und der Speicherbeschreibung
  • Abrufen der statischen Herkunft für Ressourcenbeziehungen zwischen Tabellen und Sichten.

Beim Einrichten der Überprüfung können Sie eine gesamte Hive-Metastore-Datenbank überprüfen oder die Überprüfung auf eine Teilmenge von Schemas festlegen, die den angegebenen Namen oder Namensmustern entsprechen.

Bekannte Einschränkungen

Wenn das Objekt aus der Datenquelle gelöscht wird, wird das entsprechende Objekt in Microsoft Purview bei der nachfolgenden Überprüfung derzeit nicht automatisch entfernt.

Voraussetzungen

  • Sie müssen über ein Azure-Konto mit einem aktiven Abonnement verfügen. Erstellen Sie kostenlos ein Konto.

  • Sie müssen über ein aktives Microsoft Purview-Konto verfügen.

  • Sie benötigen Datenquellenadministrator- und Datenleserberechtigungen, um eine Quelle zu registrieren und im Microsoft Purview-Governanceportal zu verwalten. Weitere Informationen zu Berechtigungen finden Sie unter Zugriffssteuerung in Microsoft Purview.

  • Richten Sie die neueste selbstgehostete Integration Runtime ein. Weitere Informationen finden Sie unter Erstellen und Konfigurieren einer selbstgehosteten Integration Runtime.

    • Stellen Sie sicher, dass JDK 11 auf dem Computer installiert ist, auf dem die selbstgehostete Integration Runtime installiert ist. Starten Sie den Computer neu, nachdem Sie das JDK neu installiert haben, damit es wirksam wird.

    • Stellen Sie sicher, dass Visual C++ Redistributable (Version Visual Studio 2012 Update 4 oder höher) auf dem Computer installiert ist, auf dem die selbstgehostete Integration Runtime ausgeführt wird. Wenn Sie dieses Update nicht installiert haben, laden Sie es jetzt herunter.

    • Laden Sie den JDBC-Treiber der Hive Metastore-Datenbank auf den Computer herunter, auf dem Ihre selbstgehostete Integration Runtime ausgeführt wird. Wenn die Datenbank beispielsweise mssql ist, laden Sie den JDBC-Treiber von Microsoft für SQL Server herunter. Notieren Sie sich den Ordnerpfad, den Sie zum Einrichten der Überprüfung verwenden.

      Hinweis

      Auf den Treiber sollte über die selbstgehostete Integration Runtime zugegriffen werden können. Standardmäßig verwendet die selbstgehostete Integration Runtime das lokale Dienstkonto "NT SERVICE\DIAHostService". Stellen Sie sicher, dass sie über die Berechtigungen "Lesen und Ausführen" und "Ordnerinhalte auflisten" für den Treiberordner verfügt.

Registrieren

In diesem Abschnitt wird beschrieben, wie Sie eine Hive-Metastore-Datenbank in Microsoft Purview mithilfe des Microsoft Purview-Governanceportals registrieren.

Die einzige unterstützte Authentifizierung für eine Hive-Metastore-Datenbank ist die Standardauthentifizierung.

  1. Öffnen Sie das Microsoft Purview-Governanceportal wie folgt:

  2. Wählen Sie im linken Bereich Data Map aus.

  3. Wählen Sie Registrieren aus.

  4. Wählen Sie unter Quellen registrieren die Option Hive Metastore>Weiter aus.

  5. Gehen Sie auf dem Bildschirm Quellen registrieren (Hive-Metastore) wie folgt vor:

    1. Geben Sie unter Name einen Namen ein, den Microsoft Purview als Datenquelle auflistet.

    2. Geben Sie unter Hive-Cluster-URL einen Wert ein, den Sie aus der Ambari-URL erhalten. Geben Sie beispielsweise hive.azurehdinsight.net ein.

    3. Geben Sie unter Url des Hive-Metastore-Servers eine URL für den Server ein. Geben Sie beispielsweise sqlserver://hive.database.windows.net ein.

    4. Wählen Sie für Sammlung auswählen eine Sammlung aus der Liste aus, oder erstellen Sie eine neue Sammlung. Dieser Schritt ist optional.

    Screenshot: Felder zum Registrieren von Hive-Quellen

  6. Klicken Sie auf Fertigstellen.

Überprüfung

Tipp

So beheben Sie Probleme mit der Überprüfung:

  1. Vergewissern Sie sich, dass Sie alle Voraussetzungen erfüllt haben.
  2. Lesen Sie unsere Dokumentation zur Problembehandlung bei Der Überprüfung.

Führen Sie die folgenden Schritte aus, um Hive-Metastore-Datenbanken zu überprüfen, um Ressourcen automatisch zu identifizieren. Weitere Informationen zum Scannen im Allgemeinen finden Sie unter Scans und Erfassung in Microsoft Purview.

  1. Wählen Sie im Management Center Integration Runtimes aus. Stellen Sie sicher, dass eine selbstgehostete Integration Runtime eingerichtet ist. Wenn sie nicht eingerichtet ist, führen Sie die Schritte unter Erstellen und Verwalten einer selbstgehosteten Integration Runtime aus.

  2. Wechseln Sie zu Quellen.

  3. Wählen Sie die registrierte Hive-Metastore-Datenbank aus.

  4. Wählen Sie + Neuer Scan aus.

  5. Geben Sie die folgenden Details an:

    1. Name: Geben Sie einen Namen für die Überprüfung ein.

    2. Herstellen einer Verbindung über Integration Runtime: Wählen Sie die konfigurierte selbstgehostete Integration Runtime aus.

    3. Anmeldeinformationen: Wählen Sie die Anmeldeinformationen aus, um eine Verbindung mit Ihrer Datenquelle herzustellen. Stellen Sie folgendes sicher:

      • Wählen Sie Standardauthentifizierung beim Erstellen von Anmeldeinformationen aus.
      • Geben Sie den Metastore-Benutzernamen in das entsprechende Feld ein.
      • Speichern Sie das Metastore-Kennwort im geheimen Schlüssel.

      Weitere Informationen finden Sie unter Anmeldeinformationen für die Quellauthentifizierung in Microsoft Purview.

    4. Metastore-JDBC-Treiberspeicherort: Geben Sie den Pfad zum JDBC-Treiberspeicherort auf Ihrem Computer an, D:\Drivers\HiveMetastoreauf dem die Selbsthost-Integration Runtime ausgeführt wird, z. B. . Dies ist der Pfad zum gültigen Speicherort des JAR-Ordners. Stellen Sie sicher, dass der Treiber über die selbstgehostete Integration Runtime zugänglich ist. Weitere Informationen finden Sie im Abschnitt voraussetzungen.

    5. Metastore JDBC-Treiberklasse: Geben Sie den Klassennamen für den Verbindungstreiber an. Geben Sie beispielsweise \com.microsoft.sqlserver.jdbc.SQLServerDriver ein.

    6. Metastore-JDBC-URL: Geben Sie den Wert der Verbindungs-URL an, und definieren Sie die Verbindung mit der URL des Metastore-Datenbankservers. Beispiel: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Hinweis

      Wenn Sie die URL aus hive-site.xmlkopieren, entfernen Sie amp; aus der Zeichenfolge. Andernfalls schlägt die Überprüfung fehl.

      Laden Sie das SSL-Zertifikat auf den Computer der selbstgehosteten Integration Runtime herunter, und aktualisieren Sie dann den Pfad zum Speicherort des SSL-Zertifikats auf Ihrem Computer in der URL.

      Wenn Sie lokale Dateipfade in der Scankonfiguration eingeben, ändern Sie das Windows-Pfadtrennzeichen von einem umgekehrten Schrägstrich (\) in einen Schrägstrich (/). Wenn Sie das SSL-Zertifikat beispielsweise im lokalen Dateipfad D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem platzieren, ändern Sie den serverSslCert Parameterwert in D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.

      Der Wert der Metastore-JDBC-URL sieht wie in diesem Beispiel aus:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Name der Metastore-Datenbank: Geben Sie den Namen der Hive-Metastore-Datenbank an.

    8. Schema: Geben Sie eine Liste der zu importierenden Hive-Schemas an. Beispiel: schema1; schema2.

      Alle Benutzerschemas werden importiert, wenn diese Liste leer ist. Alle Systemschemas (z. B. SysAdmin) und -Objekte werden standardmäßig ignoriert.

      Akzeptable Schemanamensmuster, die SQL-Ausdruckssyntax LIKE verwenden, umfassen das Prozentzeichen (%). Bedeutet beispielsweise A%; %B; %C%; D :

      • Beginnen Sie mit A oder
      • Enden Sie mit B oder
      • C oder enthalten
      • Gleich D

      Die Verwendung von NOT - und -Sonderzeichen ist nicht zulässig.

    9. Maximal verfügbarer Arbeitsspeicher: Maximal verfügbarer Arbeitsspeicher (in Gigabyte) auf dem Computer des Kunden für die Überprüfungsprozesse. Dieser Wert hängt von der Größe der zu überprüfenden Hive Metastore-Datenbank ab.

      Hinweis

      Geben Sie als Faustregel 1 GB Arbeitsspeicher für jeweils 1.000 Tabellen an.

    Screenshot mit Feldern für Überprüfungsdetails

  6. Wählen Sie Weiter.

  7. Wählen Sie für Scantrigger aus, ob Sie einen Zeitplan einrichten oder die Überprüfung einmal ausführen möchten.

  8. Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.

Anzeigen Ihrer Überprüfungen und Überprüfungsausführungen

So zeigen Sie vorhandene Überprüfungen an:

  1. Navigieren Sie zum Microsoft Purview-Governanceportal. Wählen Sie im linken Bereich Data Map aus.
  2. Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
  3. Wählen Sie die Überprüfung aus, die Ergebnisse enthält, die Sie anzeigen möchten. Im Bereich werden alle vorherigen Überprüfungsausführungen zusammen mit den status und Metriken für jede Überprüfungsausführung angezeigt.
  4. Wählen Sie die Ausführungs-ID aus, um die Details der Überprüfungsausführung zu überprüfen.

Verwalten ihrer Überprüfungen

So bearbeiten, abbrechen oder löschen Sie eine Überprüfung:

  1. Navigieren Sie zum Microsoft Purview-Governanceportal. Wählen Sie im linken Bereich Data Map aus.

  2. Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.

  3. Wählen Sie die Überprüfung aus, die Sie verwalten möchten. Anschließend können Sie:

    • Bearbeiten Sie die Überprüfung, indem Sie Überprüfung bearbeiten auswählen.
    • Brechen Sie eine laufende Überprüfung ab, indem Sie Überprüfungsausführung abbrechen auswählen.
    • Löschen Sie Ihre Überprüfung, indem Sie Überprüfung löschen auswählen.

Hinweis

  • Durch das Löschen Ihrer Überprüfung werden keine Katalogressourcen gelöscht, die aus vorherigen Überprüfungen erstellt wurden.
  • Das Medienobjekt wird nicht mehr mit Schemaänderungen aktualisiert, wenn sich Ihre Quelltabelle geändert hat, und Sie die Quelltabelle erneut überprüfen, nachdem Sie die Beschreibung auf der Registerkarte Schema von Microsoft Purview bearbeitet haben.

Linie

Nachdem Sie Ihre Hive-Metastore-Quelle überprüft haben, können Sie den Datenkatalog durchsuchen oder den Datenkatalog durchsuchen , um die Ressourcendetails anzuzeigen.

Wechseln Sie zur Registerkarte Asset –> Herkunft. Die Ressourcenbeziehung wird angezeigt, falls zutreffend. Informationen zu den unterstützten Hive Metastore-Herkunftsszenarien finden Sie im Abschnitt Unterstützte Funktionen . Weitere Informationen zur Herkunft im Allgemeinen finden Sie im Benutzerhandbuch zur Datenherkunft und -herkunft.

Nächste Schritte

Nachdem Sie Ihre Quelle registriert haben, verwenden Sie die folgenden Leitfäden, um mehr über Microsoft Purview und Ihre Daten zu erfahren: