Teilen über


Herstellen einer Verbindung mit und Verwalten von Hive-Metastore-Datenbanken in Microsoft Purview

In diesem Artikel wird beschrieben, wie Sie Hive-Metastore-Datenbanken registrieren, sich authentifizieren und mit Hive Metastore-Datenbanken in Microsoft Purview interagieren. Weitere Informationen zu Microsoft Purview finden Sie im Einführungsartikel.

Unterstützte Funktionen

Metadatenextraktion Vollständiger Scan Inkrementelle Überprüfung Bereichsbezogene Überprüfung Klassifizierung Bezeichnen Zugriffsrichtlinie Herkunft Datenfreigabe Live-Ansicht
Ja Ja Nein Ja Nein Nein Nein Ja* Nein Nein

* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.

Die unterstützten Hive-Versionen sind 2.x bis 3.x. Die unterstützten Plattformen sind Apache Hadoop, Cloudera und Hortonworks. Wenn Sie Azure Databricks überprüfen möchten, wird empfohlen, den Azure Databricks-Connector zu verwenden, der kompatibler und benutzerfreundlicher ist.

Beim Überprüfen der Hive-Metastore-Quelle unterstützt Microsoft Purview Folgendes:

  • Extrahieren von technischen Metadaten, einschließlich:

    • Server
    • Datenbanken
    • Tabellen, einschließlich der Spalten, Fremdschlüssel, Eindeutigkeitseinschränkungen und Speicherbeschreibung
    • Ansichten, einschließlich der Spalten und der Speicherbeschreibung
  • Abrufen der statischen Herkunft für Ressourcenbeziehungen zwischen Tabellen und Sichten.

Beim Einrichten der Überprüfung können Sie eine gesamte Hive-Metastore-Datenbank überprüfen oder die Überprüfung auf eine Teilmenge von Schemas festlegen, die den angegebenen Namen oder Namensmustern entsprechen.

Bekannte Einschränkungen

Wenn das Objekt aus der Datenquelle gelöscht wird, wird das entsprechende Objekt in Microsoft Purview bei der nachfolgenden Überprüfung derzeit nicht automatisch entfernt.

Voraussetzungen

Registrieren

In diesem Abschnitt wird beschrieben, wie Sie eine Hive-Metastore-Datenbank in Microsoft Purview mithilfe des Microsoft Purview-Governanceportals registrieren.

Die einzige unterstützte Authentifizierung für eine Hive-Metastore-Datenbank ist die Standardauthentifizierung.

  1. Öffnen Sie das Microsoft Purview-Governanceportal wie folgt:

  2. Wählen Sie im linken Bereich Data Map aus.

  3. Wählen Sie Registrieren aus.

  4. Wählen Sie unter Quellen registrieren die Option Hive Metastore>Weiter aus.

  5. Gehen Sie auf dem Bildschirm Quellen registrieren (Hive-Metastore) wie folgt vor:

    1. Geben Sie unter Name einen Namen ein, den Microsoft Purview als Datenquelle auflistet.

    2. Geben Sie unter Hive-Cluster-URL einen Wert ein, den Sie aus der Ambari-URL erhalten. Geben Sie beispielsweise hive.azurehdinsight.net ein.

    3. Geben Sie unter Url des Hive-Metastore-Servers eine URL für den Server ein. Geben Sie beispielsweise sqlserver://hive.database.windows.net ein.

    4. Wählen Sie eine Sammlung aus der Liste aus.

    Screenshot: Felder zum Registrieren von Hive-Quellen

  6. Klicken Sie auf Fertigstellen.

Überprüfung

Tipp

So beheben Sie Probleme mit der Überprüfung:

  1. Vergewissern Sie sich, dass Sie alle Voraussetzungen erfüllt haben.
  2. Lesen Sie unsere Dokumentation zur Problembehandlung bei Der Überprüfung.

Führen Sie die folgenden Schritte aus, um Hive-Metastore-Datenbanken zu überprüfen, um Ressourcen automatisch zu identifizieren. Weitere Informationen zum Scannen im Allgemeinen finden Sie unter Scans und Erfassung in Microsoft Purview.

  1. Wählen Sie im Management Center Integration Runtimes aus. Stellen Sie sicher, dass eine selbstgehostete Integration Runtime eingerichtet ist. Wenn sie nicht eingerichtet ist, führen Sie die Schritte unter Voraussetzungen aus.

  2. Wechseln Sie zu Quellen.

  3. Wählen Sie die registrierte Hive-Metastore-Datenbank aus.

  4. Wählen Sie + Neuer Scan aus.

  5. Geben Sie die folgenden Details an:

    1. Name: Geben Sie einen Namen für die Überprüfung ein.

    2. Herstellen einer Verbindung über Integration Runtime: Wählen Sie die konfigurierte selbstgehostete Integration Runtime aus.

    3. Anmeldeinformationen: Wählen Sie die Anmeldeinformationen aus, um eine Verbindung mit Ihrer Datenquelle herzustellen. Stellen Sie folgendes sicher:

      • Wählen Sie Standardauthentifizierung beim Erstellen von Anmeldeinformationen aus.
      • Geben Sie den Metastore-Benutzernamen in das entsprechende Feld ein.
      • Speichern Sie das Metastore-Kennwort im geheimen Schlüssel.

      Weitere Informationen finden Sie unter Anmeldeinformationen für die Quellauthentifizierung in Microsoft Purview.

    4. Metastore-JDBC-Treiberspeicherort: Geben Sie den Pfad zum JDBC-Treiberspeicherort auf Ihrem Computer an, auf dem die Selbsthost-Integration Runtime ausgeführt wird. Beispiel: D:\Drivers\HiveMetastore.

      1. Für selbstgehostete Integration Runtime auf einem lokalen Computer: D:\Drivers\HiveMetastore. Dies ist der Pfad zum gültigen Speicherort des JAR-Ordners. Der Wert muss ein gültiger absoluter Dateipfad sein und enthält keinen Speicherplatz. Stellen Sie sicher, dass auf den Treiber über die selbstgehostete Integration Runtime zugegriffen werden kann;; Weitere Informationen finden Sie im Abschnitt "Voraussetzungen".
      2. Für von Kubernetes unterstützte selbstgehostete Integration Runtime: ./drivers/HiveMetastore. Dies ist der Pfad zum gültigen Speicherort des JAR-Ordners. Der Wert muss ein gültiger relativer Dateipfad sein. Informationen zum Einrichten einer Überprüfung mit externen Treibern zum Hochladen von Treibern finden Sie in der Dokumentation.
    5. Metastore JDBC-Treiberklasse: Geben Sie den Klassennamen für den Verbindungstreiber an. Geben Sie beispielsweise \com.microsoft.sqlserver.jdbc.SQLServerDriver ein.

    6. Metastore-JDBC-URL: Geben Sie den Wert der Verbindungs-URL an, und definieren Sie die Verbindung mit der URL des Metastore-Datenbankservers. Beispiel: jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300.

      Hinweis

      Wenn Sie die URL aus hive-site.xmlkopieren, entfernen Sie amp; aus der Zeichenfolge. Andernfalls schlägt die Überprüfung fehl.

      Laden Sie das SSL-Zertifikat auf den Computer der selbstgehosteten Integration Runtime herunter, und aktualisieren Sie dann den Pfad zum Speicherort des SSL-Zertifikats auf Ihrem Computer in der URL.

      Wenn Sie lokale Dateipfade in der Scankonfiguration eingeben, ändern Sie das Windows-Pfadtrennzeichen von einem umgekehrten Schrägstrich (\) in einen Schrägstrich (/). Wenn Sie das SSL-Zertifikat beispielsweise im lokalen Dateipfad D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem platzieren, ändern Sie den serverSslCert Parameterwert in D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem.

      Der Wert der Metastore-JDBC-URL sieht wie in diesem Beispiel aus:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. Name der Metastore-Datenbank: Geben Sie den Namen der Hive-Metastore-Datenbank an.

    8. Schema: Geben Sie eine Liste der zu importierenden Hive-Schemas an. Beispiel: schema1; schema2.

      Alle Benutzerschemas werden importiert, wenn diese Liste leer ist. Alle Systemschemas (z. B. SysAdmin) und -Objekte werden standardmäßig ignoriert.

      Akzeptable Schemanamensmuster, die SQL-Ausdruckssyntax LIKE verwenden, umfassen das Prozentzeichen (%). Bedeutet beispielsweise A%; %B; %C%; D :

      • Beginnen Sie mit A oder
      • Enden Sie mit B oder
      • C oder enthalten
      • Gleich D

      Die Verwendung von NOT - und -Sonderzeichen ist nicht zulässig.

    9. Maximal verfügbarer Arbeitsspeicher: Maximal verfügbarer Arbeitsspeicher (in Gigabyte) auf dem Computer des Kunden für die Überprüfungsprozesse. Dieser Wert hängt von der Größe der zu überprüfenden Hive Metastore-Datenbank ab.

      Hinweis

      Geben Sie als Faustregel 1 GB Arbeitsspeicher für jeweils 1.000 Tabellen an.

    Screenshot mit Feldern für Überprüfungsdetails

  6. Wählen Sie Weiter.

  7. Wählen Sie für Scantrigger aus, ob Sie einen Zeitplan einrichten oder die Überprüfung einmal ausführen möchten.

  8. Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.

Anzeigen Ihrer Überprüfungen und Überprüfungsausführungen

So zeigen Sie vorhandene Überprüfungen an:

  1. Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.
  2. Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
  3. Wählen Sie die Überprüfung aus, die Ergebnisse enthält, die Sie anzeigen möchten. Im Bereich werden alle vorherigen Überprüfungsausführungen zusammen mit den status und Metriken für jede Überprüfungsausführung angezeigt.
  4. Wählen Sie die Ausführungs-ID aus, um die Details der Überprüfungsausführung zu überprüfen.

Verwalten ihrer Überprüfungen

So bearbeiten, abbrechen oder löschen Sie eine Überprüfung:

  1. Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.

  2. Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.

  3. Wählen Sie die Überprüfung aus, die Sie verwalten möchten. Anschließend können Sie:

    • Bearbeiten Sie die Überprüfung, indem Sie Überprüfung bearbeiten auswählen.
    • Brechen Sie eine laufende Überprüfung ab, indem Sie Überprüfungsausführung abbrechen auswählen.
    • Löschen Sie Ihre Überprüfung, indem Sie Überprüfung löschen auswählen.

Hinweis

  • Durch das Löschen Ihrer Überprüfung werden keine Katalogressourcen gelöscht, die aus vorherigen Überprüfungen erstellt wurden.

Herkunft

Nachdem Sie Ihre Hive-Metastore-Quelle überprüft haben, können Sie den Datenkatalog durchsuchen oder den Datenkatalog durchsuchen , um die Ressourcendetails anzuzeigen.

Wechseln Sie zur Registerkarte Asset –> Herkunft. Die Ressourcenbeziehung wird angezeigt, falls zutreffend. Informationen zu den unterstützten Hive Metastore-Herkunftsszenarien finden Sie im Abschnitt Unterstützte Funktionen . Weitere Informationen zur Herkunft im Allgemeinen finden Sie im Benutzerhandbuch zur Datenherkunft und -herkunft.

Nächste Schritte

Nachdem Sie Ihre Quelle registriert haben, verwenden Sie die folgenden Leitfäden, um mehr über Microsoft Purview und Ihre Daten zu erfahren: