Freigeben über


Einrichten der Datenqualität für Azure Databricks Unity Catalog

Um Unity Catalog verwenden zu können, muss Ihr Azure Databricks-Arbeitsbereich für Unity Catalog aktiviert sein. Dies bedeutet, dass der Arbeitsbereich an einen Unity Catalog-Metastore angefügt ist. Alle neuen Arbeitsbereiche werden bei der Erstellung automatisch für Unity Catalog aktiviert, aber ältere Arbeitsbereiche erfordern möglicherweise, dass ein Kontoadministrator Unity Catalog manuell aktiviert. Unabhängig davon, ob Ihr Arbeitsbereich automatisch für Unity Catalog aktiviert wurde, sind auch die folgenden Schritte erforderlich, um mit Unity Catalog zu beginnen:

  • Erstellen Sie Kataloge und Schemas, die Datenbankobjekte wie Tabellen und Volumes enthalten.
  • Erstellen Sie verwaltete Speicherorte, um die verwalteten Tabellen und Volumes in diesen Katalogen und Schemas zu speichern.
  • Gewähren Sie Benutzern Zugriff auf Kataloge, Schemas und Datenbankobjekte.

Arbeitsbereiche, die automatisch für Unity Catalog aktiviert sind, stellen einen Arbeitsbereichskatalog mit umfassenden Berechtigungen bereit, die allen Arbeitsbereichsbenutzern gewährt werden. Dieser Katalog ist ein praktischer Ausgangspunkt für das Testen von Unity Catalog.

Ausführliche Anweisungen zum Einrichten finden Sie unter Einrichten und Verwalten von Unity Catalog.

Wenn Sie Azure Databricks Unity Catalog überprüfen, unterstützt Microsoft Purview Folgendes:

  • Metastore
  • Kataloge
  • Schemata
  • Tabellen einschließlich der Spalten
  • Ansichten einschließlich der Spalten

Beim Einrichten der Überprüfung können Sie den gesamten Unity Catalog überprüfen oder die Überprüfung auf eine Teilmenge von Katalogen festlegen.

Konfigurieren der Data Map-Überprüfung zum Katalogen von Databricks Unity Catalog-Daten in Microsoft Purview

  • Registrieren eines Azure Databricks-Arbeitsbereichs in Microsoft Purview
  • Überprüfen des registrierten Azure Databricks-Arbeitsbereichs
    • Geben Sie den Namen der Überprüfung ein.
    • Auswählen des Unity-Katalogs als Extraktionsmethode
    • Herstellen einer Verbindung über Integration Runtime (Azure Integration Runtime, Managed Virtual Network IR oder eine von Kubernetes unterstützte selbstgehostete Integration Runtime, die Sie erstellt haben)
    • Wählen Sie Beim Erstellen von Anmeldeinformationen Zugriffstokenauthentifizierung aus. Weitere Informationen finden Sie unter Anmeldeinformationen für die Quellauthentifizierung in Microsoft Purview.
    • Geben Sie den HTTP-Pfad des Databricks SQL Warehouse an, mit dem Microsoft Purview eine Verbindung herstellt und die Überprüfung durchführt.
    • Wählen Sie auf der Seite Bereich Ihrer Überprüfung die Kataloge aus, die Sie überprüfen möchten.
    • Wählen Sie einen Überprüfungsregelsatz für die Klassifizierung aus. Sie können zwischen dem Systemstandard und vorhandenen benutzerdefinierten Regelsätzen wählen oder einen neuen Regelsatz inline erstellen. Weitere Informationen finden Sie im Artikel Klassifizierung.
    • Wählen Sie für Scantrigger aus, ob Sie einen Zeitplan einrichten oder die Überprüfung einmal ausführen möchten.
    • Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.
  • Zeigen Sie Ihre Überprüfungen und die Überprüfungsausführung an, um die Katalogisierung Ihrer Daten abzuschließen.

Nach der Überprüfung ist die Datenressource in Unity Catalog (UC) in Microsoft Purview Unified Catalog Suche verfügbar. Weitere Informationen zum Verbinden und Verwalten von Azure Databricks Unity Catalog in Microsoft Purview finden Sie hier.

Wichtig

  • Wählen Sie Beim Erstellen von Anmeldeinformationen Zugriffstokenauthentifizierung aus.
  • Platzieren Sie das Zugriffstoken auf Ihrem gehosteten Azure-Key Vault, und verbinden Sie den Schlüsseltresor mit dem Verbindungs-Manager.
  • Stellen Sie sicher, dass Sie den MSI-Lesezugriff (Geheimnis) des Produkts (Diensts) auf die Key Vault bereitstellen.

Einrichten einer Verbindung mit Databricks UC für die Datenqualitätsüberprüfung

An diesem Punkt haben wir die gescannte Ressource für die Katalogisierung und Governance bereit. Ordnen Sie das gescannte Medienobjekt dem Datenprodukt in einer Governancedomäne zu. Fügen Sie auf der Registerkarte Datenqualität eine neue Azure SQL Datenbankverbindung hinzu: Rufen Sie den manuell eingegebenen Datenbanknamen ab.

  1. Öffnen Sie im Microsoft Purview-PortalUnified Catalog.

  2. Wählen Sie unter Integritätsverwaltungdie Option Datenqualität aus.

  3. Wählen Sie in der Liste eine Governancedomäne und dann in der Dropdownliste Verwaltendie Option Connections aus.

  4. Konfigurieren der Verbindung auf der Seite Connections:

    • Fügen Sie den Verbindungsnamen und die Beschreibung hinzu.
    • Wählen Sie den Quelltyp Azure Databricks aus.
    • Wählen Sie Azure-Abonnement aus.
    • Wählen Sie arbeitsbereichs-URL aus.
    • Fügen Sie die Databricks-Metastore-ID hinzu.
    • Wählen Sie unity catalog (Unity-Katalog) als Extraktionsmethode aus.
    • Wählen Sie HTTP-Pfad aus.
    • Wählen Sie den Unity-Katalognamen aus.
    • Wählen Sie Schemaname aus.
    • Wählen Sie den Tabellennamen aus.
    • Auswählen der Authentifizierungsmethode – Zugriffstoken
      • Hinzufügen eines Azure-Abonnements
      • Key Vault-Verbindung
      • Geheimnisname
      • Geheimnisversion
    • Aktivieren Sie das Kontrollkästchen Verwaltetes V-Net aktivieren , wenn Databricks im virtuellen Netzwerk ausgeführt wird.
    • Region wird automatisch ausgewählt.
    • Erstellen Sie ein neues virtuelles Netzwerk, wenn noch kein virtueller Netzwerkspeicher erstellt wurde.
  5. Testen sie die Verbindung. Wenn sich Ihr Databricks-Speicher im virtuellen Netzwerk befindet, können Sie die Verbindung nicht testen.

Screenshot: Einrichten der Databricks UC-Verbindung

Screenshot: Konfigurieren des Databricks-Verbindungstokens

Wichtig

  • Data Quality Stewards benötigen schreibgeschützten Zugriff auf Azure Databricks Unity Catalog, um eine Data Quality-Verbindung einzurichten.
  • Wenn der öffentliche Zugriff deaktiviert ist, müssen Sie das Kontrollkästchen Vertrauenswürdige Microsoft-Dienste zulassen für Key Vault aktivieren. Dies ist nur für Key Vault erforderlich, nicht für Ihren Azure Databricks-Arbeitsbereich.
  • Die Unterstützung virtueller Netzwerke ist für alle unterstützten Azure-Regionen allgemein verfügbar. Es ist vorübergehend in den Data Governance-SKUs enthalten, um die Flexibilität während dieser Phase aufrechtzuerhalten. Die Preise für virtuelle Netzwerke sind noch nicht verfügbar, um sie in die Abrechnung einzubeziehen.

Profilerstellung und Datenqualitätsüberprüfung für Daten in Azure Databricks Unity Catalog-Datenbanken

Nachdem die Verbindungseinrichtung erfolgreich abgeschlossen wurde, können Sie Profile erstellen, Regeln erstellen und anwenden und eine Datenqualitätsüberprüfung Ihrer Daten in Azure Databricks Unity Catalog-Datenbanken ausführen. Befolgen Sie die Schritt-für-Schritt-Anleitung in diesen Ressourcen:

Wichtig

  • Der FQDN der Datenressource folgt einem Muster wie databricks://(metastore-id)/catalogs/(catalog-name)/schemas/(schema-name)/tables/(table-name). Die Details des FQDN Ihrer Databricks-Datenressource finden Sie auf der Seite Data Map-Medienobjekt.
  • Wenn Ihre Verbindungsparameter (auf der Verbindungsseite) nicht mit dem FQDN übereinstimmen, funktioniert Ihre Verbindung möglicherweise weiterhin, aber auf der Übersichtsseite der Datenqualität für das ausgewählte Databricks-Medienobjekt wird ein Verbindungsfehler angezeigt. Stellen Sie sicher, dass alle entsprechenden Felder ordnungsgemäß ausgefüllt sind.
  • XS SQL Warehouse (WH) mit einer Node-Einheit ist ein Standard-SQL-Warehouse im ADB-Arbeitsbereich und ist keine gute Computeleistung für die Verwendung in Produktionsqualität speziell für mittelgroße oder große Datasets. Schlagen Sie die Überprüfung des Referenzdokuments vor, und übernehmen Sie eine geeignete vertikale Skalierung (auswahl von XS, S, M, L, XL), SQL WH und horizontale Skalierung, indem Sie 8, 16, 32, 64 Knoten verwenden, um die Verarbeitung effektiv zu skalieren und zu parallelisieren. Es wird empfohlen, mit M (1-8) SQL WH zu beginnen und dann fortzufahren.

Referenzdokumente