Freigeben über


Datenklassifizierung

Von Bedeutung

Dieses Feature befindet sich in der Public Preview.

Auf dieser Seite wird beschrieben, wie Sie die Datenklassifizierung von Databricks im Unity-Katalog verwenden, um vertrauliche Daten in Ihrem Katalog automatisch zu klassifizieren und zu kategorisieren.

Datenkataloge können eine große Datenmenge aufweisen, die häufig bekannte und unbekannte vertrauliche Daten enthält. Es ist wichtig, dass Datenteams verstehen, welche Art vertraulicher Daten in jeder Tabelle vorhanden ist, damit sie den Zugriff auf diese Daten steuern und demokratisieren können.

Um dieses Problem zu beheben, verwendet databricks Data Classification einen KI-Agent, um Tabellen in Ihrem Katalog automatisch zu klassifizieren und zu kategorisieren. Auf diese Weise können Sie vertrauliche Daten ermitteln und Governancesteuerelemente auf die Ergebnisse anwenden, indem Sie Tools wie die attributbasierte Zugriffssteuerung (ABAC) des Unity-Katalogs verwenden. Eine Liste der unterstützten Tags finden Sie unter "Unterstützte Klassifizierungstags".

Mit dieser Funktion können Sie die folgenden Schritte ausführen:

  • Klassifizieren von Daten: Das Modul verwendet ein agentisches KI-System, um alle Tabellen im Unity-Katalog automatisch zu klassifizieren und zu kategorisieren.
  • Optimieren Sie die Kosten durch intelligentes Scannen: Das System bestimmt intelligent, wann Ihre Daten durch Nutzung des Unity-Katalogs und des Data Intelligence-Moduls gescannt werden sollen. Dies bedeutet, dass das Scannen inkrementell und optimiert ist, um sicherzustellen, dass alle neuen Daten ohne manuelle Konfiguration klassifiziert werden.
  • Überprüfen und Schützen vertraulicher Daten: Die Anzeige der Ergebnisse unterstützt Sie beim Anzeigen von Klassifizierungsergebnissen und beim Schützen vertraulicher Daten durch Kategorisieren und Erstellen von Zugriffssteuerungsrichtlinien für jede Klasse.

Von Bedeutung

Die Datenklassifizierung von Databricks verwendet den Standardspeicher zum Speichern von Klassifizierungsergebnissen. Sie werden für den Speicher nicht in Rechnung gestellt.

Databricks Data Classification verwendet ein großes Sprachmodell (LLM), um die Klassifizierung zu unterstützen.

Anforderungen

Hinweis

Die Datenklassifizierung ist ein Vorschaufeature auf Arbeitsbereichsebene und kann nur von einem Arbeitsbereichs- oder Kontoadministrator verwaltet werden. Anweisungen finden Sie unter Verwalten von Azure Databricks-Vorschauen.

Von Bedeutung

Das Modell, das diese Funktion unterstützt, wird mithilfe von Mosaik AI Model Serving Foundation Model APIs zur Verfügung gestellt. Llama 3.1 ist unter der Llama 3.1 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Weitere Informationen finden Sie unter Anwendbare Modellentwicklerlizenzen und -bedingungen .

Wenn in Zukunft Modelle entstehen, die nach den internen Benchmarks von Databricks besser funktionieren, können Databricks die Modelle ändern und die Dokumentation aktualisieren.

  • Sie müssen serverloses Compute aktiviert haben. Siehe Verbinden mit serverlosem Compute.
  • Um die Datenklassifizierung zu aktivieren, müssen Sie Eigentümer des Katalogs sein oder über die Berechtigungen USE_CATALOG und MANAGE verfügen.
  • Um die Ergebnistabelle anzuzeigen, müssen Sie über die folgenden Berechtigungen verfügen: USE CATALOG und USE SCHEMA, plus SELECT in der Tabelle. Siehe Die Ergebnissystemtabelle.

Verwenden der Datenklassifizierung

So verwenden Sie die Datenklassifizierung in einem Katalog:

  1. Navigieren Sie zum Katalog, und klicken Sie auf die Registerkarte "Details ".

    Registerkarte „Details“ für die Katalogseite im Katalog-Explorer.

  2. Klicken Sie auf den Umschalter "Datenklassifizierung ", um ihn zu aktivieren.

  3. Das Dialogfeld "Datenklassifizierung aktivieren " wird angezeigt. Standardmäßig sind alle Schemas enthalten. Um nur einige Schemas einzuschließen, wählen Sie diese im Dropdown-Menü Schemas zum Einschließen aus.

    Modul für die Einstellungen zur Datenklassifizierung.

  4. Klicken Sie auf Aktivieren.

Dadurch wird ein Hintergrundauftrag erstellt, der alle Tabellen im Katalog oder ausgewählte Schemas inkrementell überprüft.

Das Klassifizierungsmodul basiert auf intelligentem Scannen, um zu bestimmen, wann eine Tabelle gescannt werden soll. Neue Tabellen und Spalten in einem Katalog werden in der Regel innerhalb von 24 Stunden nach der Erstellung gescannt.

Anzeigen der Klassifizierungsergebnisse

Klicken Sie zum Anzeigen der Klassifizierungsergebnisse auf " Ergebnisse neben der Umschaltfläche anzeigen".

Schaltfläche

Eine Ergebnisseite wird geöffnet, auf der die Klassifizierungsergebnisse für alle Tabellen im Katalog angezeigt werden. Um einen anderen Katalog auszuwählen, verwenden Sie die Auswahl oben links auf der Seite. Ein serverloses SQL Warehouse ist erforderlich und wird oben rechts auf der Seite angezeigt.

Auf der Ergebnisseite werden alle Klassifizierungstags aufgelistet, die im Katalog identifiziert wurden. Alle vorhandenen ABAC-Richtlinien, die auf Datenklassifizierungssystemtags (class.xx) verweisen, werden in der Tabelle angezeigt.

Ergebnisseite mit der Tabelle der erkannten Klassen.

Um die Ergebnisse für eine spezifische Klassifizierung zu überprüfen, klicken Sie in der rechten Spalte in der entsprechenden Zeile auf Überprüfen.

Ergebnisse mit Spalten mit erkannten Klassifizierungen.

Ein Bereich wird angezeigt, in dem die Tabellen angezeigt werden, für die die Datenklassifizierung das Klassifizierungs-Tag mit hoher Sicherheit erkannt hat. Überprüfen Sie die Tabellen, Spalten und Beispielwerte. Beispielwerte werden nur angezeigt, wenn Sie Zugriff auf die Ergebnistabelle haben. Siehe Die Ergebnissystemtabelle.

Wenn die identifizierten Spalten Ihren Erwartungen entsprechen, können Sie das automatische Kategorisieren für das Klassifizierungstag für diesen Katalog aktivieren. Wenn die automatische Markierung aktiviert ist, werden alle vorhandenen und zukünftigen Erkennungen dieser Klassifizierung markiert.

Um das automatische Tagging zu aktivieren, schalten Sie Automatisch taggen mit ... ein. Sie können das automatische Tagging später mit demselben Umschalter deaktivieren. Wenn Sie die Markierung deaktivieren, werden keine zukünftigen Tags angewendet, vorhandene Tags werden jedoch nicht entfernt.

Hinweis

Wenn Sie das automatische Tagging aktivieren, werden Tags nicht sofort nachträglich vervollständigt. Sie werden beim nächsten Scan eingetragen, der innerhalb von 24 Stunden wirksam sein sollte. Nachfolgende Klassifizierungen werden sofort markiert.

Die Ergebnissystemtabelle

Die Datenklassifizierung erstellt eine Systemtabelle, die zum Speichern von Ergebnissen benannt system.data_classification.results ist, auf die standardmäßig nur der Kontoadministrator zugreifen kann. Der Kontoadministrator kann diese Tabelle freigeben. Auf die Tabelle kann nur zugegriffen werden, wenn Sie serverlose Berechnung verwenden. Ausführliche Informationen zu dieser Tabelle finden Sie in der Datenklassifizierungssystemtabellenreferenz.

Von Bedeutung

Die Ergebnistabelle system.data_classification.results enthält alle Klassifizierungsergebnisse im gesamten Metastore und enthält Beispielwerte aus Tabellen in jedem Katalog. Sie sollten diese Tabelle nur für Benutzer freigeben, die berechtigt sind, metastoreweite Klassifizierungsergebnisse anzuzeigen, einschließlich Beispielwerten.

Die folgenden Berechtigungen sind erforderlich, um die Ergebnistabelle anzuzeigen: USE CATALOG und USE SCHEMA, plus SELECT in der Tabelle. Benutzer mit MANAGE oder SELECT Zugriff auf einen Katalog können Ergebnisse auf der Seite sehen, aber keine Beispielwerte sehen.

Richten Sie Governance-Kontrollen basierend auf den Ergebnissen der Datenklassifizierung ein

Maskieren vertraulicher Daten mithilfe einer ABAC-Richtlinie

Databricks empfiehlt die Verwendung der attributbasierten Unity-Katalog-Zugriffssteuerung (ABAC), um Governance-Steuerelemente basierend auf Datenklassifizierungsergebnissen zu erstellen.

Klicken Sie zum Erstellen einer Richtlinie auf "Neue Richtlinie". Das Richtlinienformular ist vorgefüllt, um Spalten zu maskieren, wobei das Klassifizierungstag überprüft wird. Um die Daten zu maskieren, geben Sie eine maskierende Funktion an, die im Unity-Katalog registriert ist, und klicken Sie auf " Speichern".

Sie können auch eine Richtlinie erstellen, die mehrere Klassifizierungstags abdeckt, indem Sie die Spalte "Wann" ändern, um die Bedingung zu erfüllen und mehrere Tags bereitzustellen.

Wenn Sie beispielsweise eine Richtlinie namens "Vertraulich" erstellen möchten, die einen beliebigen Namen, eine E-Mail oder Telefonnummer maskiert, legen Sie die erfüllte Bedingung auf hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").

Erkennung und Löschung von Daten gemäß DSGVO

Dieses Beispielnotizbuch zeigt, wie Sie die Datenklassifizierung verwenden können, um die Datenermittlung und -löschung für die DSGVO-Compliance zu unterstützen.

GDPR-Ermittlung und -Löschung mithilfe des Datenklassifizierungsnotizbuchs

Notebook abrufen

Wie man mit falschen Tags umgeht

Wenn Daten falsch markiert sind, können Sie das Tag manuell entfernen. Das Etikett wird bei zukünftigen Scans nicht erneut angewendet.

Um ein Tag mithilfe der Benutzeroberfläche zu entfernen, navigieren Sie im Katalog-Explorer zur Tabelle, und bearbeiten Sie die Spaltentags.

So entfernen Sie ein Tag mit SQL:

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Scanfehler

Wenn während der Überprüfung Fehler auftreten, wird oben rechts in der Ergebnistabelle eine Schaltfläche " Fehler " angezeigt.

Ergebnisseite mit der Schaltfläche

Klicken Sie auf die Schaltfläche, um die Tabellen anzuzeigen, bei denen die Überprüfung fehlgeschlagen ist, und zugehörige Fehlermeldungen.

Fehler beim Datenklassifizierungstabellen-Scan.

Standardmäßig werden Fehler, die für einzelne Tabellen aufgetreten sind, übersprungen und am folgenden Tag wiederholt.

Datenklassifizierungsausgaben anzeigen

Informationen dazu, wie die Datenklassifizierung abgerechnet wird, finden Sie auf der Preisseite. Sie können Ausgaben im Zusammenhang mit der Datenklassifizierung anzeigen, indem Sie entweder eine Abfrage ausführen oder das Nutzungsdashboard anzeigen.

Hinweis

Die anfängliche Überprüfung ist teurer als nachfolgende Scans im selben Katalog, da diese Scans inkrementell sind und in der Regel niedrigere Kosten verursachen.

Anzeigen des Verbrauchs über die Systemtabelle system.billing.usage

Sie können Datenklassifizierungskosten von system.billing.usage abfragen. Die Felder created_by und catalog_id können optional zum Aufschlüsseln der Kosten verwendet werden:

  • created_by: Einschließen, um die Kosten pro Benutzer anzuzeigen, der die Nutzung ausgelöst hat.
  • catalog_id: Einschließen, um Kosten nach Katalog anzuzeigen. Die Katalog-ID wird in der system.data_classification.results Tabelle angezeigt.

Beispielabfrage für die letzten 30 Tage:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Nutzung in der Nutzungsübersicht anzeigen

Wenn Sie bereits ein Nutzungsdashboard in Ihrem Arbeitsbereich konfiguriert haben, können Sie es verwenden, um die Verwendung zu filtern, indem Sie das Abrechnungsursprungprojekt mit der Bezeichnung "Datenklassifizierung" auswählen. Wenn Sie kein Verwendungsdashboard konfiguriert haben, können Sie ein Dashboard importieren und dieselbe Filterung anwenden. Ausführliche Informationen finden Sie unter Verwendungsdashboards.

Unterstützte Klassifizierungstags

In der Tabelle sind die vom System gesteuerten Tags aufgeführt, die von der Datenklassifizierung unterstützt werden:

Klasse BESCHREIBUNG
class.credit_card Kreditkartennummern
class.email_address E-Mail-Adresse
class.iban_code Internationale Bankkontonummer (IBAN)
class.ip_address Internetprotokolladresse (IPv4 oder IPv6)
class.location Standort
class.name Name einer Person
class.phone_number Telefonnummer
class.us_bank_number US-Banknummer
class.us_driver_license US-Treiberlizenz
class.us_itin US-Steueridentifikationsnummer für Einzelpersonen
class.us_passport US-amerikanischer Pass
class.us_ssn US-Sozialversicherungsnummer

Einschränkungen

  • Ansichten und Metrikansichten werden nicht unterstützt. Wenn die Ansicht auf vorhandenen Tabellen basiert, empfiehlt Databricks, die zugrunde liegenden Tabellen zu klassifizieren, um festzustellen, ob sie vertrauliche Daten enthalten.