Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Dieses Feature befindet sich in der Public Preview.
Auf dieser Seite wird beschrieben, wie Sie die Datenklassifizierung von Databricks im Unity-Katalog verwenden, um vertrauliche Daten in Ihrem Katalog automatisch zu klassifizieren und zu kategorisieren.
Datenkataloge können eine große Datenmenge aufweisen, die häufig bekannte und unbekannte vertrauliche Daten enthält. Es ist wichtig, dass Datenteams verstehen, welche Art vertraulicher Daten in jeder Tabelle vorhanden ist, damit sie den Zugriff auf diese Daten steuern und demokratisieren können.
Um dieses Problem zu beheben, verwendet databricks Data Classification einen KI-Agent, um Tabellen in Ihrem Katalog automatisch zu klassifizieren und zu kategorisieren. Auf diese Weise können Sie vertrauliche Daten ermitteln und Governancesteuerelemente auf die Ergebnisse anwenden, indem Sie Tools wie die attributbasierte Zugriffssteuerung (ABAC) des Unity-Katalogs verwenden. Eine Liste der unterstützten Tags finden Sie unter "Unterstützte Klassifizierungstags".
Mit dieser Funktion können Sie die folgenden Schritte ausführen:
- Klassifizieren von Daten: Das Modul verwendet ein agentisches KI-System, um alle Tabellen im Unity-Katalog automatisch zu klassifizieren und zu kategorisieren.
- Optimieren Sie die Kosten durch intelligentes Scannen: Das System bestimmt intelligent, wann Ihre Daten durch Nutzung des Unity-Katalogs und des Data Intelligence-Moduls gescannt werden sollen. Dies bedeutet, dass das Scannen inkrementell und optimiert ist, um sicherzustellen, dass alle neuen Daten ohne manuelle Konfiguration klassifiziert werden.
- Überprüfen und Schützen vertraulicher Daten: Die Anzeige der Ergebnisse unterstützt Sie beim Anzeigen von Klassifizierungsergebnissen und beim Schützen vertraulicher Daten durch Kategorisieren und Erstellen von Zugriffssteuerungsrichtlinien für jede Klasse.
Von Bedeutung
Die Datenklassifizierung von Databricks verwendet den Standardspeicher zum Speichern von Klassifizierungsergebnissen. Sie werden für den Speicher nicht in Rechnung gestellt.
Databricks Data Classification verwendet ein großes Sprachmodell (LLM), um die Klassifizierung zu unterstützen.
Anforderungen
Hinweis
Die Datenklassifizierung ist ein Vorschaufeature auf Arbeitsbereichsebene und kann nur von einem Arbeitsbereichs- oder Kontoadministrator verwaltet werden. Anweisungen finden Sie unter Verwalten von Azure Databricks-Vorschauen.
Von Bedeutung
Das Modell, das diese Funktion unterstützt, wird mithilfe von Mosaik AI Model Serving Foundation Model APIs zur Verfügung gestellt. Llama 3.1 ist unter der Llama 3.1 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Weitere Informationen finden Sie unter Anwendbare Modellentwicklerlizenzen und -bedingungen .
Wenn in Zukunft Modelle entstehen, die nach den internen Benchmarks von Databricks besser funktionieren, können Databricks die Modelle ändern und die Dokumentation aktualisieren.
- Sie müssen serverloses Compute aktiviert haben. Siehe Verbinden mit serverlosem Compute.
- Um die Datenklassifizierung zu aktivieren, müssen Sie Eigentümer des Katalogs sein oder über die Berechtigungen
USE_CATALOGundMANAGEverfügen. - Um die Ergebnistabelle anzuzeigen, müssen Sie über die folgenden Berechtigungen verfügen:
USE CATALOGundUSE SCHEMA, plusSELECTin der Tabelle. Siehe Die Ergebnissystemtabelle.
Verwenden der Datenklassifizierung
So verwenden Sie die Datenklassifizierung in einem Katalog:
Navigieren Sie zum Katalog, und klicken Sie auf die Registerkarte "Details ".
Klicken Sie auf den Umschalter "Datenklassifizierung ", um ihn zu aktivieren.
Das Dialogfeld "Datenklassifizierung aktivieren " wird angezeigt. Standardmäßig sind alle Schemas enthalten. Um nur einige Schemas einzuschließen, wählen Sie diese im Dropdown-Menü Schemas zum Einschließen aus.
Klicken Sie auf Aktivieren.
Dadurch wird ein Hintergrundauftrag erstellt, der alle Tabellen im Katalog oder ausgewählte Schemas inkrementell überprüft.
Das Klassifizierungsmodul basiert auf intelligentem Scannen, um zu bestimmen, wann eine Tabelle gescannt werden soll. Neue Tabellen und Spalten in einem Katalog werden in der Regel innerhalb von 24 Stunden nach der Erstellung gescannt.
Anzeigen der Klassifizierungsergebnisse
Klicken Sie zum Anzeigen der Klassifizierungsergebnisse auf " Ergebnisse neben der Umschaltfläche anzeigen".
Eine Ergebnisseite wird geöffnet, auf der die Klassifizierungsergebnisse für alle Tabellen im Katalog angezeigt werden. Um einen anderen Katalog auszuwählen, verwenden Sie die Auswahl oben links auf der Seite. Ein serverloses SQL Warehouse ist erforderlich und wird oben rechts auf der Seite angezeigt.
Auf der Ergebnisseite werden alle Klassifizierungstags aufgelistet, die im Katalog identifiziert wurden. Alle vorhandenen ABAC-Richtlinien, die auf Datenklassifizierungssystemtags (class.xx) verweisen, werden in der Tabelle angezeigt.
Um die Ergebnisse für eine spezifische Klassifizierung zu überprüfen, klicken Sie in der rechten Spalte in der entsprechenden Zeile auf Überprüfen.
Ein Bereich wird angezeigt, in dem die Tabellen angezeigt werden, für die die Datenklassifizierung das Klassifizierungs-Tag mit hoher Sicherheit erkannt hat. Überprüfen Sie die Tabellen, Spalten und Beispielwerte. Beispielwerte werden nur angezeigt, wenn Sie Zugriff auf die Ergebnistabelle haben. Siehe Die Ergebnissystemtabelle.
Wenn die identifizierten Spalten Ihren Erwartungen entsprechen, können Sie das automatische Kategorisieren für das Klassifizierungstag für diesen Katalog aktivieren. Wenn die automatische Markierung aktiviert ist, werden alle vorhandenen und zukünftigen Erkennungen dieser Klassifizierung markiert.
Um das automatische Tagging zu aktivieren, schalten Sie Automatisch taggen mit ... ein. Sie können das automatische Tagging später mit demselben Umschalter deaktivieren. Wenn Sie die Markierung deaktivieren, werden keine zukünftigen Tags angewendet, vorhandene Tags werden jedoch nicht entfernt.
Hinweis
Wenn Sie das automatische Tagging aktivieren, werden Tags nicht sofort nachträglich vervollständigt. Sie werden beim nächsten Scan eingetragen, der innerhalb von 24 Stunden wirksam sein sollte. Nachfolgende Klassifizierungen werden sofort markiert.
Die Ergebnissystemtabelle
Die Datenklassifizierung erstellt eine Systemtabelle, die zum Speichern von Ergebnissen benannt system.data_classification.results ist, auf die standardmäßig nur der Kontoadministrator zugreifen kann. Der Kontoadministrator kann diese Tabelle freigeben. Auf die Tabelle kann nur zugegriffen werden, wenn Sie serverlose Berechnung verwenden. Ausführliche Informationen zu dieser Tabelle finden Sie in der Datenklassifizierungssystemtabellenreferenz.
Von Bedeutung
Die Ergebnistabelle system.data_classification.results enthält alle Klassifizierungsergebnisse im gesamten Metastore und enthält Beispielwerte aus Tabellen in jedem Katalog. Sie sollten diese Tabelle nur für Benutzer freigeben, die berechtigt sind, metastoreweite Klassifizierungsergebnisse anzuzeigen, einschließlich Beispielwerten.
Die folgenden Berechtigungen sind erforderlich, um die Ergebnistabelle anzuzeigen: USE CATALOG und USE SCHEMA, plus SELECT in der Tabelle. Benutzer mit MANAGE oder SELECT Zugriff auf einen Katalog können Ergebnisse auf der Seite sehen, aber keine Beispielwerte sehen.
Richten Sie Governance-Kontrollen basierend auf den Ergebnissen der Datenklassifizierung ein
Maskieren vertraulicher Daten mithilfe einer ABAC-Richtlinie
Databricks empfiehlt die Verwendung der attributbasierten Unity-Katalog-Zugriffssteuerung (ABAC), um Governance-Steuerelemente basierend auf Datenklassifizierungsergebnissen zu erstellen.
Klicken Sie zum Erstellen einer Richtlinie auf "Neue Richtlinie". Das Richtlinienformular ist vorgefüllt, um Spalten zu maskieren, wobei das Klassifizierungstag überprüft wird. Um die Daten zu maskieren, geben Sie eine maskierende Funktion an, die im Unity-Katalog registriert ist, und klicken Sie auf " Speichern".
Sie können auch eine Richtlinie erstellen, die mehrere Klassifizierungstags abdeckt, indem Sie die Spalte "Wann" ändern, um die Bedingung zu erfüllen und mehrere Tags bereitzustellen.
Wenn Sie beispielsweise eine Richtlinie namens "Vertraulich" erstellen möchten, die einen beliebigen Namen, eine E-Mail oder Telefonnummer maskiert, legen Sie die erfüllte Bedingung auf hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").
Erkennung und Löschung von Daten gemäß DSGVO
Dieses Beispielnotizbuch zeigt, wie Sie die Datenklassifizierung verwenden können, um die Datenermittlung und -löschung für die DSGVO-Compliance zu unterstützen.
GDPR-Ermittlung und -Löschung mithilfe des Datenklassifizierungsnotizbuchs
Wie man mit falschen Tags umgeht
Wenn Daten falsch markiert sind, können Sie das Tag manuell entfernen. Das Etikett wird bei zukünftigen Scans nicht erneut angewendet.
Um ein Tag mithilfe der Benutzeroberfläche zu entfernen, navigieren Sie im Katalog-Explorer zur Tabelle, und bearbeiten Sie die Spaltentags.
So entfernen Sie ein Tag mit SQL:
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')
Scanfehler
Wenn während der Überprüfung Fehler auftreten, wird oben rechts in der Ergebnistabelle eine Schaltfläche " Fehler " angezeigt.
Klicken Sie auf die Schaltfläche, um die Tabellen anzuzeigen, bei denen die Überprüfung fehlgeschlagen ist, und zugehörige Fehlermeldungen.
Standardmäßig werden Fehler, die für einzelne Tabellen aufgetreten sind, übersprungen und am folgenden Tag wiederholt.
Datenklassifizierungsausgaben anzeigen
Informationen dazu, wie die Datenklassifizierung abgerechnet wird, finden Sie auf der Preisseite. Sie können Ausgaben im Zusammenhang mit der Datenklassifizierung anzeigen, indem Sie entweder eine Abfrage ausführen oder das Nutzungsdashboard anzeigen.
Hinweis
Die anfängliche Überprüfung ist teurer als nachfolgende Scans im selben Katalog, da diese Scans inkrementell sind und in der Regel niedrigere Kosten verursachen.
Anzeigen des Verbrauchs über die Systemtabelle system.billing.usage
Sie können Datenklassifizierungskosten von system.billing.usage abfragen. Die Felder created_by und catalog_id können optional zum Aufschlüsseln der Kosten verwendet werden:
-
created_by: Einschließen, um die Kosten pro Benutzer anzuzeigen, der die Nutzung ausgelöst hat. -
catalog_id: Einschließen, um Kosten nach Katalog anzuzeigen. Die Katalog-ID wird in dersystem.data_classification.resultsTabelle angezeigt.
Beispielabfrage für die letzten 30 Tage:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Nutzung in der Nutzungsübersicht anzeigen
Wenn Sie bereits ein Nutzungsdashboard in Ihrem Arbeitsbereich konfiguriert haben, können Sie es verwenden, um die Verwendung zu filtern, indem Sie das Abrechnungsursprungprojekt mit der Bezeichnung "Datenklassifizierung" auswählen. Wenn Sie kein Verwendungsdashboard konfiguriert haben, können Sie ein Dashboard importieren und dieselbe Filterung anwenden. Ausführliche Informationen finden Sie unter Verwendungsdashboards.
Unterstützte Klassifizierungstags
In der Tabelle sind die vom System gesteuerten Tags aufgeführt, die von der Datenklassifizierung unterstützt werden:
| Klasse | BESCHREIBUNG |
|---|---|
| class.credit_card | Kreditkartennummern |
| class.email_address | E-Mail-Adresse |
| class.iban_code | Internationale Bankkontonummer (IBAN) |
| class.ip_address | Internetprotokolladresse (IPv4 oder IPv6) |
| class.location | Standort |
| class.name | Name einer Person |
| class.phone_number | Telefonnummer |
| class.us_bank_number | US-Banknummer |
| class.us_driver_license | US-Treiberlizenz |
| class.us_itin | US-Steueridentifikationsnummer für Einzelpersonen |
| class.us_passport | US-amerikanischer Pass |
| class.us_ssn | US-Sozialversicherungsnummer |
Einschränkungen
- Ansichten und Metrikansichten werden nicht unterstützt. Wenn die Ansicht auf vorhandenen Tabellen basiert, empfiehlt Databricks, die zugrunde liegenden Tabellen zu klassifizieren, um festzustellen, ob sie vertrauliche Daten enthalten.