Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Deze functie bevindt zich in openbare preview-versie.
Op deze pagina wordt beschreven hoe u Databricks-gegevensclassificatie in Unity Catalog gebruikt om gevoelige gegevens in uw catalogus automatisch te classificeren en taggen.
Gegevenscatalogussen kunnen een enorme hoeveelheid gegevens bevatten, die vaak bekende en onbekende gevoelige gegevens bevatten. Het is essentieel dat gegevensteams begrijpen wat voor soort gevoelige gegevens er in elke tabel bestaan, zodat ze de toegang tot deze gegevens kunnen beheren en democratiseren.
Om dit probleem op te lossen, gebruikt Databricks Data Classification een AI-agent om tabellen in uw catalogus automatisch te classificeren en taggen. Hiermee kunt u gevoelige gegevens detecteren en besturingselementen voor governance toepassen op de resultaten, met behulp van hulpprogramma's zoals op kenmerken gebaseerd toegangsbeheer (ABAC) van Unity Catalog. Zie Ondersteunde classificatietags voor een lijst met ondersteunde tags.
Met deze functie kunt u het volgende doen:
- Gegevens classificeren: de engine maakt gebruik van een agentisch AI-systeem om tabellen in Unity Catalog automatisch te classificeren en taggen.
- Kosten optimaliseren door intelligent scannen: Het systeem bepaalt op intelligente wijze wanneer u uw gegevens moet scannen door gebruik te maken van Unity Catalog en de Data Intelligence Engine. Dit betekent dat scannen incrementeel en geoptimaliseerd is om ervoor te zorgen dat alle nieuwe gegevens worden geclassificeerd zonder handmatige configuratie.
- Gevoelige gegevens controleren en beveiligen: De resultatenweergave helpt u bij het weergeven van classificatieresultaten en het beveiligen van gevoelige gegevens door voor elke klasse beleidsregels voor toegangsbeheer te taggen en te maken.
Belangrijk
Databricks Data Classification maakt gebruik van standaardopslag voor het opslaan van classificatieresultaten. U wordt niet gefactureerd voor de opslag.
Databricks Data Classification maakt gebruik van een LLM (Large Language Model) om u te helpen bij de classificatie.
Behoeften
Opmerking
Gegevensclassificatie is een preview-functie op werkruimteniveau en kan alleen worden beheerd door een werkruimte- of accountbeheerder. Zie Azure Databricks-previews beheren voor instructies.
Belangrijk
Het model dat deze functie mogelijk maakt, wordt beschikbaar gemaakt met behulp van Mozaïek AI Model Serving Foundation Model-API's. Llama 3.1 is gelicentieerd onder de Llama 3.1 Community License, Copyright © Meta Platforms, Inc. Alle rechten voorbehouden. Zie Toepasselijke licenties voor modelontwikkelaars en voorwaarden voor meer informatie.
Als er in de toekomst modellen ontstaan die beter presteren volgens de interne benchmarks van Databricks, kan Databricks de modellen wijzigen en de documentatie bijwerken.
- U moet serverloze berekeningen hebben ingeschakeld. Zie Verbinding maken met serverloze berekeningen.
- Als u gegevensclassificatie wilt inschakelen, moet u eigenaar zijn van de catalogus of beschikken over
USE_CATALOGenMANAGEbevoegdheden. - Als u de resultatentabel wilt weergeven, moet u over de volgende machtigingen beschikken:
USE CATALOGenUSE SCHEMA, plusSELECTin de tabel. Zie de tabel van het resultaten systeem.
Gegevensclassificatie gebruiken
Gegevensclassificatie gebruiken in een catalogus:
Navigeer naar de catalogus en klik op het tabblad Details .
Klik op de wisselknop Gegevensclassificatie om deze in te schakelen.
Het dialoogvenster Gegevensclassificatie inschakelen wordt weergegeven. Standaard zijn alle schema's opgenomen. Als u alleen bepaalde schema's wilt opnemen, selecteert u deze in de vervolgkeuzelijst Schema's om deze op te nemen .
Klik op Inschakelen.
Hiermee maakt u een achtergrondtaak waarmee alle tabellen in de catalogus of geselecteerde schema's incrementeel worden gescand.
De classificatie-engine is afhankelijk van intelligente scans om te bepalen wanneer een tabel moet worden gescand. Nieuwe tabellen en kolommen in een catalogus worden doorgaans binnen 24 uur na het maken gescand.
Classificatieresultaten weergeven
Als u classificatieresultaten wilt weergeven, klikt u op Resultaten weergeven naast de wisselknop.
Er wordt een resultatenpagina geopend met de classificatieresultaten voor alle tabellen in de catalogus. Als u een andere catalogus wilt selecteren, gebruikt u de selector linksboven op de pagina. Er is een serverloze SQL Warehouse vereist en wordt rechtsboven op de pagina weergegeven.
De resultatenpagina bevat alle classificatietags die zijn geïdentificeerd in de catalogus. Alle bestaande ABAC-beleidsregels die verwijzen naar systeemtags voor gegevensclassificatie (class.xx) worden weergegeven in de tabel.
Als u de resultaten voor een specifieke classificatietag wilt bekijken, klikt u op Controleren in de meest rechtse kolom voor de bijbehorende rij.
Er wordt een deelvenster weergegeven met de tabellen waarvoor gegevensclassificatie de classificatietag met hoge betrouwbaarheid heeft gedetecteerd. Controleer de tabellen, kolommen en voorbeeldwaarden. Voorbeeldwaarden worden alleen weergegeven als u toegang hebt tot de resultatentabel. Zie de tabel van het resultaten systeem.
Als de geïdentificeerde kolommen overeenkomen met uw verwachtingen, kunt u automatische tagging inschakelen voor de classificatietag voor deze catalogus. Wanneer automatisch taggen is ingeschakeld, worden alle bestaande en toekomstige detecties van deze classificatie gelabeld.
Als u automatische taggen wilt inschakelen, schakelt u automatische tag in met .... U kunt het automatisch taggen later uitschakelen met dezelfde wisselknop. Wanneer u taggen uitschakelt, worden er geen toekomstige tags toegepast, maar worden bestaande tags niet verwijderd.
Opmerking
Wanneer u automatische tagging inschakelt, worden tags niet onmiddellijk opnieuw ingevuld. Ze worden automatisch gevuld bij de volgende scan, die binnen 24 uur moet worden uitgevoerd. Volgende classificaties worden onmiddellijk gelabeld.
De resultatensysteemtabel
Gegevensclassificatie maakt een systeemtabel met de naam system.data_classification.results om resultaten op te slaan die standaard alleen toegankelijk zijn voor de accountbeheerder. De accountbeheerder kan deze tabel delen. De tabel is alleen toegankelijk wanneer u serverloze berekeningen gebruikt. Zie voor meer informatie over deze tabel de naslaginformatie over de tabel voor gegevensclassificatie.
Belangrijk
De resultatentabel system.data_classification.results bevat alle classificatieresultaten in de hele metastore en bevat voorbeeldwaarden uit tabellen in elke catalogus. U moet deze tabel alleen delen met gebruikers die bevoegd zijn om metastore-brede classificatieresultaten te zien, inclusief voorbeeldwaarden.
De volgende machtigingen zijn vereist om de resultatentabel weer te geven: USE CATALOG en USE SCHEMA, plus SELECT op de tabel. Gebruikers met MANAGE of SELECT toegang tot een catalogus kunnen resultaten op de pagina zien, maar kunnen geen voorbeeldwaarden zien.
Beheersmaatregelen voor governance instellen op basis van resultaten van gegevensclassificatie
Gevoelige gegevens maskeren met een ABAC-beleid
Databricks raadt aan om op kenmerken gebaseerde toegangsbeheer (ABAC) van Unity Catalog te gebruiken om beheerbesturingselementen te maken op basis van resultaten van gegevensclassificatie.
Als u een beleid wilt maken, klikt u op Nieuw beleid. Het beleidsformulier is vooraf ingevuld om kolommen met een te beoordelen classificatietag te maskeren. Als u de gegevens wilt maskeren, geeft u een maskeringsfunctie op die is geregistreerd in Unity Catalog en klikt u op Opslaan.
U kunt ook een beleid maken dat betrekking heeft op meerdere classificatietags door te wijzigen wanneer de kolomvoldoet aan de voorwaarde en meerdere tags op te geven.
Als u bijvoorbeeld een beleid wilt maken met de naam Vertrouwelijk, waarmee elke naam, e-mail of telefoonnummer wordt gemaskeerd, stelt u de voorwaarden in op .hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number")
AVG-detectie en -verwijdering
In dit voorbeeldnotebook ziet u hoe u gegevensclassificatie kunt gebruiken om te helpen bij het detecteren en verwijderen van gegevens voor AVG-naleving.
AVG-detectie en -verwijdering met behulp van een notebook voor gegevensclassificatie
Hoe om te gaan met onjuiste tags
Als gegevens onjuist zijn gelabeld, kunt u de tag handmatig verwijderen. De tag wordt in toekomstige scans niet opnieuw toegepast.
Als u een tag wilt verwijderen met behulp van de gebruikersinterface, gaat u naar de tabel in Catalog Explorer en bewerkt u de kolomtags.
Een tag verwijderen met behulp van SQL:
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')
Scanfouten
Als er fouten optreden tijdens de scan, wordt rechtsboven in de resultatentabel een knop Fouten weergegeven.
Klik op de knop om de tabellen weer te geven waarvoor de scan en de bijbehorende foutberichten zijn mislukt.
Standaard worden fouten die zijn opgetreden voor afzonderlijke tabellen overgeslagen en de volgende dag opnieuw geprobeerd.
Uitgaven voor gegevensclassificatie weergeven
Als u wilt weten hoe gegevensclassificatie wordt gefactureerd, raadpleegt u de pagina met prijzen. U kunt uitgaven met betrekking tot gegevensclassificatie weergeven door een query uit te voeren of het gebruiksdashboard weer te geven.
Opmerking
De eerste scan is duurder dan latere scans in dezelfde catalogus, omdat deze scans incrementeel zijn en doorgaans lagere kosten in rekening worden gebracht.
Gebruik van de systeemtabel weergeven system.billing.usage
U kunt kosten voor gegevensclassificatie opvragen van system.billing.usage. De velden created_by en catalog_id kunnen eventueel worden gebruikt om de kosten op te splitsen:
-
created_by: Kies ervoor om de kosten te bekijken van de gebruiker die het gebruik heeft gestart. -
catalog_id: Inclusief om de kosten per catalogus te bekijken. De catalogus-id wordt weergegeven in desystem.data_classification.resultstabel.
Voorbeeldquery voor de afgelopen 30 dagen:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Gebruik weergeven vanuit het gebruiksdashboard
Als u al een gebruiksdashboard hebt geconfigureerd in uw werkruimte, kunt u dit gebruiken om het gebruik te filteren door het factureringsoorsprongproject met het label 'Gegevensclassificatie' te selecteren. Als u geen gebruiksdashboard hebt geconfigureerd, kunt u er een importeren en dezelfde filters toepassen. Zie Gebruiksdashboards voor meer informatie.
Ondersteunde classificatielabels
De volgende tabellen bevatten de door het systeem beheerde tags die worden ondersteund door gegevensclassificatie.
Tags die beschikbaar zijn voor globale klanten
| Klasse | Beschrijving |
|---|---|
| class.credit_card | Creditcardnummer |
| class.email_address | E-mailadres |
| class.iban_code | International Bank Account Number (IBAN) |
| class.ip_address | Internet Protocol Address (IPv4 of IPv6) |
| class.location | Locatie |
| class.name | Naam van een persoon |
| class.phone_number | Telefoonnummer |
| class.url | URL |
| class.us_bank_number | Amerikaanse banknummer |
| class.us_rijbewijs | Amerikaanse rijbewijs |
| class.us_itin | Identificatienummer van de Amerikaanse belastingbetaler |
| class.us_passport | VS-paspoort |
| class.us_ssn | Amerikaans burgerservicenummer |
| class.vin | Voertuigidentificatienummer (VIN) |
Tags die beschikbaar zijn voor Europese klanten
Deze tags zijn beschikbaar in werkruimten in regio's in Europa.
| Klasse | Beschrijving |
|---|---|
| class.de_id_card | Duits id-kaartnummer (Personalausweisnummer) |
| class.de_svnr | Duits burgerverzekeringsnummer (Sozialversicherungsnummer) |
| class.de_tax_id | Duits belasting identificatienummer (belastingidentificatienummer) |
| class.uk_nhs | UK National Health Service (NHS) nummer |
| class.uk_nino | UK Nationaal Verzekeringsnummer (NINO) |
Tags die beschikbaar zijn voor Australische klanten
Deze tags zijn beschikbaar in werkruimten in regio's in Australië.
| Klasse | Beschrijving |
|---|---|
| class.au_medicare | Australische Medicare-kaartnummer |
| class.au_tfn | Australisch belastingnummer (TFN) |
Beperkingen
- Weergaven en metrische weergaven worden niet ondersteund. Als de weergave is gebaseerd op bestaande tabellen, raadt Databricks aan om de onderliggende tabellen te classificeren om te zien of ze gevoelige gegevens bevatten.