Delen via


Gegevensclassificatie

Belangrijk

Deze functie bevindt zich in openbare preview-versie.

Op deze pagina wordt beschreven hoe u Databricks-gegevensclassificatie in Unity Catalog gebruikt om gevoelige gegevens in uw catalogus automatisch te classificeren en taggen.

Gegevenscatalogussen kunnen een enorme hoeveelheid gegevens bevatten, die vaak bekende en onbekende gevoelige gegevens bevatten. Het is essentieel dat gegevensteams begrijpen wat voor soort gevoelige gegevens er in elke tabel bestaan, zodat ze de toegang tot deze gegevens kunnen beheren en democratiseren.

Om dit probleem op te lossen, gebruikt Databricks Data Classification een AI-agent om tabellen in uw catalogus automatisch te classificeren en taggen. Hiermee kunt u gevoelige gegevens detecteren en besturingselementen voor governance toepassen op de resultaten, met behulp van hulpprogramma's zoals op kenmerken gebaseerd toegangsbeheer (ABAC) van Unity Catalog. Zie Ondersteunde classificatietags voor een lijst met ondersteunde tags.

Met deze functie kunt u het volgende doen:

  • Gegevens classificeren: de engine maakt gebruik van een agentisch AI-systeem om tabellen in Unity Catalog automatisch te classificeren en taggen.
  • Kosten optimaliseren door intelligent scannen: Het systeem bepaalt op intelligente wijze wanneer u uw gegevens moet scannen door gebruik te maken van Unity Catalog en de Data Intelligence Engine. Dit betekent dat scannen incrementeel en geoptimaliseerd is om ervoor te zorgen dat alle nieuwe gegevens worden geclassificeerd zonder handmatige configuratie.
  • Gevoelige gegevens controleren en beveiligen: De resultatenweergave helpt u bij het weergeven van classificatieresultaten en het beveiligen van gevoelige gegevens door voor elke klasse beleidsregels voor toegangsbeheer te taggen en te maken.

Belangrijk

Databricks Data Classification maakt gebruik van standaardopslag voor het opslaan van classificatieresultaten. U wordt niet gefactureerd voor de opslag.

Databricks Data Classification maakt gebruik van een LLM (Large Language Model) om u te helpen bij de classificatie.

Behoeften

Opmerking

Gegevensclassificatie is een preview-functie op werkruimteniveau en kan alleen worden beheerd door een werkruimte- of accountbeheerder. Zie Azure Databricks-previews beheren voor instructies.

Belangrijk

Het model dat deze functie mogelijk maakt, wordt beschikbaar gemaakt met behulp van Mozaïek AI Model Serving Foundation Model-API's. Llama 3.1 is gelicentieerd onder de Llama 3.1 Community License, Copyright © Meta Platforms, Inc. Alle rechten voorbehouden. Zie Toepasselijke licenties voor modelontwikkelaars en voorwaarden voor meer informatie.

Als er in de toekomst modellen ontstaan die beter presteren volgens de interne benchmarks van Databricks, kan Databricks de modellen wijzigen en de documentatie bijwerken.

  • U moet serverloze berekeningen hebben ingeschakeld. Zie Verbinding maken met serverloze berekeningen.
  • Als u gegevensclassificatie wilt inschakelen, moet u eigenaar zijn van de catalogus of beschikken over USE_CATALOG en MANAGE bevoegdheden.
  • Als u de resultatentabel wilt weergeven, moet u over de volgende machtigingen beschikken: USE CATALOG en USE SCHEMA, plus SELECT in de tabel. Zie de tabel van het resultaten systeem.

Gegevensclassificatie gebruiken

Gegevensclassificatie gebruiken in een catalogus:

  1. Navigeer naar de catalogus en klik op het tabblad Details .

    Tabblad Details voor de cataloguspagina in Catalog Explorer.

  2. Klik op de wisselknop Gegevensclassificatie om deze in te schakelen.

  3. Het dialoogvenster Gegevensclassificatie inschakelen wordt weergegeven. Standaard zijn alle schema's opgenomen. Als u alleen bepaalde schema's wilt opnemen, selecteert u deze in de vervolgkeuzelijst Schema's om deze op te nemen .

    Instellingen modaal voor gegevensclassificatie.

  4. Klik op Inschakelen.

Hiermee maakt u een achtergrondtaak waarmee alle tabellen in de catalogus of geselecteerde schema's incrementeel worden gescand.

De classificatie-engine is afhankelijk van intelligente scans om te bepalen wanneer een tabel moet worden gescand. Nieuwe tabellen en kolommen in een catalogus worden doorgaans binnen 24 uur na het maken gescand.

Classificatieresultaten weergeven

Als u classificatieresultaten wilt weergeven, klikt u op Resultaten weergeven naast de wisselknop.

Bekijk de knop Resultaten voor Gegevensclassificatie.

Er wordt een resultatenpagina geopend met de classificatieresultaten voor alle tabellen in de catalogus. Als u een andere catalogus wilt selecteren, gebruikt u de selector linksboven op de pagina. Er is een serverloze SQL Warehouse vereist en wordt rechtsboven op de pagina weergegeven.

De resultatenpagina bevat alle classificatietags die zijn geïdentificeerd in de catalogus. Alle bestaande ABAC-beleidsregels die verwijzen naar systeemtags voor gegevensclassificatie (class.xx) worden weergegeven in de tabel.

Resultatenpagina met een tabel met gedetecteerde klassen.

Als u de resultaten voor een specifieke classificatietag wilt bekijken, klikt u op Controleren in de meest rechtse kolom voor de bijbehorende rij.

Resultaten met kolommen met gedetecteerde classificaties.

Er wordt een deelvenster weergegeven met de tabellen waarvoor gegevensclassificatie de classificatietag met hoge betrouwbaarheid heeft gedetecteerd. Controleer de tabellen, kolommen en voorbeeldwaarden. Voorbeeldwaarden worden alleen weergegeven als u toegang hebt tot de resultatentabel. Zie de tabel van het resultaten systeem.

Als de geïdentificeerde kolommen overeenkomen met uw verwachtingen, kunt u automatische tagging inschakelen voor de classificatietag voor deze catalogus. Wanneer automatisch taggen is ingeschakeld, worden alle bestaande en toekomstige detecties van deze classificatie gelabeld.

Als u automatische taggen wilt inschakelen, schakelt u automatische tag in met .... U kunt het automatisch taggen later uitschakelen met dezelfde wisselknop. Wanneer u taggen uitschakelt, worden er geen toekomstige tags toegepast, maar worden bestaande tags niet verwijderd.

Opmerking

Wanneer u automatische tagging inschakelt, worden tags niet onmiddellijk opnieuw ingevuld. Ze worden automatisch gevuld bij de volgende scan, die binnen 24 uur moet worden uitgevoerd. Volgende classificaties worden onmiddellijk gelabeld.

De resultatensysteemtabel

Gegevensclassificatie maakt een systeemtabel met de naam system.data_classification.results om resultaten op te slaan die standaard alleen toegankelijk zijn voor de accountbeheerder. De accountbeheerder kan deze tabel delen. De tabel is alleen toegankelijk wanneer u serverloze berekeningen gebruikt. Zie voor meer informatie over deze tabel de naslaginformatie over de tabel voor gegevensclassificatie.

Belangrijk

De resultatentabel system.data_classification.results bevat alle classificatieresultaten in de hele metastore en bevat voorbeeldwaarden uit tabellen in elke catalogus. U moet deze tabel alleen delen met gebruikers die bevoegd zijn om metastore-brede classificatieresultaten te zien, inclusief voorbeeldwaarden.

De volgende machtigingen zijn vereist om de resultatentabel weer te geven: USE CATALOG en USE SCHEMA, plus SELECT op de tabel. Gebruikers met MANAGE of SELECT toegang tot een catalogus kunnen resultaten op de pagina zien, maar kunnen geen voorbeeldwaarden zien.

Beheersmaatregelen voor governance instellen op basis van resultaten van gegevensclassificatie

Gevoelige gegevens maskeren met een ABAC-beleid

Databricks raadt aan om op kenmerken gebaseerde toegangsbeheer (ABAC) van Unity Catalog te gebruiken om beheerbesturingselementen te maken op basis van resultaten van gegevensclassificatie.

Als u een beleid wilt maken, klikt u op Nieuw beleid. Het beleidsformulier is vooraf ingevuld om kolommen met een te beoordelen classificatietag te maskeren. Als u de gegevens wilt maskeren, geeft u een maskeringsfunctie op die is geregistreerd in Unity Catalog en klikt u op Opslaan.

U kunt ook een beleid maken dat betrekking heeft op meerdere classificatietags door te wijzigen wanneer de kolomvoldoet aan de voorwaarde en meerdere tags op te geven.

Als u bijvoorbeeld een beleid wilt maken met de naam Vertrouwelijk, waarmee elke naam, e-mail of telefoonnummer wordt gemaskeerd, stelt u de voorwaarden in op .hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number")

AVG-detectie en -verwijdering

In dit voorbeeldnotebook ziet u hoe u gegevensclassificatie kunt gebruiken om te helpen bij het detecteren en verwijderen van gegevens voor AVG-naleving.

AVG-detectie en -verwijdering met behulp van een notebook voor gegevensclassificatie

Notebook krijgen

Hoe om te gaan met onjuiste tags

Als gegevens onjuist zijn gelabeld, kunt u de tag handmatig verwijderen. De tag wordt in toekomstige scans niet opnieuw toegepast.

Als u een tag wilt verwijderen met behulp van de gebruikersinterface, gaat u naar de tabel in Catalog Explorer en bewerkt u de kolomtags.

Een tag verwijderen met behulp van SQL:

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Scanfouten

Als er fouten optreden tijdens de scan, wordt rechtsboven in de resultatentabel een knop Fouten weergegeven.

Resultatenpagina met de knop Fouten rechtsbovenaan in de tabel.

Klik op de knop om de tabellen weer te geven waarvoor de scan en de bijbehorende foutberichten zijn mislukt.

Fouten bij het scannen van gegevensclassificatietabellen.

Standaard worden fouten die zijn opgetreden voor afzonderlijke tabellen overgeslagen en de volgende dag opnieuw geprobeerd.

Uitgaven voor gegevensclassificatie weergeven

Als u wilt weten hoe gegevensclassificatie wordt gefactureerd, raadpleegt u de pagina met prijzen. U kunt uitgaven met betrekking tot gegevensclassificatie weergeven door een query uit te voeren of het gebruiksdashboard weer te geven.

Opmerking

De eerste scan is duurder dan latere scans in dezelfde catalogus, omdat deze scans incrementeel zijn en doorgaans lagere kosten in rekening worden gebracht.

Gebruik van de systeemtabel weergeven system.billing.usage

U kunt kosten voor gegevensclassificatie opvragen van system.billing.usage. De velden created_by en catalog_id kunnen eventueel worden gebruikt om de kosten op te splitsen:

  • created_by: Kies ervoor om de kosten te bekijken van de gebruiker die het gebruik heeft gestart.
  • catalog_id: Inclusief om de kosten per catalogus te bekijken. De catalogus-id wordt weergegeven in de system.data_classification.results tabel.

Voorbeeldquery voor de afgelopen 30 dagen:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Gebruik weergeven vanuit het gebruiksdashboard

Als u al een gebruiksdashboard hebt geconfigureerd in uw werkruimte, kunt u dit gebruiken om het gebruik te filteren door het factureringsoorsprongproject met het label 'Gegevensclassificatie' te selecteren. Als u geen gebruiksdashboard hebt geconfigureerd, kunt u er een importeren en dezelfde filters toepassen. Zie Gebruiksdashboards voor meer informatie.

Ondersteunde classificatielabels

De volgende tabellen bevatten de door het systeem beheerde tags die worden ondersteund door gegevensclassificatie.

Tags die beschikbaar zijn voor globale klanten

Klasse Beschrijving
class.credit_card Creditcardnummer
class.email_address E-mailadres
class.iban_code International Bank Account Number (IBAN)
class.ip_address Internet Protocol Address (IPv4 of IPv6)
class.location Locatie
class.name Naam van een persoon
class.phone_number Telefoonnummer
class.url URL
class.us_bank_number Amerikaanse banknummer
class.us_rijbewijs Amerikaanse rijbewijs
class.us_itin Identificatienummer van de Amerikaanse belastingbetaler
class.us_passport VS-paspoort
class.us_ssn Amerikaans burgerservicenummer
class.vin Voertuigidentificatienummer (VIN)

Tags die beschikbaar zijn voor Europese klanten

Deze tags zijn beschikbaar in werkruimten in regio's in Europa.

Klasse Beschrijving
class.de_id_card Duits id-kaartnummer (Personalausweisnummer)
class.de_svnr Duits burgerverzekeringsnummer (Sozialversicherungsnummer)
class.de_tax_id Duits belasting identificatienummer (belastingidentificatienummer)
class.uk_nhs UK National Health Service (NHS) nummer
class.uk_nino UK Nationaal Verzekeringsnummer (NINO)

Tags die beschikbaar zijn voor Australische klanten

Deze tags zijn beschikbaar in werkruimten in regio's in Australië.

Klasse Beschrijving
class.au_medicare Australische Medicare-kaartnummer
class.au_tfn Australisch belastingnummer (TFN)

Beperkingen

  • Weergaven en metrische weergaven worden niet ondersteund. Als de weergave is gebaseerd op bestaande tabellen, raadt Databricks aan om de onderliggende tabellen te classificeren om te zien of ze gevoelige gegevens bevatten.