Condividi tramite


Classificazione dei Dati

Importante

Questa funzionalità è in Anteprima Pubblica.

Questa pagina descrive come usare Databricks Data Classification in Unity Catalog per classificare e contrassegnare automaticamente i dati sensibili nel catalogo.

I cataloghi di dati possono avere una grande quantità di dati, spesso contenenti dati sensibili noti e sconosciuti. È fondamentale che i team di dati comprendano il tipo di dati sensibili presenti in ogni tabella in modo che possano gestire e democratizzare l'accesso a questi dati.

Per risolvere questo problema, Databricks Data Classification usa un agente di intelligenza artificiale per classificare e contrassegnare automaticamente le tabelle nel catalogo. In questo modo è possibile individuare dati sensibili e applicare controlli di governance sui risultati, usando strumenti come il controllo degli accessi in base all'attributo di Unity Catalog. Per un elenco dei tag supportati, vedere Tag di classificazione supportati.

Usando questa funzionalità, è possibile:

  • Classificare i dati: il motore usa un sistema di intelligenza artificiale agente per classificare e contrassegnare automaticamente le tabelle in Unity Catalog.
  • Ottimizzare i costi tramite l'analisi intelligente: il sistema determina in modo intelligente quando analizzare i dati sfruttando Unity Catalog e il motore di business intelligence dei dati. Ciò significa che l'analisi è incrementale e ottimizzata per garantire che tutti i nuovi dati vengano classificati senza configurazione manuale.
  • Esaminare e proteggere i dati sensibili: i risultati visualizzati consentono di visualizzare i risultati della classificazione e proteggere i dati sensibili contrassegnando e creando criteri di controllo di accesso per ogni classe.

Importante

Databricks Data Classification usa l'archiviazione predefinita per archiviare i risultati della classificazione. Non viene addebitato alcun costo per lo spazio di archiviazione.

Databricks Data Classification usa un modello di linguaggio di grandi dimensioni (LLM) per facilitare la classificazione.

Requisiti

Annotazioni

La classificazione dei dati è una funzionalità di anteprima a livello di area di lavoro e può essere gestita solo da un'area di lavoro o da un amministratore dell'account. Per istruzioni, vedere Gestire le anteprime di Azure Databricks.

Importante

Il modello che alimenta questa funzione viene reso disponibile usando le API Mosaic AI Model Serving Foundation Model. Llama 3.1 è concesso in licenza con la Licenza Community llama 3.1, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. Per altre informazioni, vedere Licenze e condizioni per sviluppatori di modelli applicabili.

Se i modelli emergono in futuro che offrono prestazioni migliori in base ai benchmark interni di Databricks, Databricks potrebbe modificare i modelli e aggiornare la documentazione.

  • È necessario che il calcolo serverless sia abilitato. Vedi Connettersi al calcolo serverless.
  • Per abilitare la classificazione dei dati, è necessario possedere il catalogo o avere i privilegi USE_CATALOG e MANAGE su di esso.
  • Per visualizzare la tabella dei risultati, è necessario disporre delle autorizzazioni seguenti: USE CATALOG e USE SCHEMA, più SELECT nella tabella. Vedere La tabella di sistema dei risultati.

Usare la classificazione dei dati

Per usare la classificazione dei dati in un catalogo:

  1. Passare al catalogo e fare clic sulla scheda Dettagli .

    Scheda dei dettagli per la pagina del catalogo in Catalog Explorer.

  2. Fare clic sull'interruttore Classificazione dati per abilitarlo.

  3. Viene visualizzata la finestra di dialogo Abilita classificazione dati . Per impostazione predefinita, sono inclusi tutti gli schemi. Per includere solo alcuni schemi, selezionarli nel menu a discesa Schemi da includere .

    Modale delle impostazioni per la classificazione dei dati.

  4. Fare clic su Abilita.

Verrà creato un processo in background che analizza in modo incrementale tutte le tabelle nel catalogo o negli schemi selezionati.

Il motore di classificazione si basa sull'analisi intelligente per determinare quando analizzare una tabella. Le nuove tabelle e le colonne in un catalogo vengono in genere analizzate entro 24 ore dalla creazione.

Visualizzare i risultati della classificazione

Per visualizzare i risultati della classificazione, fare clic su Visualizza risultati accanto all'interruttore.

Vedere il pulsante dei risultati per classificazione dei dati.

Viene visualizzata una pagina dei risultati che mostra i risultati della classificazione per tutte le tabelle nel catalogo. Per selezionare un catalogo diverso, usare il selettore in alto a sinistra della pagina. È necessario un archivio SQL serverless, che viene visualizzato in alto a destra della pagina.

Nella pagina dei risultati sono elencati i tag di classificazione identificati nel catalogo. Tutti i criteri ABAC esistenti che fanno riferimento ai tag del sistema di classificazione dei dati (class.xx) vengono visualizzati nella tabella.

Pagina dei risultati che mostra la tabella delle classi rilevate.

Per esaminare i risultati di un tag di classificazione specifico, fare clic su Rivedi nella colonna più a destra per la riga corrispondente.

Risultati che mostrano colonne con classificazioni rilevate.

Viene visualizzato un pannello che visualizza le tabelle per le quali la classificazione dei dati ha rilevato il tag di classificazione con attendibilità elevata. Esaminare le tabelle, le colonne e i valori di esempio. I valori di esempio vengono visualizzati solo se si ha accesso alla tabella dei risultati. Vedere La tabella di sistema dei risultati.

Se le colonne identificate corrispondono alle aspettative, è possibile abilitare l'assegnazione automatica di tag per il tag di classificazione per questo catalogo. Quando l'assegnazione automatica di tag è abilitata, vengono contrassegnati tutti i rilevamenti esistenti e futuri di questa classificazione.

Per abilitare l'assegnazione automatica di tag, attivare o disattivare il tag Auto con .... In seguito è possibile disabilitare l'assegnazione automatica di tag usando lo stesso interruttore. Quando si disabilita l'assegnazione di tag, non vengono applicati tag futuri, ma i tag esistenti non vengono rimossi.

Annotazioni

Quando si abilita l'assegnazione automatica di tag, i tag non vengono riempiti immediatamente. Verranno popolati nella scansione successiva, che diventerà effettiva entro 24 ore. Le classificazioni successive verranno contrassegnate immediatamente.

Tabella di sistema dei risultati

La classificazione dei dati crea una tabella di sistema denominata system.data_classification.results per archiviare i risultati che per impostazione predefinita sono accessibili solo all'amministratore dell'account. L'amministratore dell'account può condividere questa tabella. La tabella è accessibile solo quando si usa il calcolo serverless. Per informazioni dettagliate su questa tabella, vedere Informazioni di riferimento sulla tabella di sistema di classificazione dei dati.

Importante

La tabella system.data_classification.results dei risultati contiene tutti i risultati della classificazione nell'intero metastore e include i valori di esempio delle tabelle in ogni catalogo. È consigliabile condividere questa tabella solo con gli utenti con privilegi per visualizzare i risultati della classificazione a livello di metastore, inclusi i valori di esempio.

Per visualizzare la tabella dei risultati sono necessarie le autorizzazioni seguenti: USE CATALOG e USE SCHEMA, più SELECT nella tabella. Gli utenti con MANAGE o SELECT l'accesso a un catalogo possono visualizzare i risultati nella pagina, ma non possono visualizzare i valori di esempio.

Configurare i controlli di governance in base ai risultati della classificazione dei dati

Mascherare i dati sensibili usando un criterio di controllo degli accessi basato sugli attributi.

Databricks consiglia di usare il controllo degli accessi in base all'attributo di Unity Catalog per creare controlli di governance in base ai risultati della classificazione dei dati.

Per creare un criterio, fare clic su Nuovo criterio. Il modulo dei criteri viene precompilato per mascherare le colonne con il tag di classificazione da esaminare. Per mascherare i dati, specificare qualsiasi funzione di maschera registrata nel catalogo unity e fare clic su Salva.

È anche possibile creare criteri che coprono più tag di classificazione, modificando Quando la colonnasoddisfa la condizione e fornendo più tag.

Ad esempio, per creare un criterio denominato "Riservato" che maschera qualsiasi nome, indirizzo di posta elettronica o numero di telefono, impostare la condizione soddisfa su hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").

Individuazione ed eliminazione dei dati secondo il GDPR

Questo notebook di esempio illustra come usare la classificazione dei dati per facilitare l'individuazione e l'eliminazione dei dati per la conformità al GDPR.

Individuazione ed eliminazione dei dati ai sensi del GDPR utilizzando un notebook per la classificazione dei dati

Ottieni il notebook

Come gestire tag non corretti

Se i dati sono contrassegnati in modo non corretto, è possibile rimuovere manualmente il tag. Il tag non verrà riapplicato nelle analisi future.

Per rimuovere un tag usando l'interfaccia utente, passare alla tabella in Esplora cataloghi e modificare i tag di colonna.

Per rimuovere un tag tramite SQL:

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Errori di scansione

Se si verificano errori durante l'analisi, viene visualizzato un pulsante Errori in alto a destra nella tabella dei risultati.

Pagina Risultati con pulsante Errori in alto a destra della tabella.

Fare clic sul pulsante per visualizzare le tabelle che non hanno superato l'analisi e i messaggi di errore associati.

Errori di analisi della tabella di classificazione dei dati.

Per impostazione predefinita, gli errori che si sono verificati per le singole tabelle vengono ignorati e ritentati il giorno successivo.

Visualizzare le spese di classificazione dei dati

Per informazioni sulla fatturazione della classificazione dei dati, vedere la pagina dei prezzi. È possibile visualizzare le spese correlate alla classificazione dei dati eseguendo una query o visualizzando il dashboard di utilizzo.

Annotazioni

L'analisi iniziale è più costosa rispetto alle analisi successive sullo stesso catalogo, poiché tali analisi sono incrementali e in genere comportano costi inferiori.

Visualizzare l'utilizzo dalla tabella di sistema system.billing.usage

È possibile eseguire query sulle spese di classificazione dei dati da system.billing.usage. I campi created_by e catalog_id possono essere usati facoltativamente per suddividere i costi:

  • created_by: Includere per visualizzare i costi per l'utente che ha attivato l'utilizzo.
  • catalog_id: includere per visualizzare i costi in base al catalogo. L'ID catalogo viene visualizzato nella system.data_classification.results tabella .

Query di esempio per gli ultimi 30 giorni:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Visualizzare l'utilizzo dal dashboard di utilizzo

Se nell'area di lavoro è già configurato un dashboard di utilizzo, è possibile usarlo per filtrare l'utilizzo selezionando il progetto origine fatturazione con l'etichetta "Classificazione dati". Se non è configurato un dashboard di utilizzo, è possibile importarne uno e applicare lo stesso filtro. Per informazioni dettagliate, vedere Dashboard di utilizzo.

Tag di classificazione supportati

Le tabelle seguenti elencano i tag regolati dal sistema supportati dalla classificazione dei dati.

Tag disponibili per i clienti globali

Classe Descrizione
classe.carta_di_credito Numero di carta di credito
class.email_address Indirizzo di posta elettronica
class.iban_code Numero di Conto Bancario Internazionale (IBAN)
class.ip_address Indirizzo protocollo Internet (IPv4 o IPv6)
class.location Posizione
class.name Nome di una persona
class.phone_number Numero di telefono
class.url URL
class.us_banca_numero Numero bancario degli Stati Uniti
class.us_driver_license Patente di guida usa
class.us_itin Numero di identificazione dei singoli contribuenti statunitensi
class.passaporto_usa Passaporto USA
class.us_ssn Numero di Sicurezza Sociale degli Stati Uniti
class.vin Numero di identificazione del veicolo (VIN)

Tag disponibili per i clienti europei

Questi tag sono disponibili nelle aree di lavoro nelle aree in Europa.

Classe Descrizione
class.de_id_card Numero di carta ID tedesco (Personalausweisnummer)
class.de_svnr Numero di assicurazione sociale tedesca (Sozialversicherungsnummer)
class.codice_fiscale_de Identificativo fiscale tedesco (Steueridentifikationsnummer)
class.uk_nhs Numero del Servizio Sanitario Nazionale del Regno Unito (NHS)
class.uk_nino Numero di previdenza sociale del Regno Unito (NINO)

Tag disponibili per i clienti australiani

Questi tag sono disponibili nelle aree di lavoro nelle regioni in Australia.

Classe Descrizione
class.au_medicare Numero di carta australiana Medicare
class.au_tfn Numero di file fiscale australiano (TFN)

Limitazioni