Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Questa funzionalità è in Anteprima Pubblica.
Questa pagina descrive come usare Databricks Data Classification in Unity Catalog per classificare e contrassegnare automaticamente i dati sensibili nel catalogo.
I cataloghi di dati possono avere una grande quantità di dati, spesso contenenti dati sensibili noti e sconosciuti. È fondamentale che i team di dati comprendano il tipo di dati sensibili presenti in ogni tabella in modo che possano gestire e democratizzare l'accesso a questi dati.
Per risolvere questo problema, Databricks Data Classification usa un agente di intelligenza artificiale per classificare e contrassegnare automaticamente le tabelle nel catalogo. In questo modo è possibile individuare dati sensibili e applicare controlli di governance sui risultati, usando strumenti come il controllo degli accessi in base all'attributo di Unity Catalog. Per un elenco dei tag supportati, vedere Tag di classificazione supportati.
Usando questa funzionalità, è possibile:
- Classificare i dati: il motore usa un sistema di intelligenza artificiale agente per classificare e contrassegnare automaticamente le tabelle in Unity Catalog.
- Ottimizzare i costi tramite l'analisi intelligente: il sistema determina in modo intelligente quando analizzare i dati sfruttando Unity Catalog e il motore di business intelligence dei dati. Ciò significa che l'analisi è incrementale e ottimizzata per garantire che tutti i nuovi dati vengano classificati senza configurazione manuale.
- Esaminare e proteggere i dati sensibili: i risultati visualizzati consentono di visualizzare i risultati della classificazione e proteggere i dati sensibili contrassegnando e creando criteri di controllo di accesso per ogni classe.
Importante
Databricks Data Classification usa l'archiviazione predefinita per archiviare i risultati della classificazione. Non viene addebitato alcun costo per lo spazio di archiviazione.
Databricks Data Classification usa un modello di linguaggio di grandi dimensioni (LLM) per facilitare la classificazione.
Requisiti
Annotazioni
La classificazione dei dati è una funzionalità di anteprima a livello di area di lavoro e può essere gestita solo da un'area di lavoro o da un amministratore dell'account. Per istruzioni, vedere Gestire le anteprime di Azure Databricks.
Importante
Il modello che alimenta questa funzione viene reso disponibile usando le API Mosaic AI Model Serving Foundation Model. Llama 3.1 è concesso in licenza con la Licenza Community llama 3.1, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. Per altre informazioni, vedere Licenze e condizioni per sviluppatori di modelli applicabili.
Se i modelli emergono in futuro che offrono prestazioni migliori in base ai benchmark interni di Databricks, Databricks potrebbe modificare i modelli e aggiornare la documentazione.
- È necessario che il calcolo serverless sia abilitato. Vedi Connettersi al calcolo serverless.
- Per abilitare la classificazione dei dati, è necessario possedere il catalogo o avere i privilegi
USE_CATALOGeMANAGEsu di esso. - Per visualizzare la tabella dei risultati, è necessario disporre delle autorizzazioni seguenti:
USE CATALOGeUSE SCHEMA, piùSELECTnella tabella. Vedere La tabella di sistema dei risultati.
Usare la classificazione dei dati
Per usare la classificazione dei dati in un catalogo:
Passare al catalogo e fare clic sulla scheda Dettagli .
Fare clic sull'interruttore Classificazione dati per abilitarlo.
Viene visualizzata la finestra di dialogo Abilita classificazione dati . Per impostazione predefinita, sono inclusi tutti gli schemi. Per includere solo alcuni schemi, selezionarli nel menu a discesa Schemi da includere .
Fare clic su Abilita.
Verrà creato un processo in background che analizza in modo incrementale tutte le tabelle nel catalogo o negli schemi selezionati.
Il motore di classificazione si basa sull'analisi intelligente per determinare quando analizzare una tabella. Le nuove tabelle e le colonne in un catalogo vengono in genere analizzate entro 24 ore dalla creazione.
Visualizzare i risultati della classificazione
Per visualizzare i risultati della classificazione, fare clic su Visualizza risultati accanto all'interruttore.
Viene visualizzata una pagina dei risultati che mostra i risultati della classificazione per tutte le tabelle nel catalogo. Per selezionare un catalogo diverso, usare il selettore in alto a sinistra della pagina. È necessario un archivio SQL serverless, che viene visualizzato in alto a destra della pagina.
Nella pagina dei risultati sono elencati i tag di classificazione identificati nel catalogo. Tutti i criteri ABAC esistenti che fanno riferimento ai tag del sistema di classificazione dei dati (class.xx) vengono visualizzati nella tabella.
Per esaminare i risultati di un tag di classificazione specifico, fare clic su Rivedi nella colonna più a destra per la riga corrispondente.
Viene visualizzato un pannello che visualizza le tabelle per le quali la classificazione dei dati ha rilevato il tag di classificazione con attendibilità elevata. Esaminare le tabelle, le colonne e i valori di esempio. I valori di esempio vengono visualizzati solo se si ha accesso alla tabella dei risultati. Vedere La tabella di sistema dei risultati.
Se le colonne identificate corrispondono alle aspettative, è possibile abilitare l'assegnazione automatica di tag per il tag di classificazione per questo catalogo. Quando l'assegnazione automatica di tag è abilitata, vengono contrassegnati tutti i rilevamenti esistenti e futuri di questa classificazione.
Per abilitare l'assegnazione automatica di tag, attivare o disattivare il tag Auto con .... In seguito è possibile disabilitare l'assegnazione automatica di tag usando lo stesso interruttore. Quando si disabilita l'assegnazione di tag, non vengono applicati tag futuri, ma i tag esistenti non vengono rimossi.
Annotazioni
Quando si abilita l'assegnazione automatica di tag, i tag non vengono riempiti immediatamente. Verranno popolati nella scansione successiva, che diventerà effettiva entro 24 ore. Le classificazioni successive verranno contrassegnate immediatamente.
Tabella di sistema dei risultati
La classificazione dei dati crea una tabella di sistema denominata system.data_classification.results per archiviare i risultati che per impostazione predefinita sono accessibili solo all'amministratore dell'account. L'amministratore dell'account può condividere questa tabella. La tabella è accessibile solo quando si usa il calcolo serverless. Per informazioni dettagliate su questa tabella, vedere Informazioni di riferimento sulla tabella di sistema di classificazione dei dati.
Importante
La tabella system.data_classification.results dei risultati contiene tutti i risultati della classificazione nell'intero metastore e include i valori di esempio delle tabelle in ogni catalogo. È consigliabile condividere questa tabella solo con gli utenti con privilegi per visualizzare i risultati della classificazione a livello di metastore, inclusi i valori di esempio.
Per visualizzare la tabella dei risultati sono necessarie le autorizzazioni seguenti: USE CATALOG e USE SCHEMA, più SELECT nella tabella. Gli utenti con MANAGE o SELECT l'accesso a un catalogo possono visualizzare i risultati nella pagina, ma non possono visualizzare i valori di esempio.
Configurare i controlli di governance in base ai risultati della classificazione dei dati
Mascherare i dati sensibili usando un criterio di controllo degli accessi basato sugli attributi.
Databricks consiglia di usare il controllo degli accessi in base all'attributo di Unity Catalog per creare controlli di governance in base ai risultati della classificazione dei dati.
Per creare un criterio, fare clic su Nuovo criterio. Il modulo dei criteri viene precompilato per mascherare le colonne con il tag di classificazione da esaminare. Per mascherare i dati, specificare qualsiasi funzione di maschera registrata nel catalogo unity e fare clic su Salva.
È anche possibile creare criteri che coprono più tag di classificazione, modificando Quando la colonnasoddisfa la condizione e fornendo più tag.
Ad esempio, per creare un criterio denominato "Riservato" che maschera qualsiasi nome, indirizzo di posta elettronica o numero di telefono, impostare la condizione soddisfa su hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").
Individuazione ed eliminazione dei dati secondo il GDPR
Questo notebook di esempio illustra come usare la classificazione dei dati per facilitare l'individuazione e l'eliminazione dei dati per la conformità al GDPR.
Individuazione ed eliminazione dei dati ai sensi del GDPR utilizzando un notebook per la classificazione dei dati
Come gestire tag non corretti
Se i dati sono contrassegnati in modo non corretto, è possibile rimuovere manualmente il tag. Il tag non verrà riapplicato nelle analisi future.
Per rimuovere un tag usando l'interfaccia utente, passare alla tabella in Esplora cataloghi e modificare i tag di colonna.
Per rimuovere un tag tramite SQL:
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')
Errori di scansione
Se si verificano errori durante l'analisi, viene visualizzato un pulsante Errori in alto a destra nella tabella dei risultati.
Fare clic sul pulsante per visualizzare le tabelle che non hanno superato l'analisi e i messaggi di errore associati.
Per impostazione predefinita, gli errori che si sono verificati per le singole tabelle vengono ignorati e ritentati il giorno successivo.
Visualizzare le spese di classificazione dei dati
Per informazioni sulla fatturazione della classificazione dei dati, vedere la pagina dei prezzi. È possibile visualizzare le spese correlate alla classificazione dei dati eseguendo una query o visualizzando il dashboard di utilizzo.
Annotazioni
L'analisi iniziale è più costosa rispetto alle analisi successive sullo stesso catalogo, poiché tali analisi sono incrementali e in genere comportano costi inferiori.
Visualizzare l'utilizzo dalla tabella di sistema system.billing.usage
È possibile eseguire query sulle spese di classificazione dei dati da system.billing.usage. I campi created_by e catalog_id possono essere usati facoltativamente per suddividere i costi:
-
created_by: Includere per visualizzare i costi per l'utente che ha attivato l'utilizzo. -
catalog_id: includere per visualizzare i costi in base al catalogo. L'ID catalogo viene visualizzato nellasystem.data_classification.resultstabella .
Query di esempio per gli ultimi 30 giorni:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Visualizzare l'utilizzo dal dashboard di utilizzo
Se nell'area di lavoro è già configurato un dashboard di utilizzo, è possibile usarlo per filtrare l'utilizzo selezionando il progetto origine fatturazione con l'etichetta "Classificazione dati". Se non è configurato un dashboard di utilizzo, è possibile importarne uno e applicare lo stesso filtro. Per informazioni dettagliate, vedere Dashboard di utilizzo.
Tag di classificazione supportati
Le tabelle seguenti elencano i tag regolati dal sistema supportati dalla classificazione dei dati.
Tag disponibili per i clienti globali
| Classe | Descrizione |
|---|---|
| classe.carta_di_credito | Numero di carta di credito |
| class.email_address | Indirizzo di posta elettronica |
| class.iban_code | Numero di Conto Bancario Internazionale (IBAN) |
| class.ip_address | Indirizzo protocollo Internet (IPv4 o IPv6) |
| class.location | Posizione |
| class.name | Nome di una persona |
| class.phone_number | Numero di telefono |
| class.url | URL |
| class.us_banca_numero | Numero bancario degli Stati Uniti |
| class.us_driver_license | Patente di guida usa |
| class.us_itin | Numero di identificazione dei singoli contribuenti statunitensi |
| class.passaporto_usa | Passaporto USA |
| class.us_ssn | Numero di Sicurezza Sociale degli Stati Uniti |
| class.vin | Numero di identificazione del veicolo (VIN) |
Tag disponibili per i clienti europei
Questi tag sono disponibili nelle aree di lavoro nelle aree in Europa.
| Classe | Descrizione |
|---|---|
| class.de_id_card | Numero di carta ID tedesco (Personalausweisnummer) |
| class.de_svnr | Numero di assicurazione sociale tedesca (Sozialversicherungsnummer) |
| class.codice_fiscale_de | Identificativo fiscale tedesco (Steueridentifikationsnummer) |
| class.uk_nhs | Numero del Servizio Sanitario Nazionale del Regno Unito (NHS) |
| class.uk_nino | Numero di previdenza sociale del Regno Unito (NINO) |
Tag disponibili per i clienti australiani
Questi tag sono disponibili nelle aree di lavoro nelle regioni in Australia.
| Classe | Descrizione |
|---|---|
| class.au_medicare | Numero di carta australiana Medicare |
| class.au_tfn | Numero di file fiscale australiano (TFN) |
Limitazioni
- Le visualizzazioni e le visualizzazioni delle metriche non sono supportate. Se la vista si basa su tabelle esistenti, Databricks consiglia di classificare le tabelle sottostanti per verificare se contengono dati sensibili.