Condividi tramite


Conformità al GDPR e al CCPA con Delta Lake

Questo articolo descrive come usare Delta Lake in Azure Databricks per gestire il Regolamento generale sulla protezione dei dati (GDPR) e la conformità DEL CCPA (California Consumer Privacy Act) per il data lake. La conformità richiede spesso eliminazioni di punti o l'eliminazione di singoli record all'interno di una raccolta di dati di grandi dimensioni. Delta Lake accelera le eliminazioni di punti in grandi data lake con transazioni ACID, consentendo di individuare e rimuovere informazioni personali idenfiable in risposta alle richieste GDPR o CCPA degli utenti.

Pianificare il modello di dati per la conformità

La modellazione dei dati per la conformità è un passaggio importante nella gestione delle informazioni personali. Esistono numerosi approcci validi a seconda delle esigenze dei consumer di dati.

Un approccio spesso applicato è la pseudonimizzazione o la tokenizzazione reversibile degli elementi di informazioni personali (identificatori) alle chiavi (pseudonimi) che non possono essere identificate esternamente. La conformità tramite pseudonimizzazione richiede un'attenta pianificazione, tra cui:

  • Archiviazione di informazioni in modo collegato agli pseudonimi anziché agli identificatori.
  • Manutenzione di criteri rigorosi per l'accesso e l'utilizzo dei dati che combinano gli identificatori e gli pseudonimi.
  • Pipeline o criteri di archiviazione per rimuovere i dati non elaborati.
  • Logica per individuare ed eliminare il collegamento tra gli pseudonimi e gli identificatori.

In che modo Delta Lake semplifica le eliminazioni dei punti

Delta Lake include molte ottimizzazioni di salto dei dati integrate. Per accelerare le eliminazioni di punti, Databricks consiglia di usare l'ordine Z nei campi usati durante DELETE le operazioni.

Delta Lake mantiene la cronologia delle tabelle e la rende disponibile per query e rollback temporizzato. La funzione VACUUM rimuove i file di dati a cui non fa più riferimento una tabella Delta e supera una soglia di conservazione specificata, eliminando definitivamente i dati. Per altre informazioni sulle impostazioni predefinite e sulle raccomandazioni, vedere Usare la cronologia delle tabelle Delta Lake.

Nota

Per le tabelle con vettori di eliminazione abilitati, è necessario eseguire REORG TABLE ... APPLY (PURGE) anche per eliminare definitivamente i record sottostanti. Vedere Applicare modifiche ai file di dati Parquet.