Compartir a través de


Cumplimiento del Reglamento general de protección de datos y CCPA con Delta Lake

En este artículo, se describe cómo puede usar Delta Lake en Azure Databricks para administrar el cumplimiento del Reglamento general de protección de datos (RGPD) y la Ley de privacidad del consumidor de California (CCPA) para el lago de datos. El cumplimiento suele requerir eliminaciones puntualeso la eliminación de registros individuales dentro de una gran colección de datos. Delta Lake acelera las eliminaciones puntuales en grandes lagos de datos con transacciones ACID, lo que le permite localizar y eliminar información de identificación personal (DCP) en respuesta a las solicitudes del RGPD o la CCPA de los consumidores.

Planeamiento del modelo de datos para el cumplimiento

El modelado de los datos para el cumplimiento es un paso importante para tratar con DCP. Hay numerosos enfoques viables en función de las necesidades de los consumidores de datos.

Un enfoque aplicado con frecuencia es la pseudonimización, o tokenización reversible de elementos de información personal (identificadores) a claves (pseudónimos) que no pueden identificarse externamente. El cumplimiento mediante la pseudonimización requiere una planificación cuidadosa, que incluye lo siguiente:

  • Almacenamiento de la información de una manera vinculada a pseudónimos en lugar de a identificadores.
  • Mantenimiento de directivas estrictas para el acceso a los datos y su utilización que combinen los identificadores y los seudónimos.
  • Canalizaciones o directivas de almacenamiento para quitar datos sin procesar.
  • Lógica para buscar y eliminar la vinculación entre los pseudónimos e identificadores.

Cómo simplifica Delta Lake la eliminación puntual

Delta Lake tiene muchas optimizaciones de omisión de datos integradas. Para acelerar las eliminaciones puntuales, Databricks recomienda usar el orden Z en los campos que se usan durante las operaciones DELETE.

Delta Lake conserva el historial de tablas y hace que esté disponible para reversiones y consultas a un momento dado. La función VACUUM quita archivos de datos a los que ya no hace referencia una tabla Delta y son anteriores a un umbral de retención especificado, eliminando permanentemente los datos. Para obtener más información sobre los valores predeterminados y las recomendaciones, consulte Trabajar con el historial de tablas de Delta Lake.

Nota:

Para las tablas con vectores de eliminación activados, también debe ejecutar REORG TABLE ... APPLY (PURGE) para quitar permanentemente los registros subyacentes. Consulte Aplicación de cambios en los archivos de datos de Parquet.