Поделиться через


Соответствие GDPR и CCPA Delta Lake

В этой статье описано, как можно использовать Delta Lake на Azure Databricks для управления соответствием вашего озера данных Общему регламенту по защите данных (GDPR) и Закону о защите персональных данных пользователей штата Калифорния (CCPA). Для соответствия требованиям часто требуется удаление точек или удаление отдельных записей в большой коллекции данных. Delta Lake ускоряет удаление точки в больших озерах данных с транзакциями ACID, что позволяет находить и удалять лично идентифлицируемые сведения (PII) в ответ на запросы GDPR или CCPA.

Планирование модели данных для соответствия требованиям

Моделирование данных для соответствия является важным шагом в работе с piI. Существует множество жизнеспособных подходов в зависимости от потребностей потребителей данных.

Одним из часто применяемых подходов является псевдонимизация или обратимая маркеризация элементов личной информации (идентификаторов) к ключам (псевдонимам), которые нельзя определить внешним образом. Для обеспечения соответствия с помощью псевдонимизации требуется тщательное планирование, в том числе следующее:

  • служба хранилища информации, связанной с псевдонимами, а не идентификаторами.
  • Обслуживание строгих политик для доступа и использования данных, которые объединяют идентификаторы и псевдонимы.
  • Конвейеры или политики хранения для удаления необработанных данных.
  • Логика для поиска и удаления компоновки между псевдонимами и идентификаторами.

Как Delta Lake упрощает удаление точки

Delta Lake имеет много встроенных оптимизаций пропуска данных. Чтобы ускорить удаление точек, Databricks рекомендует использовать Z-порядок в полях, используемых во время DELETE операций.

Delta Lake сохраняет журнал таблиц и делает его доступным для запросов и откатов на определенный момент времени. Функция VACUUM удаляет файлы данных, которые больше не ссылаются на таблицу Delta и старше указанного порогового значения хранения, безвозвратно удаляя данные. Дополнительные сведения о значениях по умолчанию и рекомендациях см. в статье "Работа с журналом таблиц Delta Lake".

Примечание.

Для таблиц с включенными векторами удаления необходимо также запустить REORG TABLE ... APPLY (PURGE) для окончательного удаления базовых записей. См. статью "Применить изменения к файлам данных Parquet".