Соответствие GDPR и CCPA Delta Lake
В этой статье описано, как можно использовать Delta Lake на Azure Databricks для управления соответствием вашего озера данных Общему регламенту по защите данных (GDPR) и Закону о защите персональных данных пользователей штата Калифорния (CCPA). Для соответствия требованиям часто требуется удаление точек или удаление отдельных записей в большой коллекции данных. Delta Lake ускоряет удаление точки в больших озерах данных с транзакциями ACID, что позволяет находить и удалять лично идентифлицируемые сведения (PII) в ответ на запросы GDPR или CCPA.
Планирование модели данных для соответствия требованиям
Моделирование данных для соответствия является важным шагом в работе с piI. Существует множество жизнеспособных подходов в зависимости от потребностей потребителей данных.
Одним из часто применяемых подходов является псевдонимизация или обратимая маркеризация элементов личной информации (идентификаторов) к ключам (псевдонимам), которые нельзя определить внешним образом. Для обеспечения соответствия с помощью псевдонимизации требуется тщательное планирование, в том числе следующее:
- служба хранилища информации, связанной с псевдонимами, а не идентификаторами.
- Обслуживание строгих политик для доступа и использования данных, которые объединяют идентификаторы и псевдонимы.
- Конвейеры или политики хранения для удаления необработанных данных.
- Логика для поиска и удаления компоновки между псевдонимами и идентификаторами.
Как Delta Lake упрощает удаление точки
Delta Lake имеет много встроенных оптимизаций пропуска данных. Чтобы ускорить удаление точек, Databricks рекомендует использовать Z-порядок в полях, используемых во время DELETE
операций.
Delta Lake сохраняет журнал таблиц и делает его доступным для запросов и откатов на определенный момент времени. Функция VACUUM удаляет файлы данных, которые больше не ссылаются на таблицу Delta и старше указанного порогового значения хранения, безвозвратно удаляя данные. Дополнительные сведения о значениях по умолчанию и рекомендациях см. в статье "Работа с журналом таблиц Delta Lake".
Примечание.
Для таблиц с включенными векторами удаления необходимо также запустить REORG TABLE ... APPLY (PURGE)
для окончательного удаления базовых записей. См. статью "Применить изменения к файлам данных Parquet".