Delta Lake를 사용하여 GDPR 및 CCPA 준수
이 문서에서는 Azure Databricks에서 Delta Lake를 사용하여 데이터 레이크에 대한 GDPR(일반 데이터 보호 규정) 및 CCPA(캘리포니아 소비자 개인 정보 보호법) 규정 준수를 관리하는 방법을 설명합니다. 규정 준수를 위해 종종 포인트 삭제 또는 대규모 데이터 컬렉션 내에서 개별 레코드를 삭제해야 합니다. Delta Lake는 ACID 트랜잭션을 통해 대규모 데이터 레이크에서 포인트 삭제 속도를 높여 소비자 GDPR 또는 CCPA 요청에 대한 응답으로 PII(개인 식별 정보)를 찾고 제거할 수 있습니다.
규정 준수를 위한 데이터 모델 계획
준수를 위해 데이터를 모델링하는 것은 PII를 처리하는 중요한 단계입니다. 데이터 소비자의 요구 사항에 따라 다양한 실행 가능한 방식이 있습니다.
자주 적용되는 한 가지 방식은 가명화 또는 외부적으로 식별할 수 없는 키(가명)에 대한 개인 정보 요소(식별자)의 가역적 토큰화입니다. 가명화를 통한 규정 준수에는 다음을 포함하여 신중한 계획이 필요합니다.
- 식별자가 아닌 가명과 연결된 방식으로 정보를 저장
- 식별자와 가명을 결합하는 데이터의 액세스 및 사용에 대한 엄격한 정책 유지 관리
- 원시 데이터를 제거하기 위한 파이프라인 또는 스토리지 정책
- 가명과 식별자 사이의 연결을 찾아 삭제하는 논리
Delta Lake가 포인트 삭제를 단순화하는 방법
Delta Lake에는 많은 데이터 건너뛰기 최적화 기능이 기본 제공되어 있습니다. 포인트 삭제를 가속화하기 위해 Databricks는 DELETE
작업 중에 사용하는 필드에 Z 순서를 사용하는 것이 좋습니다.
Delta Lake는 테이블 기록을 유지하고 지정 시간 쿼리 및 롤백에 사용할 수 있도록 합니다. VACUUM 함수는 델타 테이블에서 더 이상 참조되지 않고 지정된 보존 임계값보다 오래된 데이터 파일을 제거하여 데이터를 영구적으로 삭제합니다. 기본값 및 권장 사항에 대한 자세한 내용은 Delta Lake 테이블 기록 작업을 참조하세요.