Kepatuhan GDPR dan CCPA dengan Delta Lake

Artikel ini menjelaskan bagaimana Anda dapat menggunakan Delta Lake di Azure Databricks untuk mengelola kepatuhan Peraturan Perlindungan Data Umum (GDPR) dan Undang-Undang Privasi Konsumen California (CCPA) untuk data lake Anda. Kepatuhan sering memerlukan penghapusan titik, atau menghapus rekaman individual dalam kumpulan data yang besar. Delta Lake mempercepat penghapusan titik di data lake besar dengan transaksi ACID, memungkinkan Anda menemukan dan menghapus informasi yang dapat dibantah secara pribadi (PII) sebagai respons terhadap permintaan GDPR atau CCPA konsumen.

Merencanakan model data Anda untuk kepatuhan

Pemodelan data Anda untuk kepatuhan adalah langkah penting dalam menangani PII. Ada banyak pendekatan yang layak tergantung pada kebutuhan konsumen data Anda.

Salah satu pendekatan yang sering diterapkan adalah pseudonymization, atau tokenisasi yang dapat dibatalkan dari elemen informasi pribadi (pengidentifikasi) ke kunci (nama samaman) yang tidak dapat diidentifikasi secara eksternal. Kepatuhan melalui pseudonymization memerlukan perencanaan yang cermat, termasuk hal-hal berikut:

  • Penyimpanan informasi dengan cara yang ditautkan ke nama samaronim daripada pengidentifikasi.
  • Pemeliharaan kebijakan ketat untuk akses dan penggunaan data yang menggabungkan pengidentifikasi dan nama samar.
  • Alur atau kebijakan penyimpanan untuk menghapus data mentah.
  • Logika untuk menemukan dan menghapus tautan antara nama samaman dan pengidentifikasi.

Cara Delta Lake menyederhanakan penghapusan titik

Delta Lake memiliki banyak pengoptimalan lompati data bawaan. Untuk mempercepat penghapusan titik, Databricks merekomendasikan penggunaan Z-order pada bidang yang Anda gunakan selama DELETE operasi.

Delta Lake mempertahankan riwayat tabel dan membuatnya tersedia untuk kueri dan pembatalan titik waktu. Fungsi VACUUM menghapus file data yang tidak lagi direferensikan oleh tabel Delta dan lebih lama dari ambang retensi yang ditentukan, menghapus data secara permanen. Untuk mempelajari selengkapnya tentang default dan rekomendasi, lihat Bekerja dengan riwayat tabel Delta Lake.