توافق القانون العام لحماية البيانات (GDPR) وCCPA مع Delta Lake

توضح هذه المقالة كيف يمكنك استخدام Delta Lake على Azure Databricks لإدارة الامتثال للوائح حماية البيانات العامة (GDPR) وقانون خصوصية المستهلك في كاليفورنيا (CCPA) لمخزن البيانات الخاص بك. غالبا ما يتطلب التوافق حذف نقطة أو حذف سجلات فردية داخل مجموعة كبيرة من البيانات. تعمل Delta Lake على تسريع عمليات حذف النقاط في مستودعات البيانات الكبيرة باستخدام معاملات ACID، مما يسمح لك بتحديد موقع المعلومات القابلة للتخصيص (PII) وإزالتها شخصيا استجابة لطلبات القانون العام لحماية البيانات (GDPR) أو CCPA للمستهلك.

تخطيط نموذج البيانات للامتثال

تعد نمذجة بياناتك للامتثال خطوة مهمة في التعامل مع PII. هناك العديد من الأساليب القابلة للتطبيق اعتمادا على احتياجات مستهلكي البيانات.

أحد النهج المطبقة بشكل متكرر هو الزائفة، أو الرمز المميز القابل للعكس لعناصر المعلومات الشخصية (المعرفات) للمفاتيح (الأسماء المستعارة) التي لا يمكن تعريفها خارجيا. يتطلب الامتثال من خلال الزائفة تخطيطا دقيقا، بما في ذلك ما يلي:

  • تخزين المعلومات بطريقة مرتبطة بالأسم المستعار بدلا من المعرفات.
  • الحفاظ على نهج صارمة للوصول إلى البيانات واستخدامها التي تجمع بين المعرفات والأصول المستعارة.
  • البنية الأساسية لبرنامج ربط العمليات التجارية أو نهج التخزين لإزالة البيانات الأولية.
  • منطق لتحديد موقع وحذف الارتباط بين الأسماء المستعارة والمعرفات.

كيف يبسط Delta Lake حذف النقطة

يحتوي Delta Lake على العديد من التحسينات التي تتخطى البيانات المضمنة. لتسريع عمليات حذف النقاط، توصي Databricks باستخدام ترتيب Z في الحقول التي تستخدمها أثناء DELETE العمليات.

تحتفظ Delta Lake بمحفوظات الجدول وتجعلها متاحة للاستعلامات والتراجع في نقطة زمنية. تزيل الدالة فراغ ملفات البيانات التي لم تعد مشار إليها بواسطة جدول Delta وهي أقدم من حد استبقاء محدد، مما يؤدي إلى حذف البيانات نهائيا. لمعرفة المزيد حول الإعدادات الافتراضية والتوصيات، راجع العمل مع محفوظات جدول Delta Lake.

إشعار

بالنسبة للجداول التي تم تمكين متجهات الحذف فيها، يجب أيضا تشغيل REORG TABLE ... APPLY (PURGE) لحذف السجلات الأساسية بشكل دائم. راجع تطبيق التغييرات على ملفات بيانات Parquet.