توحيد البيانات

تصل البيانات إلى حسابات مستودع البيانات بتنسيقات مختلفة. تتضمن هذه التنسيقات تنسيقات يمكن قراءتها من قبل الإنسان، مثل ملفات JSON أو .CSV أو XML والتنسيقات الثنائية المضغوطة، مثل .tar أو .gz. تأتي البيانات الواردة أيضا في أحجام عديدة، من عدد قليل من الملفات التي تم تحريرها إلى تصدير جدول SQL بأكمله. يمكن أن تأتي البيانات أيضا كعدد كبير من الملفات الصغيرة التي هي بضعة كيلوبايت لكل منهما، مثل الأحداث في الوقت الحقيقي من حل IoT.

في حين أن Azure Data Lake Storage Gen2 يدعم التخزين لجميع أنواع البيانات دون قيود، يجب أن تفكر بعناية في تنسيقات البيانات لضمان كفاءة معالجة البنية الأساسية لبرنامج ربط العمليات التجارية وتحسين التكاليف.

تقوم العديد من المؤسسات الآن بتوحيد تنسيق استيعابها والحوسبة المنفصلة عن التخزين. لهذا السبب، أصبح تنسيق Delta Lake المعيار المفضل لاستيعاب البيانات من خلال طبقة الإثراء. من طبقة الإثراء، يمكن لفريق تطبيق البيانات تقديم البيانات في تنسيق يعكس حالة الاستخدام الخاصة بهم.

ملاحظة

استخدم Delta Lake لدعم كل من حالات استخدام الدفعات والتدفق لاستيعاب البيانات الأولية من خلال طبقة الإثراء.

توفر هذه المقالة نظرة عامة على Delta Lake وأدائها وكيف تساعدك على تحقيق دعم التوافق وكيفية توحيد بياناتك أثناء تدفقها من المصدر إلى طبقة الإثراء.

Delta Lake

Delta Lake هي طبقة تخزين مفتوحة المصدر تجمع معاملات ACID (الذرية والاتساق والعزل والمتانة) إلى أحمال عمل البيانات الضخمة وApache Spark. يتوافق كل من Azure Synapse Analytics وAzure Databricks مع Linux Foundation Delta Lake.

ميزات مفتاح Delta Lake

الميزة الوصف
عمليات ACID عادة ما يتم ملء مستودعات البيانات عبر عمليات وتدفقات متعددة، يكتب بعضها البيانات بشكل متزامن مع القراءات. يستخدم مهندسو البيانات في المرور بعملية يدوية عرضة للخطأ لضمان تكامل البيانات قبل استخدام Delta lake والمعاملات. يُقدم Delta Lake عمليات ACID مألوفة إلى مستودعات البيانات. يوفر أقوى مستوى عزل وقابلية للتسلسل. لمزيد من المعلومات، راجع الغوص في Delta Lake: فك حزمة سجل المعاملات.
معالجة بيانات التعريف القابلة للتوسيع في البيانات الضخمة، يمكن أن تكون بيانات التعريف حتى "بيانات كبيرة". يتعامل Delta Lake مع بيانات التعريف مثل البيانات الأخرى. ويستخدم قوة المعالجة الموزعة ل Spark للتعامل مع جميع بيانات التعريف. لهذا السبب، يمكن ل Delta Lake التعامل بسهولة مع جداول مقياس بيتابايت مع مليارات الأقسام والملفات.
السفر عبر الزمن (تعيين إصدار البيانات) تعد القدرة على "التراجع" عن التغيير أو العودة إلى إصدار سابق ميزة رئيسية للمعاملات. يوفر Delta Lake لقطات من البيانات مما يُمكّن المطورين من الوصول إلى الإصدارات السابقة من البيانات، والعودة إليها لإجراء عمليات التدقيق، أو التراجع أو لإعادة تكرار التجارب. تعرف على المزيد في تقديم Delta Lake Time Travel لمستودع البيانات واسع النطاق.
فتح التنسيق يتيح لك Apache Parquet، وهو التنسيق الأساسي ل Delta Lake، تطبيق أنظمة ضغط وترميز فعالة.
الدفعة الموحدة ومصدر الدفق ومتلقيه الجدول في Delta Lake هو جدول دفعي ومصدر دفق ومتلقي في وقت واحد. تعمل كل من دفق البيانات وإعادة التعبئة التاريخية الدفعية والاستعلامات التفاعلية خارج الصندوق.
فرض المخطط يساعدك فرض المخطط على التأكد من أن لديك أنواع بيانات صحيحة وأعمدة مطلوبة، ما يمنع عدم تناسق البيانات من البيانات السيئة. لمزيد من المعلومات، راجع الخوص في Delta Lake: تنفيذ &«تطور المخطط»
تطور المخطط يتيح لك Delta Lake إجراء تغييرات مطبقة تلقائيا على مخطط جدول، دون الحاجة إلى كتابة DDL للترحيل. لمزيد من المعلومات، راجع الخوص في Delta Lake: تنفيذ &«تطور المخطط»
محفوظات التدقيق يسجل سجل معاملات Delta Lake تفاصيل حول كل تغيير يتم إجراؤه على بياناتك. توفر هذه السجلات سجل تدقيق كامل لجميع التغييرات.
التحديثات وعمليات الحذف يدعم Delta Lake واجهات برمجة تطبيقات Scala وJava وPython وSQL لوظائف مختلفة. يساعدك دعم عمليات الدمج والتحديث والحذف على تلبية متطلبات التوافق. لمزيد من المعلومات، راجع الإعلان عن إصدار Delta Lake 0.6.1، والإعلان عن إصدار Delta Lake 0.7، والإصدارات البسيطة والموثوقة والحذف على جداول Delta Lake باستخدام واجهات برمجة تطبيقات Python (التي تتضمن قصاصات برمجية لأوامر DML لدمجها وتحديثها وحذفها).
متوافق بنسبة 100٪ مع Apache Spark API يمكن للمطورين استخدام Delta Lake مع الحد الأدنى من التغيير في مسارات البيانات الحالية الخاصة بهم، لأنها متوافقة تماما مع تطبيقات Spark الحالية.

لمزيد من المعلومات، راجع مشروع Delta Lake.

للحصول على الوثائق الكاملة، تفضل بزيارة صفحة وثائق Delta Lake

الأداء

غالبا ما يؤدي استخدام الكثير من الملفات الصغيرة إلى أداء دون المستوى الأمثل وتكاليف أعلى من زيادة عمليات القراءة/القائمة. تم تحسين Azure Data Lake Storage Gen2 للملفات الأكبر حجما التي تسمح بتشغيل مهام التحليلات بشكل أسرع وبتكلفة أقل.

يتضمن Delta Lake العديد من الميزات التي يمكن أن تساعدك على تحسين الأداء باستخدام إدارة الملفات.

تتضمن الأمثلة ما يلي:

  • يقلل سجل المعاملات من عمليات LIST باهظة الثمن.
  • يتيح Z-Ordering (تكوين أنظمة المجموعات متعددة الأبعاد) دفع التقييم المحسن لعوامل تصفية الاستعلام.
  • تقلل تحسينات التخزين المؤقت والاستعلام الأصلية من مقدار فحص التخزين الذي تحتاج إليه. لمزيد من المعلومات، راجع تحسين الأداء باستخدام التخزين المؤقت.
  • يدمج OPTIMIZE الملفات الصغيرة في ملفات أكبر.

اجعل هذه التحسينات جزءا من عملية تحميل البيانات للحفاظ على حداثة البيانات وأدائها.

تقسيم مستودع البيانات

يتضمن تقسيم البيانات تنظيم البيانات في مخزن البيانات الخاص بك حتى تتمكن من إدارة البيانات واسعة النطاق والتحكم في الوصول إلى البيانات. يمكن أن يؤدي التقسيم إلى تحسين قابلية التوسع وتقليل المنافسة على الاتصال وتحسين الأداء.

عند تقسيم مستودع البيانات الخاص بك، تأكد من إعدادك:

  • لا يعرض الأمان للخطر
  • لديه عزل واضح ويتوافق مع نموذج تخويل البيانات الخاص بك
  • تناسب عملية استيعاب البيانات بشكل جيد
  • لديه مسار محدد جيدا للوصول الأمثل إلى البيانات
  • يدعم مهام الإدارة والصيانة

الممارسات العامة

الممارسات العامة لتصميم تقسيم البيانات هي:

  • ركز على الآثار الأمنية في وقت مبكر، وقم بتصميم أقسام البيانات الخاصة بك جنبا إلى جنب مع التخويل.
  • قد ترغب في السماح بتكرار البيانات مقابل الأمان.- حدد اصطلاح تسمية والتزم به.
  • يمكنك تداخل مجلدات متعددة، ولكن احتفظ بها دائما متسقة.
  • قم بتضمين عنصر وقت في بنيات المجلدات وأسماء الملفات.
  • لا تبدأ بنية المجلد بأقسام التاريخ. من الأفضل الاحتفاظ بالتواريخ على مستوى المجلد الأدنى.
  • لا تقم بدمج تنسيقات الملفات المختلطة أو منتجات البيانات المختلفة في بنية مجلد واحد.

تلميح

يجب أن تحتوي بنيات المجلدات على استراتيجيات تقسيم يمكنها تحسين أنماط الوصول وأحجام الملفات المناسبة. في المناطق المنسقة، خطط للبنية بناء على الاسترداد الأمثل، واحذر من اختيار مفتاح قسم ذي علاقة أساسية عالية، ما يؤدي إلى التقسيم الزائد، ما يؤدي بدوره إلى أحجام ملفات دون المستوى الأمثل.

لمزيد من المعلومات حول مناطق مستودع البيانات، راجع مناطق مستودع البيانات والحاويات

دعم التوافق

تضيف Delta Lake طبقة معاملات لتوفير إدارة بيانات منظمة أعلى مستودع البيانات الخاص بك. يمكن لهذه الإضافة تبسيط وتسريع قدرتك على تحديد موقع المعلومات الشخصية وإزالتها (المعروفة أيضا باسم "البيانات الشخصية") بناء على طلب المستهلك. تدعم طبقة المعاملات عمليات مثل DELETE و UPDATE و MERGE. لمزيد من المعلومات، راجع أفضل الممارسات: توافق القانون العام لحماية البيانات (GDPR) باستخدام Delta Lake.

الملخص

تطبيق مقاييس البيانات المدرجة في هذه المقالة على النظام الأساسي الخاص بك. ابدأ بتنسيق Delta Lake، ثم ابدأ في إضافة عمليات للتحسين والتوافق. قد تقرر إنشاء خدمة تقوم بتشغيل بعض مسارات التحسين الخاصة بك وفقا لجدول زمني، أو إنشاء خدمة توافق تزيل المعلومات الشخصية.

الخطوات التالية