ما هي جداول Delta Live؟

Delta Live Tables هو إطار عمل تعريفي لبناء مسارات معالجة بيانات موثوقة وقابلة للصيانة وقابلة للاختبار. يمكنك تحديد التحويلات التي يجب إجراؤها على بياناتك وتدير Delta Live Tables تنسيق المهام وإدارة نظام المجموعة والمراقبة وجودة البيانات ومعالجة الأخطاء.

إشعار

تتطلب Delta Live Tables خطة Premium. اتصل بفريق حساب Databricks للحصول على مزيد من المعلومات.

بدلا من تحديد مسارات البيانات باستخدام سلسلة من مهام Apache Spark المنفصلة، يمكنك تحديد جداول الدفق وطرق العرض المجسدة التي يجب على النظام إنشاؤها ومواكبتها. تدير Delta Live Tables كيفية تحويل بياناتك استنادا إلى الاستعلامات التي تحددها لكل خطوة معالجة. يمكنك أيضا فرض جودة البيانات باستخدام توقعات Delta Live Tables، والتي تسمح لك بتحديد جودة البيانات المتوقعة وتحديد كيفية التعامل مع السجلات التي تفشل في هذه التوقعات.

لمعرفة المزيد حول فوائد إنشاء وتشغيل مسارات ETL باستخدام Delta Live Tables، راجع صفحة منتج Delta Live Tables.

ما هي مجموعات بيانات Delta Live Tables؟

مجموعات بيانات Delta Live Tables هي جداول الدفق وطرق العرض المجسدة وطرق العرض التي يتم الاحتفاظ بها كنتائج للاستعلامات التعريفية. يصف الجدول التالي كيفية معالجة كل مجموعة بيانات:

نوع مجموعة البيانات كيف تتم معالجة السجلات من خلال الاستعلامات المعرفة؟
جدول الدفق تتم معالجة كل سجل مرة واحدة بالضبط. يفترض هذا مصدر إلحاق فقط.
طريقة العرض المجسدة تتم معالجة السجلات كما هو مطلوب لإرجاع نتائج دقيقة لحالة البيانات الحالية. يجب استخدام طرق العرض المجسدة لمهام معالجة البيانات مثل التحويلات أو التجميعات أو الاستعلامات البطيئة للحوسبة المسبقة والحسابات المستخدمة بشكل متكرر.
العرض تتم معالجة السجلات في كل مرة يتم فيها الاستعلام عن طريقة العرض. استخدم طرق العرض للتحويلات الوسيطة وعمليات التحقق من جودة البيانات التي يجب عدم نشرها إلى مجموعات البيانات العامة.

توفر الأقسام التالية أوصافا أكثر تفصيلا لكل نوع من أنواع مجموعة البيانات. لمعرفة المزيد حول تحديد أنواع مجموعات البيانات لتنفيذ متطلبات معالجة البيانات، راجع متى تستخدم طرق العرض وطرق العرض المجسدة وجداول البث.

جدول الدفق

جدول الدفق هو جدول Delta مع دعم إضافي للتدفق أو معالجة البيانات المتزايدة. تسمح لك جداول الدفق بمعالجة مجموعة بيانات متزايدة، والتعامل مع كل صف مرة واحدة فقط. نظرا لأن معظم مجموعات البيانات تنمو باستمرار بمرور الوقت، فإن جداول الدفق جيدة لمعظم أحمال عمل الاستيعاب. تعد جداول الدفق مثالية للبنية الأساسية لبرنامج ربط العمليات التجارية التي تتطلب حداثة البيانات وزمن انتقال منخفض. يمكن أن تكون جداول الدفق مفيدة أيضا للتحويلات الضخمة على نطاق واسع، حيث يمكن حساب النتائج بشكل متزايد مع وصول بيانات جديدة، مما يحافظ على تحديث النتائج دون الحاجة إلى إعادة حساب جميع بيانات المصدر بالكامل مع كل تحديث. تم تصميم جداول الدفق لمصادر البيانات الملحقة فقط.

إشعار

على الرغم من أن جداول الدفق، بشكل افتراضي، تتطلب مصادر بيانات إلحاقية فقط، عندما يكون مصدر البث جدول دفق آخر يتطلب تحديثات أو حذفا، يمكنك تجاوز هذا السلوك باستخدام علامة skipChangeCommits.

طريقة العرض المجسدة

طريقة العرض المجسدة هي طريقة عرض تم فيها حساب النتائج مسبقا. يتم تحديث طرق العرض المجسدة وفقا لجدول تحديث المسار الذي يتم تضمينها فيه. طرق العرض المجسدة قوية لأنها يمكنها التعامل مع أي تغييرات في الإدخال. في كل مرة يتم فيها تحديث البنية الأساسية لبرنامج ربط العمليات التجارية، تتم إعادة حساب نتائج الاستعلام لتعكس التغييرات في مجموعات البيانات الأولية التي قد تكون حدثت بسبب التوافق أو التصحيحات أو التجميعات أو التقاط بيانات التغيير العام. تنفذ Delta Live Tables طرق العرض المجسدة كجداول Delta، ولكنها تلخص التعقيدات المرتبطة بالتطبيق الفعال للتحديثات، ما يسمح للمستخدمين بالتركيز على كتابة الاستعلامات.

طرق العرض

جميع طرق العرض في Azure Databricks حوسبة النتائج من مجموعات البيانات المصدر كما يتم الاستعلام عن ذلك، والاستفادة من تحسينات التخزين المؤقت عند توفرها. لا تقوم Delta Live Tables بنشر طرق العرض إلى الكتالوج، لذلك يمكن الرجوع إلى طرق العرض فقط داخل البنية الأساسية لبرنامج ربط العمليات التجارية التي تم تعريفها فيها. طرق العرض مفيدة مثل الاستعلامات الوسيطة التي يجب عدم عرضها للمستخدمين النهائيين أو الأنظمة. توصي Databricks باستخدام طرق العرض لفرض قيود جودة البيانات أو تحويل مجموعات البيانات التي تدفع استعلامات انتقال البيانات من الخادم المتعددة وإثرائها.

الإعلان عن مجموعات البيانات الأولى في Delta Live Tables

تقدم Delta Live Tables بناء جملة جديدا ل Python وSQL. لمعرفة أساسيات بناء جملة البنية الأساسية لبرنامج ربط العمليات التجارية، راجع تطوير التعليمات البرمجية للبنية الأساسية لبرنامج ربط العمليات التجارية باستخدام Python وتطوير التعليمات البرمجية للبنية الأساسية لبرنامج ربط العمليات التجارية باستخدام SQL.

إشعار

تفصل Delta Live Tables تعريفات مجموعة البيانات عن معالجة التحديث، ودفاتر ملاحظات Delta Live Tables غير مخصصة للتنفيذ التفاعلي. راجع ما هو مسار Delta Live Tables؟.

ما هو مسار Delta Live Tables؟

البنية الأساسية لبرنامج ربط العمليات التجارية هي الوحدة الرئيسية المستخدمة لتكوين وتشغيل مهام سير عمل معالجة البيانات باستخدام Delta Live Tables.

يحتوي المسار على طرق عرض مجسدة وجداول دفق تم الإعلان عنها في ملفات مصدر Python أو SQL. تستنتج Delta Live Tables التبعيات بين هذه الجداول، مما يضمن حدوث التحديثات بالترتيب الصحيح. لكل مجموعة بيانات، تقارن Delta Live Tables الحالة الحالية بالحالة المطلوبة وتتابع لإنشاء مجموعات البيانات أو تحديثها باستخدام أساليب معالجة فعالة.

تندرج إعدادات خطوط أنابيب Delta Live Tables في فئتين واسعتين:

  1. التكوينات التي تحدد مجموعة من دفاتر الملاحظات أو الملفات (المعروفة باسم التعليمات البرمجية المصدر) التي تستخدم بناء جملة Delta Live Tables للإعلان عن مجموعات البيانات.
  2. التكوينات التي تتحكم في البنية الأساسية للمسار وإدارة التبعية وكيفية معالجة التحديثات وكيفية حفظ الجداول في مساحة العمل.

معظم التكوينات اختيارية، ولكن بعضها يتطلب اهتماما دقيقا، خاصة عند تكوين مسارات الإنتاج. ويؤدي ذلك إلى تضمين ما يلي:

  • لتوفير البيانات خارج البنية الأساسية لبرنامج ربط العمليات التجارية، يجب تعريف مخطط هدف للنشر إلى Hive metastore أو كتالوج هدف ومخطط الهدف للنشر إلى كتالوج Unity.
  • يتم تكوين أذونات الوصول إلى البيانات من خلال نظام المجموعة المستخدم للتنفيذ. تأكد من أن مجموعتك لديها أذونات مناسبة تم تكوينها لمصادر البيانات وموقع التخزين الهدف، إذا تم تحديدها.

للحصول على تفاصيل حول استخدام Python وSQL لكتابة التعليمات البرمجية المصدر للبنية الأساسية لبرنامج ربط العمليات التجارية، راجع مرجع لغة Delta Live Tables SQL ومرجع لغة Delta Live Tables Python.

لمزيد من التفاصيل حول إعدادات البنية الأساسية لبرنامج ربط العمليات التجارية وتكويناتها، راجع تكوين مسار Delta Live Tables.

نشر البنية الأساسية لبرنامج ربط العمليات التجارية الأولى وتشغيل التحديثات

قبل معالجة البيانات باستخدام Delta Live Tables، يجب تكوين البنية الأساسية لبرنامج ربط العمليات التجارية. بمجرد تكوين البنية الأساسية لبرنامج ربط العمليات التجارية، يمكنك تشغيل تحديث لحساب النتائج لكل مجموعة بيانات في البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك. للبدء في استخدام خطوط أنابيب Delta Live Tables، راجع البرنامج التعليمي: تشغيل خط أنابيب Delta Live Tables الأول.

ما هو تحديث البنية الأساسية لبرنامج ربط العمليات التجارية؟

تقوم البنية الأساسية لبرنامج ربط العمليات التجارية بنشر البنية الأساسية وإعادة حساب حالة البيانات عند بدء التحديث. يقوم التحديث بتنفيذ ما يلي:

  • يبدأ نظام مجموعة بالتكوين الصحيح.
  • يكتشف جميع الجداول وطرق العرض المعرفة، ويتحقق من أي أخطاء تحليل مثل أسماء الأعمدة غير الصالحة والتبعيات المفقودة وأخطاء بناء الجملة.
  • إنشاء الجداول وطرق العرض أو تحديثها بأحدث البيانات المتوفرة.

يمكن تشغيل المسارات بشكل مستمر أو وفقا لجدول زمني اعتمادا على متطلبات تكلفة حالة الاستخدام وزمن الانتقال. راجع تشغيل تحديث على مسار Delta Live Tables.

استيعاب البيانات باستخدام جداول Delta Live

تدعم Delta Live Tables جميع مصادر البيانات المتوفرة في Azure Databricks.

توصي Databricks باستخدام جداول الدفق لمعظم حالات استخدام الاستيعاب. بالنسبة للملفات التي تصل إلى تخزين الكائنات السحابية، توصي Databricks بالتحميل التلقائي. يمكنك استيعاب البيانات مباشرة باستخدام Delta Live Tables من معظم حافلات الرسائل.

لمزيد من المعلومات حول تكوين الوصول إلى التخزين السحابي، راجع تكوين التخزين السحابي.

بالنسبة إلى التنسيقات غير المعتمدة من قبل أداة التحميل التلقائي، يمكنك استخدام Python أو SQL للاستعلام عن أي تنسيق يدعمه Apache Spark. راجع تحميل البيانات باستخدام جداول Delta Live.

مراقبة جودة البيانات وفرضها

يمكنك استخدام التوقعات لتحديد عناصر تحكم جودة البيانات على محتويات مجموعة البيانات. على عكس القيد CHECK في قاعدة بيانات تقليدية تمنع إضافة أي سجلات تفشل في القيد، توفر التوقعات مرونة عند معالجة البيانات التي تفشل في متطلبات جودة البيانات. تسمح لك هذه المرونة بمعالجة وتخزين البيانات التي تتوقع أن تكون فوضوية وبيانات يجب أن تفي بمتطلبات الجودة الصارمة. راجع إدارة جودة البيانات باستخدام جداول Delta Live.

توسع Delta Live Tables وظائف Delta Lake. نظرا لأن الجداول التي تم إنشاؤها وإدارتها بواسطة Delta Live Tables هي جداول Delta، فإن لها نفس الضمانات والميزات التي يوفرها Delta Lake. راجع ما هو Delta Lake؟.

تضيف Delta Live Tables العديد من خصائص الجدول بالإضافة إلى العديد من خصائص الجدول التي يمكن تعيينها في Delta Lake. راجع مرجع خصائص Delta Live Tables ومرجع خصائص جدول Delta.

كيفية إنشاء الجداول وإدارتها بواسطة Delta Live Tables

يدير Azure Databricks تلقائيا الجداول التي تم إنشاؤها باستخدام Delta Live Tables، ويحدد كيفية معالجة التحديثات لحساب الحالة الحالية للجدول بشكل صحيح وتنفيذ عدد من مهام الصيانة والتحسين.

بالنسبة لمعظم العمليات، يجب السماح لجداول Delta Live بمعالجة جميع التحديثات والإدراجات والحذف إلى جدول هدف. للحصول على التفاصيل والقيود، راجع الاحتفاظ بالحذف اليدوي أو التحديثات.

مهام الصيانة التي تنفذها Delta Live Tables

تقوم Delta Live Tables بتنفيذ مهام الصيانة في غضون 24 ساعة من تحديث الجدول. يمكن للصيانة تحسين أداء الاستعلام وتقليل التكلفة عن طريق إزالة الإصدارات القديمة من الجداول. بشكل افتراضي، ينفذ النظام عملية تحسين كاملة متبوعة ب فراغ. يمكنك تعطيل OPTIMIZE لجدول عن طريق تعيين pipelines.autoOptimize.managed = false خصائص الجدول للجدول. يتم تنفيذ مهام الصيانة فقط إذا تم تشغيل تحديث البنية الأساسية لبرنامج ربط العمليات التجارية في 24 ساعة قبل جدولة مهام الصيانة.

القيود

تُطبق القيود التالية:

  • جميع الجداول التي تم إنشاؤها وتحديثها بواسطة Delta Live Tables هي جداول Delta.
  • يتم دعم استعلامات السفر عبر الوقت في Delta Lake فقط مع جداول الدفق، ولا يتم دعمها مع طرق العرض المجسدة. راجع العمل مع محفوظات جدول Delta Lake.
  • يمكن تعريف جداول Delta Live Tables مرة واحدة فقط، ما يعني أنها يمكن أن تكون هدفا لعملية واحدة فقط في جميع مسارات Delta Live Tables.
  • أعمدة الهوية غير معتمدة مع الجداول التي هي الهدف من APPLY CHANGES INTO وقد تتم إعادة حسابها أثناء التحديثات لطرق العرض المجسدة. لهذا السبب، توصي Databricks باستخدام أعمدة الهوية في Delta Live Tables فقط مع جداول الدفق. راجع استخدام أعمدة الهوية في Delta Lake.
  • تقتصر مساحة عمل Azure Databricks على 100 تحديث متزامن للبنية الأساسية لبرنامج ربط العمليات التجارية.

للحصول على قائمة بالمتطلبات والقيود الخاصة باستخدام Delta Live Tables مع كتالوج Unity، راجع استخدام كتالوج Unity مع خطوط أنابيب Delta Live Tables

الموارد الإضافية

  • تتمتع Delta Live Tables بدعم كامل في Databricks REST API. راجع DLT API.
  • للحصول على إعدادات البنية الأساسية لبرنامج ربط العمليات التجارية والجدول، راجع مرجع خصائص Delta Live Tables.
  • مرجع لغة Delta Live Tables SQL.
  • مرجع لغة Delta Live Tables Python.