ما Delta Lake؟

Delta Lake عبارة عن طبقة تخزين مفتوحة المصدر توفر معاملات ACID (آلية الرجوع والاتساق والعزل والمتانة) إلى Apache Spark وأعباء عمل البيانات الضخمة.

يحتوي الإصدار الحالي من Delta Lake المضمن في Azure Synapse على دعم لغوي لـ Scala و PySpark و .NET وهو متوافق مع Linux Foundation Delta Lake. هناك ارتباطات أسفل الصفحة توضح أمثلة ووثائق أكثر تفصيلاً. يمكنك معرفة المزيد من فيديو مقدمة إلى جداول دلتا.

الميزات الرئيسية

الميزة ‏‏الوصف
عمليات ACID عادة ما يتم ملء مستودعات البيانات من خلال عمليات وتدفقات متعددة، وبعضها يكتب البيانات بشكل متزامن مع القراءات. قبل Delta Lake وإضافة المعاملات، كان على مهندسي البيانات المرور بعملية يدوية عرضة للخطأ لضمان تكامل البيانات. يُقدم Delta Lake عمليات ACID مألوفة إلى مستودعات البيانات. يوفر قابلية التسلسل، وهو أقوى مستوى من مستوى العزل. تعرف على المزيد في الخوض في Delta Lake: فك حزمة سجل المعاملات.
معالجة بيانات التعريف القابلة للتوسيع في البيانات الضخمة، حتى بيانات التعريف نفسها يمكن أن تكون "بيانات كبيرة". يتعامل Delta Lake مع بيانات التعريف تماما مثل البيانات، مع الاستفادة من قوة المعالجة الموزعة ل Spark للتعامل مع جميع بيانات التعريف الخاصة به. ونتيجة لذلك، يمكن لمستودع دلتا معالجة الجداول ذات النطاق الصغير بمليارات من الأقسام والملفات في سهولة.
السفر عبر الزمن (تعيين إصدار البيانات) تعد القدرة على "التراجع" عن التغيير أو العودة إلى إصدار سابق إحدى الميزات الرئيسية للمعاملات. يوفر Delta Lake لقطات من البيانات مما يُمكّن المطورين من الوصول إلى الإصدارات السابقة من البيانات، والعودة إليها لإجراء عمليات التدقيق، أو التراجع أو لإعادة تكرار التجارب. تعرف على المزيد في تقديم Delta Lake Time Travel لمستودع البيانات واسع النطاق.
فتح التنسيق يُعد Apache Parquet هو التنسيق الأساسي لـ Delta Lake، مما يتيح لك الاستفادة من مخططات الضغط والترميز الفعالة الأصلية في التنسيق.
الدفعة الموحدة ومصدر الدفق ومتلقيه إن الجدول في Delta Lake يكون على حد سواء جدول الدُفعة، وكذلك مصدر الدفق ومتلقيه. استيعاب دفق البيانات، وطلب المعلومات القديمة للدفعة، والاستعلامات التفاعلية كلها جاهزة للعمل.
فرض المخطط يساعد تنفيذ المخطط على التأكد من أن أنواع البيانات صحيحة والأعمدة المطلوبة موجودة، مما يمنع البيانات غير الصحيحة من التسبب في تلف البيانات. لمزيد من المعلومات، راجع الغوص في Delta Lake: تنفيذ المخطط وتطوره
تطور المخطط يُمكّنك Delta Lake من إجراء تغييرات على أي مخطط الجدول ويمكن تطبيقها تلقائيًا، دون الحاجة إلى كتابة لغة تعريف بيانات التحويل. لمزيد من المعلومات، راجع الغوص في Delta Lake: تنفيذ المخطط وتطوره
محفوظات التدقيق‬ يسجل سجل معاملات Delta Lake تفاصيل حول كل تغيير يتم إجراؤه على البيانات التي توفر سجل مراجعة كاملة عن التغييرات.
التحديثات وعمليات الحذف يدعم Delta Lake Scala / Java / Python وواجهات برمجة تطبيقات SQL لمجموعة متنوعة من الوظائف. يساعدك دعم عمليات الدمج، والتحديث، والحذف على تلبية متطلبات التوافق. لمزيد من المعلومات، راجع الإعلان عن إصدار Delta Lake 0.6.1، و الإعلان عن إصدار Delta Lake 0.7 والإصدارات البسيطة والموثوقة والحذف على جداول Delta Lake باستخدام واجهات برمجة تطبيقات Python، التي تتضمن قصاصة برمجية من أوامر DML للدمج، والتحديث، والحذف.
متوافق بنسبة 100 بالمائة مع Apache Spark API يمكن للمطورين استخدام Delta Lake باستخدام تدفقات البيانات الموجودة في حد أدنى من التغيير حيث إنها متوافقة مع التطبيقات الموجودة على Spark.

للحصول على الوثائق الكاملة، راجع صفحة وثائق Delta Lake

لمزيد من المعلومات، راجع مشروع Delta Lake.

الخطوات التالية