توصيات التحسين على Azure Databricks

يوفر Azure Databricks العديد من التحسينات التي تدعم مجموعة متنوعة من أحمال العمل على المستودع، بدءا من معالجة ETL واسعة النطاق إلى الاستعلامات التفاعلية المخصصة. يتم إجراء العديد من هذه التحسينات تلقائيا. يمكنك الحصول على فوائدها ببساطة باستخدام Azure Databricks. بالإضافة إلى ذلك، تتطلب معظم ميزات وقت تشغيل Databricks Delta Lake، وهي طبقة التخزين الافتراضية المستخدمة لإنشاء جداول في Azure Databricks.

يقوم Azure Databricks بتكوين القيم الافتراضية التي تعمل على تحسين معظم أحمال العمل. ولكن، في بعض الحالات، يؤدي تغيير إعدادات التكوين إلى تحسين الأداء.

تحسينات أداء وقت تشغيل Databricks

ملاحظه

استخدم أحدث وقت تشغيل Databricks للاستفادة من أحدث تحسينات الأداء. يتم تمكين جميع السلوكيات الموثقة هنا بشكل افتراضي في Databricks Runtime 10.4 LTS وما فوق.

توصيات Databricks لتحسين الأداء

  • يمكنك استنساخ الجداول على Azure Databricks لعمل نسخ عميقة أو ضحلة من مجموعات بيانات المصدر.
  • يسرع المحسن المستند إلى التكلفة أداء الاستعلام من خلال الاستفادة من إحصائيات الجدول.
  • يمكنك استخدام Spark SQL للتفاعل مع بيانات JSON شبه المنظمة دون تحليل السلاسل.
  • توفر وظائف الترتيب الأعلى أداء مضمنا ومحسنا للعديد من العمليات التي لا تحتوي على عوامل تشغيل Spark شائعة. توفر وظائف الترتيب الأعلى ميزة أداء على الوظائف المعرفة من قبل المستخدم.
  • يوفر Azure Databricks عددا من عوامل التشغيل المضمنة وبناء الجملة الخاص للعمل مع أنواع البيانات المعقدة، بما في ذلك الصفائف والبنيات وسلاسل JSON.
  • يمكنك ضبط الإعدادات يدويا للصلات التي تتضمن نطاقات أو تحتوي على بيانات ذات انحراف فرعي.

سلوكيات الاشتراك

  • يوفر Azure Databricks ضمان عزل قابلا للتسلسل للكتابة بشكل افتراضي؛ يمكن أن يؤدي تغيير مستوى العزل إلى قابل للتسلسل إلى تقليل معدل النقل للعمليات المتزامنة، ولكن قد يكون ضروريا عندما تكون قابلية القراءة التسلسلية مطلوبة.
  • يمكنك استخدام فهارس عامل تصفية الفتح لتقليل احتمالية مسح ملفات البيانات التي لا تحتوي على سجلات مطابقة لشرط معين.