توصيات التحسين على Azure Databricks

يوفر Azure Databricks العديد من التحسينات التي تدعم مجموعة متنوعة من أحمال العمل على المستودع، بدءا من معالجة ETL على نطاق واسع إلى الاستعلامات التفاعلية المخصصة. يتم إجراء العديد من هذه التحسينات تلقائيا. يمكنك الحصول على فوائدها ببساطة باستخدام Azure Databricks. بالإضافة إلى ذلك، تتطلب معظم ميزات وقت تشغيل Databricks Delta Lake، التنسيق الافتراضي المستخدم لإنشاء جداول في Azure Databricks.

يقوم Azure Databricks بتكوين القيم الافتراضية التي تحسن معظم أحمال العمل. ولكن، في بعض الحالات، يؤدي تغيير إعدادات التكوين إلى تحسين الأداء.

تحسينات أداء وقت تشغيل Databricks

إشعار

استخدم أحدث وقت تشغيل Databricks للاستفادة من أحدث تحسينات الأداء. يتم تمكين جميع السلوكيات الموثقة هنا بشكل افتراضي في Databricks Runtime 10.4 LTS وما فوق.

  • يعمل التخزين المؤقت للقرص على تسريع عمليات القراءة المتكررة مقابل ملفات بيانات Parquet عن طريق تحميل البيانات إلى وحدات تخزين القرص المرفقة بمقطع تخزين الحوسبة.
  • يعمل تنقيح الملفات الديناميكي على تحسين أداء الاستعلام عن طريق تخطي الدلائل التي لا تحتوي على ملفات بيانات تطابق دالات تقييم الاستعلام.
  • يقلل دمج التبديل العشوائي المنخفض من عدد ملفات البيانات التي تتم إعادة كتابتها بواسطة MERGE العمليات ويقلل من الحاجة إلى إعادة حساب ZORDER المجموعات.
  • قدم Apache Spark 3.0 تنفيذ الاستعلام التكيفي، والذي يوفر أداء محسنا للعديد من العمليات.

توصيات Databricks لتحسين الأداء

  • يمكنك استنساخ الجداول على Azure Databricks لإنشاء نسخ عميقة أو ضحلة من مجموعات البيانات المصدر.
  • يعمل المحسن المستند إلى التكلفة على تسريع أداء الاستعلام عن طريق الاستفادة من إحصائيات الجدول.
  • يمكنك استخدام Spark SQL للتفاعل مع سلاسل JSON دون تحليل السلاسل.
  • توفر وظائف الترتيب الأعلى أداء مضمنا ومحسنا للعديد من العمليات التي لا تحتوي على عوامل تشغيل Spark شائعة. توفر وظائف الترتيب الأعلى ميزة أداء على الوظائف المعرفة من قبل المستخدم.
  • يوفر Azure Databricks عددا من عوامل التشغيل المضمنة وبناء الجملة الخاص للعمل مع أنواع البيانات المعقدة، بما في ذلك الصفائف والبنى وسلاسل JSON.
  • يمكنك ضبط الإعدادات يدويا لصلات النطاق. راجع تحسين الانضمام إلى النطاق.

سلوكيات الاشتراك

  • يوفر Azure Databricks ضمان عزل قابل للتسلسل للكتابة بشكل افتراضي؛ يمكن أن يؤدي تغيير مستوى العزل إلى قابل للتسلسل إلى تقليل معدل النقل للعمليات المتزامنة، ولكن قد يكون ضروريا عند الحاجة إلى إمكانية تسلسل القراءة.
  • يمكنك استخدام فهارس عامل تصفية الفتح لتقليل احتمالية فحص ملفات البيانات التي لا تحتوي على سجلات مطابقة لشرط معين.