استخدام حساب Azure Databricks مع وظائفك

عند تشغيل مهمة Azure Databricks، يتم تشغيل المهام التي تم تكوينها كجزء من المهمة على حساب Azure Databricks، إما حساب بلا خادم أو مجموعة أو مستودع SQL، اعتمادا على نوع المهمة. يعد تحديد نوع الحساب وخيارات التكوين أمرا مهما عند تشغيل وظيفة. توفر هذه المقالة توصيات لاستخدام موارد حساب Azure Databricks لتشغيل وظائفك.

لمعرفة المزيد حول استخدام الحوسبة بلا خادم مع مهام Azure Databricks، راجع تشغيل وظيفة Azure Databricks باستخدام حساب بلا خادم لسير العمل.

إشعار

لا يتم تنقيح الأسرار من سجل stdout برنامج تشغيل Spark وتدفقاته stderr . لحماية البيانات الحساسة، بشكل افتراضي، لا يمكن عرض سجلات برنامج تشغيل Spark إلا من قبل المستخدمين الذين لديهم إذن CAN MANAGE في الوظيفة ووضع وصول مستخدم واحد ومجموعات وضع الوصول المشترك. للسماح للمستخدمين الذين لديهم الإذن CAN ATTACH TO أو CAN RESTART بعرض السجلات على هذه المجموعات، قم بتعيين خاصية تكوين Spark التالية في تكوين نظام المجموعة: spark.databricks.acl.needAdminPermissionToViewLogs false.

في أنظمة مجموعات وضع الوصول المشترك للعزل، يمكن عرض سجلات برنامج تشغيل Spark من قبل المستخدمين الذين لديهم إذن CAN ATTACH TO أو CAN MANAGE. لتحديد من يمكنه قراءة السجلات للمستخدمين الذين لديهم إذن CAN MANAGE فقط، قم بتعيين spark.databricks.acl.needAdminPermissionToViewLogs إلى true.

راجع تكوين Spark لمعرفة كيفية إضافة خصائص Spark إلى تكوين نظام المجموعة.

استخدام مجموعات الوظائف المشتركة

لتحسين استخدام الموارد مع المهام التي تنسق مهاما متعددة، استخدم مجموعات الوظائف المشتركة. يسمح نظام مجموعة المهام المشتركة لمهام متعددة في نفس المهمة بإعادة استخدام نظام المجموعة. يمكنك استخدام مجموعة مهام واحدة لتشغيل جميع المهام التي تعد جزءا من الوظيفة، أو مجموعات مهام متعددة محسنة لأحمال عمل معينة. لاستخدام مجموعة مهام مشتركة:

  1. حدد New Job Clusters عند إنشاء مهمة وإكمال تكوين نظام المجموعة.
  2. حدد نظام المجموعة الجديد عند إضافة مهمة إلى الوظيفة، أو أنشئ مجموعة مهام جديدة. تتوفر أي مجموعة تقوم بتكوينها عند تحديد مجموعات مهام جديدة لأي مهمة في الوظيفة.

يتم تحديد نطاق مجموعة المهام المشتركة لتشغيل مهمة واحدة ولا يمكن استخدامها من قبل وظائف أخرى أو عمليات تشغيل لنفس الوظيفة.

لا يمكن الإعلان عن المكتبات في تكوين مجموعة مهام مشتركة. يجب إضافة مكتبات تابعة في إعدادات المهام.

اختر نوع نظام المجموعة الصحيح لمهمتك

  • مجموعات الوظائف الجديدة هي مجموعات مخصصة لتشغيل مهمة أو مهمة. يتم إنشاء مجموعة مهام مشتركة وبدء تشغيلها عند بدء المهمة الأولى باستخدام نظام المجموعة وإنهاءها بعد اكتمال المهمة الأخيرة باستخدام نظام المجموعة. لا يتم إنهاء نظام المجموعة عند الخمول ولكن فقط بعد اكتمال كافة المهام. إذا فشل نظام مجموعة مهام مشتركة أو تم إنهاؤها قبل انتهاء كافة المهام، يتم إنشاء نظام مجموعة جديد. يتم إنشاء مجموعة محددة النطاق لمهمة واحدة وبدء تشغيلها عند بدء المهمة وإنهائها عند اكتمال المهمة. في الإنتاج، توصي Databricks باستخدام مجموعات جديدة مشتركة أو ذات نطاق مهام بحيث يتم تشغيل كل مهمة أو مهمة في بيئة معزولة تماما.
  • عند تشغيل مهمة على مجموعة جديدة، يتم التعامل مع المهمة كعبء عمل لهندسة البيانات (مهمة)، رهنا بتسعير حمل عمل المهمة. عند تشغيل مهمة على مجموعة موجودة لجميع الأغراض، يتم التعامل مع المهمة على أنها حمل عمل تحليلات البيانات (لجميع الأغراض)، رهنا بتسعير حمل العمل لجميع الأغراض.
  • إذا حددت مجموعة موجودة منتهية وكان لمالك الوظيفة إذن CAN RESTART، يبدأ Azure Databricks نظام المجموعة عند جدولة المهمة للتشغيل.
  • تعمل المجموعات الحالية لجميع الأغراض بشكل أفضل لمهام مثل تحديث لوحات المعلومات على فترات منتظمة.

استخدام تجمع لتقليل أوقات بدء نظام المجموعة

لتقليل وقت بدء مجموعة الوظائف الجديدة، قم بإنشاء تجمع وتكوين مجموعة الوظيفة لاستخدام التجمع.