استكشاف أخطاء فشل مهمة وإصلاحها
لنفترض أنه تم إعلامك (على سبيل المثال، من خلال إعلام بالبريد الإلكتروني أو حل مراقبة أو في واجهة مستخدم وظائف Azure Databricks) بأن مهمة قد فشلت في تشغيل مهمة Azure Databricks. توفر الخطوات الواردة في هذه المقالة إرشادات لمساعدتك في تحديد سبب الفشل، واقتراحات لإصلاح المشكلات التي تجدها، وكيفية إصلاح تشغيل المهام الفاشلة.
تحديد سبب الفشل
للعثور على المهمة الفاشلة في واجهة مستخدم وظائف Azure Databricks:
انقر فوق تشغيل المهمة في الشريط الجانبي.
في العمود الاسم ، انقر فوق اسم مهمة. تعرض علامة التبويب "Runs" عمليات التشغيل النشطة والنسخ المكتملة، بما في ذلك أي عمليات تشغيل فاشلة. تعرض طريقة عرض المصفوفة في علامة التبويب "Runs " محفوظات عمليات التشغيل للوظيفة، بما في ذلك عمليات التشغيل الناجحة وغير الناجحة لكل مهمة مهمة. قد يكون تشغيل مهمة غير ناجح لأنه فشل أو تم تخطيه بسبب فشل مهمة تابعة. باستخدام طريقة عرض المصفوفة، يمكنك التعرف بسرعة على حالات فشل المهمة لتشغيل وظيفتك.
مرر مؤشر الماوس فوق مهمة فاشلة لرؤية بيانات التعريف المقترنة. تتضمن بيانات التعريف هذه تواريخ البدء والانتهاء والحالة وتفاصيل مجموعة المدة وفي بعض الحالات رسالة خطأ.
للمساعدة في تحديد سبب الفشل، انقر فوق المهمة الفاشلة. تظهر صفحة تفاصيل تشغيل المهمة، وتعرض إخراج المهمة ورسالة الخطأ وبيانات التعريف المقترنة بها.
إصلاح سبب الفشل
قد تكون مهمتك قد فشلت لعدة أسباب، على سبيل المثال، مشكلة في جودة البيانات أو تكوين خاطئ أو موارد حساب غير كافية. فيما يلي الخطوات المقترحة لإصلاح بعض الأسباب الشائعة لفشل المهام:
- إذا كان الفشل مرتبطا بتكوين المهمة، فانقر فوق تحرير المهمة. يتم فتح تكوين المهمة في علامة تبويب جديدة. قم بتحديث تكوين المهمة كما هو مطلوب وانقر فوق حفظ المهمة.
- إذا كانت المشكلة مرتبطة بموارد نظام المجموعة، على سبيل المثال، مثيلات غير كافية، فهناك العديد من الخيارات:
- إذا تم تكوين وظيفتك لاستخدام مجموعة مهام، ففكر في استخدام مجموعة مشتركة لجميع الأغراض.
- تغيير تكوين نظام المجموعة. انقر فوق تحرير المهمة. في لوحة Job details ، ضمن Compute، انقر فوق Configure لتكوين نظام المجموعة. يمكنك تغيير عدد العمال أو أنواع المثيلات أو خيارات تكوين نظام المجموعة الأخرى. يمكنك أيضا النقر فوق تبديل للتبديل إلى مجموعة أخرى متوفرة. للتأكد من أنك تستخدم الموارد المتاحة على النحو الأمثل، راجع أفضل الممارسات لتكوين نظام المجموعة.
- إذا لزم الأمر، اطلب من المسؤول زيادة حصص الموارد النسبية في حساب السحابة والمنطقة حيث يتم نشر مساحة العمل الخاصة بك.
- إذا كان الفشل ناتجا عن تجاوز الحد الأقصى لعمليات التشغيل المتزامنة، إما:
- انتظر حتى تكتمل عمليات التشغيل الأخرى.
- انقر فوق تحرير المهمة. في لوحة تفاصيل المهمة، انقر فوق تحرير عمليات التشغيل المتزامنة، وأدخل قيمة جديدة للحد الأقصى لعمليات التشغيل المتزامنة، وانقر فوق تأكيد.
في بعض الحالات، قد يكون سبب الفشل مصدر وظيفتك؛ على سبيل المثال، مصدر بيانات خارجي غير متوفر. لا يزال بإمكانك الاستفادة من ميزة تشغيل الإصلاح التي يغطيها القسم التالي بعد حل المشكلة الخارجية.
إعادة تشغيل المهام الفاشلة والمهام التي تم تخطيها
بعد تحديد سبب الفشل، يمكنك إصلاح المهام متعددة المهام الفاشلة أو الملغاة عن طريق تشغيل المجموعة الفرعية فقط من المهام غير الناجحة وأي مهام تابعة. نظرا لعدم إعادة تشغيل المهام الناجحة وأي مهام تعتمد عليها، فإن هذه الميزة تقلل من الوقت والموارد المطلوبة للاسترداد من عمليات تشغيل المهام غير الناجحة.
يمكنك تغيير إعدادات المهمة أو المهمة قبل إصلاح تشغيل المهمة. تتم إعادة تشغيل المهام غير الناجحة باستخدام إعدادات المهمة والمهام الحالية. على سبيل المثال، إذا قمت بتغيير المسار إلى دفتر ملاحظات أو إعداد نظام مجموعة، فستتم إعادة تشغيل المهمة باستخدام دفتر الملاحظات المحدث أو إعدادات نظام المجموعة.
عرض محفوظات كافة المهام التي يتم تشغيلها على صفحة تفاصيل تشغيل المهمة.
إشعار
- إذا كانت مهمة واحدة أو أكثر تشترك في مجموعة مهام، فإن تشغيل الإصلاح ينشئ مجموعة مهام جديدة. على سبيل المثال، إذا كان التشغيل الأصلي يستخدم نظام مجموعة
my_job_cluster
المهام ، فإن تشغيل الإصلاح الأول يستخدم مجموعةmy_job_cluster_v1
المهام الجديدة ، مما يسمح لك برؤية إعدادات نظام المجموعة والكتلة المستخدمة بواسطة التشغيل الأولي وأي عمليات تشغيل إصلاح بسهولة. إعدادات هيmy_job_cluster_v1
نفس الإعدادات الحالية لmy_job_cluster
. - يتم دعم الإصلاح فقط مع المهام التي تنسق مهمتين أو أكثر.
- تتضمن قيمة المدة المعروضة في علامة التبويب Run وقت بدء التشغيل الأول حتى وقت انتهاء آخر تشغيل إصلاح. على سبيل المثال، إذا فشلت عملية تشغيل مرتين ونجحت في التشغيل الثالث، تتضمن المدة الوقت لجميع عمليات التشغيل الثلاثة.
لإصلاح تشغيل مهمة فاشلة:
- انقر فوق الارتباط الخاص بالتشغيل الفاشل في عمود وقت البدء لجدول تشغيل المهمة أو انقر فوق التشغيل الفاشل في طريقة عرض المصفوفة. تظهر صفحة Job run details.
- انقر فوق إصلاح التشغيل. يظهر مربع الحوار تشغيل مهمة الإصلاح، مع سرد كافة المهام غير الناجحة وأي مهام تابعة ستتم إعادة تشغيلها.
- لإضافة معلمات للمهام المراد إصلاحها أو تحريرها، أدخل المعلمات في مربع الحوار تشغيل مهمة الإصلاح. تتجاوز المعلمات التي تدخلها في مربع حوار تشغيل مهمة الإصلاح القيم الموجودة. في عمليات تشغيل الإصلاح اللاحقة، يمكنك إرجاع معلمة إلى قيمتها الأصلية عن طريق مسح المفتاح والقيمة في مربع الحوار تشغيل مهمة الإصلاح.
- انقر فوق تشغيل الإصلاح في مربع الحوار تشغيل مهمة الإصلاح.
- بعد انتهاء تشغيل الإصلاح، يتم تحديث طريقة عرض المصفوفة بعمود جديد للتشغيل الذي تم إصلاحه. يجب أن تكون أي مهام فاشلة باللون الأحمر الآن باللون الأخضر، مما يشير إلى نجاح التشغيل لمهمتك بأكملها.
عرض حالات الفشل المستمر في الوظائف وإدارتها
عندما تتجاوز حالات الفشل المتتالية لوظيفة مستمرة حدا، تستخدم وظائف Azure Databricks التراجع الأسي لإعادة محاولة المهمة. عندما تكون الوظيفة في حالة التراجع الأسي، تعرض رسالة في لوحة تفاصيل المهمة معلومات، بما في ذلك:
- عدد حالات الفشل المتتالية.
- الفترة الزمنية لتشغيل الوظيفة دون خطأ ليتم اعتبارها ناجحة.
- الوقت قبل إعادة المحاولة التالية إذا لم يكن هناك تشغيل نشط حاليا.
لإلغاء التشغيل النشط، قم بإعادة تعيين فترة إعادة المحاولة، وبدء تشغيل مهمة جديدة، انقر فوق إعادة تشغيل.