إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
توضح هذه المقالة خطوات تصحيح الأخطاء للمشكلات الشائعة التي قد يواجهها المستخدمون عند العمل مع نقاط نهاية خدمة النموذج. قد تتضمن المشكلات الشائعة الأخطاء التي يواجهها المستخدمون عند فشل نقطة النهاية في التهيئة أو البدء، أو فشل الإنشاء المتعلق بالحاوية، أو المشاكل أثناء تشغيل النموذج أو تشغيله على نقطة النهاية.
الوصول إلى السجلات ومراجعتها
توصي Databricks بمراجعة سجلات البناء لتصحيح الأخطاء واستكشاف الأخطاء وإصلاحها في نموذجك الذي يخدم أحمال العمل. راجع مراقبة جودة النموذج وصحة نقطة النهاية للحصول على معلومات حول السجلات وكيفية عرضها.
تحقق من سجلات الأحداث للنموذج في واجهة مستخدم مساحة العمل وتحقق من وجود رسالة إنشاء حاوية ناجحة. إذا لم تشاهد رسالة بناء بعد ساعة، فتواصل مع دعم Databricks للحصول على المساعدة.
إذا كان البناء الخاص بك ناجحا، ولكنك تواجه أخطاء أخرى، فشاهد تصحيح الأخطاء بعد نجاح بناء الحاوية. إذا فشل البناء الخاص بك، فشاهد تصحيح الأخطاء بعد فشل بناء الحاوية.
إصدارات حزمة المكتبة المثبتة
في سجلات الإنشاء الخاصة بك، يمكنك تأكيد إصدارات الحزمة المثبتة.
- بالنسبة لإصدارات MLflow، إذا لم يكن لديك إصدار محدد، فإن Model Serving يستخدم أحدث إصدار.
- بالنسبة لخدمة GPU المخصصة، تثبت خدمة النموذج الإصدارات الموصى بها من
cudaوcuDNNوفقا لوثائق PyTorch وTensorflow العامة.
تصحيح الأخطاء بعد نجاح إنشاء الحاوية
حتى إذا تم إنشاء الحاوية بنجاح، فقد تكون هناك مشكلات عند تشغيل النموذج أو أثناء تشغيل نقطة النهاية نفسها. توضح الأقسام الفرعية التالية تفاصيل المشكلات الشائعة وكيفية استكشاف الأخطاء وإصلاحها وتصحيحها
التبعية المفقودة
قد تحصل على خطأ مثل An error occurred while loading the model. No module named <module-name>.. قد يشير هذا الخطأ إلى أن التبعية مفقودة من الحاوية. تحقق من أنك دونت بشكل صحيح جميع التبعيات التي يجب تضمينها في إنشاء الحاوية. انتبه بشكل خاص إلى المكتبات المخصصة وتأكد من تضمين الملفات .whl كقطع أثرية.
تكرار سجلات الخدمة
إذا فشل إنشاء الحاوية، فتحقق من سجلات الخدمة لمعرفة ما إذا لاحظت تكرارها عندما تحاول نقطة النهاية تحميل النموذج. إذا رأيت هذا السلوك، فجرب الخطوات التالية:
- افتح دفتر ملاحظات وأرفقه بمجموعة All-Purpose التي تستخدم إصدار Databricks Runtime، وليس Databricks Runtime التعلم الآلي.
- قم بتحميل النموذج باستخدام MLflow وحاول تصحيح الأخطاء من هناك.
يمكنك أيضا تحميل النموذج محليا على جهاز الكمبيوتر الخاص بك وتصحيح الأخطاء من هناك. قم بتحميل النموذج محليا باستخدام ما يلي:
import os
import mlflow
os.environ["MLFLOW_TRACKING_URI"] = "databricks://PROFILE"
ARTIFACT_URI = "model_uri"
if '.' in ARTIFACT_URI:
mlflow.set_registry_uri('databricks-uc')
local_path = mlflow.artifacts.download_artifacts(ARTIFACT_URI)
print(local_path)
conda env create -f local_path/artifact_path/conda.yaml
conda activate mlflow-env
mlflow.pyfunc.load_model(local_path/artifact_path)
فشل النموذج عند إرسال الطلبات إلى نقطة النهاية
قد تتلقى خطأ مثل Encountered an unexpected error while evaluating the model. Verify that the input is compatible with the model for inference. عند predict() استدعاء على النموذج الخاص بك.
هناك مشكلة في التعليمات البرمجية في الدالة predict() . توصي Databricks بتحميل النموذج من MLflow في دفتر ملاحظات واستدعائه. يؤدي القيام بذلك إلى تمييز المشكلات في الدالة predict() ، ويمكنك معرفة مكان حدوث الفشل داخل الأسلوب .
مساحة العمل تتجاوز التزامن المقدم
قد تتلقى خطأ Workspace exceeded provisioned concurrency quota .
يمكنك زيادة التزامن اعتمادا على توفر المنطقة. تواصل مع فريق حساب Databricks الخاص بك وقدم معرف مساحة العمل لطلب زيادة التزامن.
تصحيح الأخطاء بعد فشل إنشاء الحاوية
يوضح هذا القسم تفاصيل المشكلات التي قد تحدث عند فشل البنية.
OSError: [Errno 28] No space left on device
No space left يمكن أن يكون الخطأ بسبب تسجيل عدد كبير جدا من البيانات الاصطناعية الكبيرة جنبا إلى جنب مع النموذج دون داع. تحقق في MLflow من عدم تسجيل البيانات الاصطناعية الغريبة جنبا إلى جنب مع النموذج ومحاولة إعادة نشر الحزمة التي تم تخسيسها.
مشكلات جدار حماية Azure مع تقديم النماذج من كتالوج Unity
قد ترى خطأ مثل Build could not start due to an internal error. If you are serving a model from UC and Azure Firewall is enabled, this is not supported by default..
تواصل مع فريق حساب Databricks للمساعدة في حل المشكلة.
فشل البناء بسبب عدم توفر وحدة معالجة الرسومات
قد ترى خطأ مثل Build could not start due to an internal error - please contact your Databricks representative..
تواصل مع فريق حساب Databricks للمساعدة في حل المشكلة.