تدريب نماذج التعلم الآلي باستخدام واجهة مستخدم Azure Databricks AutoML

مقالة
07/02/2024

توضح هذه المقالة كيفية تدريب نموذج التعلم الآلي باستخدام AutoML وواجهة مستخدم الذكاء الاصطناعي Databricks Mosaic. ترشدك واجهة مستخدم AutoML من خلال تدريب نموذج تصنيف أو تراجع أو تنبؤ على مجموعة بيانات.

راجع متطلبات تجارب AutoML.

فتح واجهة مستخدم AutoML

للوصول إلى واجهة مستخدم AutoML:

في الشريط الجانبي، حدد تجربة AutoML جديدة>.

يمكنك أيضا إنشاء تجربة AutoML جديدة من صفحة التجارب.

يتم عرض صفحة تكوين تجربة AutoML. في هذه الصفحة، يمكنك تكوين عملية AutoML، وتحديد مجموعة البيانات، ونوع المشكلة، والهدف أو عمود التسمية للتنبؤ، والمقياس المطلوب استخدامه لتقييم وتسجيل تشغيل التجربة، وشروط الإيقاف.

إعداد مشكلة تصنيف أو تراجع

يمكنك إعداد مشكلة تصنيف أو تراجع باستخدام واجهة مستخدم AutoML مع الخطوات التالية:

في حقل Compute ، حدد نظام مجموعة يقوم بتشغيل Databricks Runtime ML.
من القائمة المنسدلة نوع مشكلة التعلم الآلي، حدد الانحدار أو التصنيف. إذا كنت تحاول التنبؤ بقيمة رقمية مستمرة لكل ملاحظة، مثل الدخل السنوي، فحدد الانحدار. إذا كنت تحاول تعيين كل ملاحظة إلى واحدة من مجموعة منفصلة من الفئات، مثل مخاطر ائتمانية جيدة أو مخاطر ائتمانية سيئة، فحدد التصنيف.
ضمن Dataset، حدد Browse.
انتقل إلى الجدول الذي تريد استخدامه وانقر فوق تحديد. يظهر مخطط الجدول.
- في Databricks Runtime 10.3 ML وما فوق، يمكنك تحديد الأعمدة التي يجب أن يستخدمها AutoML للتدريب. لا يمكنك إزالة العمود المحدد كهدف التنبؤ أو عمود الوقت لتقسيم البيانات.
- في Databricks Runtime 10.4 LTS ML وما فوق، يمكنك تحديد كيفية تسجيل القيم الخالية عن طريق التحديد من القائمة المنسدلة Impute with . بشكل افتراضي، يحدد AutoML أسلوبا للاقتراض استنادا إلى نوع العمود والمحتوى.
إشعار

إذا قمت بتحديد أسلوب غير افتراضي للاعتداء، لا يقوم AutoML بإجراء الكشف عن النوع الدلالي.
انقر في حقل Prediction target . تظهر قائمة منسدلة تسرد الأعمدة المعروضة في المخطط. حدد العمود الذي تريد أن يتنبأ به النموذج.
يعرض حقل اسم التجربة الاسم الافتراضي. لتغييره، اكتب الاسم الجديد في الحقل.

يمكنك أيضًا:

حدد خيارات تكوين إضافية.
استخدم جداول الميزات الموجودة في 'متجر الميزات' لزيادة مجموعة بيانات الإدخال الأصلية.

إعداد مشاكل التنبؤ

يمكنك إعداد مشكلة تنبؤ باستخدام واجهة مستخدم AutoML بالخطوات التالية:

في حقل Compute ، حدد مجموعة تقوم بتشغيل Databricks Runtime 10.0 ML أو أعلى.
من القائمة المنسدلة نوع مشكلة التعلم الآلي، حدد Forecasting.
ضمن مجموعة البيانات، انقر فوق استعراض. انتقل إلى الجدول الذي تريد استخدامه وانقر فوق تحديد. يظهر مخطط الجدول.
انقر في حقل Prediction target . تظهر قائمة منسدلة، تسرد الأعمدة المعروضة في المخطط. حدد العمود الذي تريد أن يتنبأ به النموذج.
انقر في حقل العمود Time. تظهر قائمة منسدلة تعرض أعمدة مجموعة البيانات من النوع timestamp أو date. حدد العمود الذي يحتوي على الفترات الزمنية للسلسلة الزمنية.
للتنبؤ متعدد السلاسل، حدد العمود (الأعمدة) الذي يحدد السلسلة الزمنية الفردية من القائمة المنسدلة معرفات السلاسل الزمنية. يجمع AutoML البيانات حسب هذه الأعمدة كسلسلة زمنية مختلفة ويدرب نموذجا لكل سلسلة بشكل مستقل. إذا تركت هذا الحقل فارغا، يفترض AutoML أن مجموعة البيانات تحتوي على سلسلة زمنية واحدة.
في حقلي "Forecast horizon" و"frequency" ، حدد عدد الفترات الزمنية في المستقبل التي يجب أن يقوم AutoML بحساب القيم المتوقعة لها. في المربع الأيسر، أدخل عدد صحيح من الفترات المتوقعة. في المربع الأيمن، حدد الوحدات.

إشعار

لاستخدام AUTO-ARIMA، يجب أن يكون للسلسلة الزمنية تكرار منتظم حيث يجب أن يكون الفاصل الزمني بين أي نقطتين هو نفسه طوال السلسلة الزمنية. يجب أن يتطابق التردد مع وحدة التردد المحددة في استدعاء واجهة برمجة التطبيقات أو في واجهة مستخدم AutoML. يعالج AutoML خطوات الوقت المفقودة عن طريق ملء تلك القيم بالقيمة السابقة.
في Databricks Runtime 11.3 LTS ML وما فوق، يمكنك حفظ نتائج التنبؤ. للقيام بذلك، حدد قاعدة بيانات في حقل قاعدة بيانات الإخراج. انقر فوق استعراض وحدد قاعدة بيانات من مربع الحوار. يكتب AutoML نتائج التنبؤ إلى جدول في قاعدة البيانات هذه.
يعرض حقل اسم التجربة الاسم الافتراضي. لتغييره، اكتب الاسم الجديد في الحقل.

يمكنك أيضًا:

حدد خيارات تكوين إضافية.
استخدم جداول الميزات الموجودة في 'متجر الميزات' لزيادة مجموعة بيانات الإدخال الأصلية.

استخدام جداول الميزات الموجودة من Databricks Feature Store

في Databricks Runtime 11.3 LTS ML وما فوق، يمكنك استخدام جداول الميزات في Databricks Feature Store لتوسيع مجموعة بيانات تدريب الإدخال لمشكلات التصنيف والانحدار.

في Databricks Runtime 12.2 LTS ML وما فوق، يمكنك استخدام جداول الميزات في Databricks Feature Store لتوسيع مجموعة بيانات تدريب الإدخال لجميع مشكلات AutoML: التصنيف والتراجع والتنبؤ.

لإنشاء جدول ميزات، راجع إنشاء جدول ميزات في كتالوج Unity أو إنشاء جدول ميزات في مخزن ميزات Databricks.

بعد تكوين تجربة AutoML، يمكنك تحديد جدول ميزات باستخدام الخطوات التالية:

انقر فوق Join features (اختياري) .
في صفحة الانضمام إلى ميزات إضافية، حدد جدول ميزات في حقل جدول الميزات.
لكل مفتاح أساسي لجدول الميزات، حدد مفتاح البحث المقابل. يجب أن يكون مفتاح البحث عمودا في مجموعة بيانات التدريب التي قدمتها لتجربة AutoML.
بالنسبة لجداول ميزات السلاسل الزمنية، حدد مفتاح البحث عن الطابع الزمني المقابل. وبالمثل، يجب أن يكون مفتاح البحث عن الطابع الزمني عمودا في مجموعة بيانات التدريب التي قدمتها لتجربة AutoML.
لإضافة المزيد من جداول الميزات، انقر فوق إضافة جدول آخر وكرر الخطوات المذكورة أعلاه.

التكوينات المتقدمة

افتح قسم التكوين المتقدم (اختياري) للوصول إلى هذه المعلمات.

مقياس التقييم هو المقياس الأساسي المستخدم لتسجيل عمليات التشغيل.
في Databricks Runtime 10.4 LTS ML وما فوق، يمكنك استبعاد أطر التدريب من الاعتبار. بشكل افتراضي، يقوم AutoML بتدريب النماذج باستخدام أطر العمل المدرجة ضمن خوارزميات AutoML.
يمكنك تحرير شروط الإيقاف. شروط الإيقاف الافتراضية هي:
- للتنبؤ بالتجارب، توقف بعد 120 دقيقة.
- في Databricks Runtime 10.4 LTS ML وما دونه، للتصنيف وتجارب الانحدار، توقف بعد 60 دقيقة أو بعد إكمال 200 تجربة، أيهما يحدث أولا. بالنسبة إلى Databricks Runtime 11.0 ML وما فوق، لا يتم استخدام عدد التجارب كشرط إيقاف.
- في Databricks Runtime 10.4 LTS ML وما فوق، لتجارب التصنيف والانحدار، يتضمن AutoML الإيقاف المبكر؛ يتوقف عن التدريب وضبط النماذج إذا لم يعد مقياس التحقق من الصحة يتحسن.
في Databricks Runtime 10.4 LTS ML وما فوق، يمكنك تحديد عمود زمني لتقسيم البيانات للتدريب والتحقق من الصحة والاختبار بترتيب زمني (ينطبق فقط على التصنيف والانحدار).
توصي Databricks بعدم ملء حقل دليل البيانات. يؤدي القيام بذلك إلى تشغيل السلوك الافتراضي لتخزين مجموعة البيانات بأمان كأداة MLflow. يمكن تحديد مسار DBFS، ولكن في هذه الحالة، لا ترث مجموعة البيانات أذونات الوصول لتجربة AutoML.

تشغيل التجربة ومراقبة النتائج

لبدء تجربة AutoML، انقر فوق Start AutoML. تبدأ التجربة في التشغيل، وتظهر صفحة تدريب AutoML. لتحديث جدول التشغيل، انقر فوق .

من هذه الصفحة، يمكنك:

أوقف التجربة في أي وقت.
افتح دفتر ملاحظات استكشاف البيانات.
تشغيل جهاز العرض.
انتقل إلى صفحة التشغيل لأي تشغيل.

باستخدام Databricks Runtime 10.1 ML وما فوق، يعرض AutoML تحذيرات للمشكلات المحتملة في مجموعة البيانات، مثل أنواع الأعمدة غير المدعومة أو الأعمدة الأساسية العالية.

إشعار

يقوم Databricks ببذل قصارى جهده للإشارة إلى الأخطاء أو المشكلات المحتملة. ومع ذلك، قد لا يكون هذا شاملا وقد لا يلتقط المشكلات أو الأخطاء التي قد تبحث فيها.

لمشاهدة أي تحذيرات لمجموعة البيانات، انقر فوق علامة التبويب تحذيرات في صفحة التدريب أو صفحة التجربة بعد اكتمال التجربة.

تحذيرات AutoML

عند اكتمال التجربة، يمكنك:

تسجيل أحد النماذج ونشره باستخدام MLflow.
حدد عرض دفتر الملاحظات للحصول على أفضل نموذج لمراجعة وتحرير دفتر الملاحظات الذي أنشأ أفضل نموذج.
حدد عرض دفتر ملاحظات استكشاف البيانات لفتح دفتر ملاحظات استكشاف البيانات.
ابحث عن عمليات التشغيل وتصفيتها وفرزها في جدول التشغيل.
راجع تفاصيل أي تشغيل:
- يمكن العثور على دفتر الملاحظات الذي تم إنشاؤه الذي يحتوي على التعليمات البرمجية المصدر لتشغيل تجريبي بالنقر فوق تشغيل MLflow. يتم حفظ دفتر الملاحظات في قسم Artifacts في صفحة التشغيل. يمكنك تنزيل دفتر الملاحظات هذا واستيراده إلى مساحة العمل، إذا تم تمكين تنزيل البيانات الاصطناعية من قبل مسؤولي مساحة العمل.
- لعرض نتائج التشغيل، انقر في العمود Models أو عمود Start Time . تظهر صفحة التشغيل، وتعرض معلومات حول التشغيل التجريبي (مثل المعلمات والمقاييس والعلامات) والبيانات الاصطناعية التي تم إنشاؤها بواسطة التشغيل، بما في ذلك النموذج. تتضمن هذه الصفحة أيضا مقتطفات التعليمات البرمجية التي يمكنك استخدامها لإجراء تنبؤات مع النموذج.

للعودة إلى تجربة AutoML هذه لاحقا، ابحث عنها في الجدول في صفحة التجارب. يتم تخزين نتائج كل تجربة AutoML، بما في ذلك دفاتر ملاحظات استكشاف البيانات والتدريب، في databricks_automl مجلد في المجلد الرئيسي للمستخدم الذي قام بتشغيل التجربة.

تسجيل نموذج ونشره

يمكنك تسجيل النموذج ونشره باستخدام واجهة مستخدم AutoML:

حدد الارتباط في عمود Models للنموذج للتسجيل. عند اكتمال التشغيل، يكون الصف العلوي هو أفضل نموذج (استنادا إلى المقياس الأساسي).
حدد لتسجيل النموذج في Model Registry.
حدد Models في الشريط الجانبي للانتقال إلى Model Registry.
حدد اسم النموذج الخاص بك في جدول النموذج.
من صفحة النموذج المسجل، يمكنك خدمة النموذج مع خدمة النموذج.

لا توجد وحدة نمطية تسمى 'pandas.core.indexes.numeric

عند تقديم نموذج تم إنشاؤه باستخدام AutoML مع خدمة النموذج، قد تحصل على الخطأ: No module named 'pandas.core.indexes.numeric.

ويرجع ذلك إلى إصدار غير متوافق pandas بين AutoML ونموذج خدمة بيئة نقطة النهاية. يمكنك حل هذا الخطأ عن طريق تشغيل البرنامج النصي add-pandas-dependency.py. يقوم البرنامج النصي بتحرير requirements.txt و conda.yaml للنموذج المسجل لتضمين إصدار التبعية المناسب pandas : pandas==1.5.3

تعديل البرنامج النصي لتضمين run_id تشغيل MLflow حيث تم تسجيل النموذج الخاص بك.
إعادة تسجيل النموذج في سجل نموذج MLflow.
حاول تقديم الإصدار الجديد من نموذج MLflow.

مشاركة عبر