ما هو AutoML الفسيفساء؟
يبسط AutoML الفسيفساء عملية تطبيق التعلم الآلي على مجموعات البيانات الخاصة بك من خلال العثور تلقائيا على أفضل خوارزمية وتكوين المعلمات الفائقة لك.
قم بتوفير مجموعة البيانات الخاصة بك وحدد نوع مشكلة التعلم الآلي، ثم يقوم AutoML بالآتي:
- تنظيف البيانات وإعدادها.
- ينسق تدريب النموذج الموزع وضبط المعلمات الفائقة عبر خوارزميات متعددة.
- البحث عن أفضل نموذج باستخدام خوارزميات تقييم مصدر مفتوح من scikit-learn وxgboost و LightGBM ونبي و ARIMA.
- يعرض النتائج. ينشئ AutoML أيضا دفاتر ملاحظات التعليمات البرمجية المصدر لكل إصدار تجريبي، مما يسمح لك بمراجعة التعليمات البرمجية وإعادة إنتاجها وتعديلها حسب الحاجة.
ابدأ بتجارب AutoML من خلال واجهة مستخدم منخفضة التعليمات البرمجية أو واجهة برمجة تطبيقات Python.
المتطلبات
Databricks Runtime 9.1 ML أو أعلى. للحصول على إصدار التوفر العام (GA)، Databricks Runtime 10.4 LTS ML أو أعلى.
- للتنبؤ بالسلاسل الزمنية، Databricks Runtime 10.0 ML أو أعلى.
- باستخدام Databricks Runtime 9.1 LTS ML وما فوق، يعتمد AutoML على
databricks-automl-runtime
الحزمة، التي تحتوي على مكونات مفيدة خارج AutoML وتساعد أيضا على تبسيط دفاتر الملاحظات التي تم إنشاؤها بواسطة تدريب AutoML.databricks-automl-runtime
متوفر على PyPI.
لا يجب تثبيت مكتبات إضافية غير تلك المثبتة مسبقا في Databricks Runtime التعلم الآلي على نظام المجموعة.
- يؤدي أي تعديل (إزالة أو ترقيات أو تخفيض) إلى إصدارات المكتبة الموجودة إلى فشل التشغيل بسبب عدم التوافق.
للوصول إلى الملفات في مساحة العمل الخاصة بك، يجب أن يكون لديك منافذ الشبكة 1017 و1021 مفتوحة لتجارب AutoML. لفتح هذه المنافذ أو التأكد من فتحها، راجع تكوين جدار حماية VPN السحابي وقواعد مجموعة الأمان أو اتصل بمسؤول السحابة المحلي. للحصول على معلومات إضافية حول تكوين مساحة العمل ونشرها، راجع إنشاء مساحة عمل.
استخدم مورد حساب مع وضع الوصول إلى الحوسبة المدعوم. ليس لكل أوضاع الوصول إلى الحوسبة حق الوصول إلى كتالوج Unity:
وضع الوصول إلى الحساب دعم AutoML دعم كتالوج Unity مستخدم واحد مدعوم (يجب أن يكون المستخدم الفردي المعين للمجموعة) مدعوم وضع الوصول المشترك غير مدعوم غير مدعوم لا يوجد عزل مشترك مدعوم غير مدعوم
خوارزميات AutoML
يقوم AutoML الفسيفساء بتدريب وتقييم النماذج استنادا إلى الخوارزميات في الجدول التالي.
إشعار
بالنسبة لنماذج التصنيف والانحدار، تستند شجرة القرارات والغابات العشوائية والانحدار اللوجستي والانحدار الخطي مع خوارزميات الانخفاض المتدرج العشوائي إلى scikit-learn.
نماذج التصنيف | نماذج الانحدار | نماذج التنبؤ |
---|---|---|
أشجار القرار | أشجار القرار | Prophet |
غابات عشوائية | غابات عشوائية | AUTO-ARIMA (متوفر في Databricks Runtime 10.3 ML وما فوق.) |
الانحدار اللوجستي | الانحدار الخطي مع الانخفاض المتدرج العشوائي | |
XGBoost | XGBoost | |
جهاز غيغابايت فاتح | جهاز غيغابايت فاتح |
إنشاء دفتر ملاحظات تجريبي
ينشئ AutoML دفاتر ملاحظات للتعليمات البرمجية المصدر خلف الإصدارات التجريبية حتى تتمكن من مراجعة التعليمات البرمجية وإعادة إنتاجها وتعديلها حسب الحاجة.
للتنبؤ بالتجارب، يتم استيراد دفاتر الملاحظات التي تم إنشاؤها بواسطة AutoML تلقائيا إلى مساحة العمل الخاصة بك لجميع الإصدارات التجريبية من تجربتك.
بالنسبة لتجارب التصنيف والانحدار، يتم استيراد دفاتر الملاحظات التي تم إنشاؤها بواسطة AutoML لاستكشاف البيانات وأفضل تجربة في تجربتك تلقائيا إلى مساحة العمل الخاصة بك. يتم حفظ دفاتر الملاحظات التي تم إنشاؤها لتجارب أخرى كعناصر MLflow على DBFS بدلا من استيرادها تلقائيا إلى مساحة العمل الخاصة بك. بالنسبة لجميع التجارب إلى جانب أفضل تجربة، notebook_path
لم يتم تعيين و notebook_url
في TrialInfo
واجهة برمجة تطبيقات Python. إذا كنت بحاجة إلى استخدام دفاتر الملاحظات هذه، يمكنك استيرادها يدويا إلى مساحة العمل باستخدام واجهة مستخدم تجربة AutoML أو databricks.automl.import_notebook
واجهة برمجة تطبيقات Python.
إذا كنت تستخدم فقط دفتر ملاحظات استكشاف البيانات أو أفضل دفتر ملاحظات تجريبي تم إنشاؤه بواسطة AutoML، فإن العمود المصدر في واجهة مستخدم تجربة AutoML يحتوي على الارتباط إلى دفتر الملاحظات الذي تم إنشاؤه للحصول على أفضل إصدار تجريبي.
إذا كنت تستخدم دفاتر ملاحظات أخرى تم إنشاؤها في واجهة مستخدم تجربة AutoML، فلن يتم استيرادها تلقائيا إلى مساحة العمل. يمكنك العثور على دفاتر الملاحظات بالنقر فوق كل تشغيل MLflow. يتم حفظ دفتر ملاحظات IPython في قسم Artifacts في صفحة التشغيل. يمكنك تنزيل دفتر الملاحظات هذا واستيراده إلى مساحة العمل، إذا تم تمكين تنزيل البيانات الاصطناعية من قبل مسؤولي مساحة العمل.
قيم Shapley (SHAP) لشرح النموذج
إشعار
بالنسبة إلى MLR 11.1 والإصدارات أدناه، لا يتم إنشاء مخططات SHAP إذا كانت مجموعة البيانات تحتوي على datetime
عمود.
تتضمن دفاتر الملاحظات التي ينتجها تراجع AutoML وتشغيل التصنيف تعليمات برمجية لحساب قيم Shapley. تستند قيم Shapley إلى نظرية اللعبة وتقدير أهمية كل ميزة لتوقعات النموذج.
تحسب دفاتر ملاحظات AutoML قيم Shapley باستخدام حزمة SHAP. نظرا لأن هذه العمليات الحسابية كثيفة الذاكرة بشكل كبير، لا يتم إجراء العمليات الحسابية بشكل افتراضي.
لحساب قيم Shapley وعرضها:
- انتقل إلى قسم أهمية الميزة في دفتر ملاحظات تجريبي تم إنشاؤه بواسطة AutoML.
- تعيين
shap_enabled = True
. - إعادة تشغيل دفتر الملاحظات.