مشاركة عبر


Databricks Runtime 10.1 ل ML (EoS)

إشعار

انتهى دعم إصدار وقت تشغيل Databricks هذا. للحصول على تاريخ انتهاء الدعم، راجع محفوظات انتهاء الدعم. لجميع إصدارات وقت تشغيل Databricks المدعومة، راجع إصدارات ملاحظات إصدار Databricks Runtime والتوافق.

يوفر Databricks Runtime 10.1 ل التعلم الآلي بيئة جاهزة للاستخدام للتعلم الآلي وعلوم البيانات استنادا إلى Databricks Runtime 10.1 (EoS). يحتوي التعلم الآلي من Databricks Runtime على العديد من مكتبات التعلم الآلي الشائعة، بما في ذلك TensorFlow وPyTorch وXGBoost. كما يدعم التدريب على التعلم العميق الموزع باستخدام Horovod.

لمزيد من المعلومات، بما في ذلك إرشادات إنشاء مجموعة التعلم الآلي من Databricks Runtime، راجع الذكاء الاصطناعي والتعلم الآلي على Databricks.

ميزات وتحسينات جديدة

تم إنشاء Databricks Runtime 10.1 ML أعلى Databricks Runtime 10.1. للحصول على معلومات حول الجديد في Databricks Runtime 10.1، بما في ذلك Apache Spark MLlib وSparkR، راجع ملاحظات إصدار Databricks Runtime 10.1 (EoS ).

تحسينات على AutoML

في Databricks Runtime 10.1، يتضمن AutoML اكتشافا دلاليا محسنا، وتنبيهات جديدة لمشكلات البيانات المحتملة أثناء التدريب، وقدرات جديدة لمنع نماذج المكدسة الزائدة، والقدرة على تقسيم مجموعة بيانات الإدخال إلى مجموعات تدريب وتحقق من الصحة والاختبار بشكل زمني.

اكتشافات إضافية للنوع الدلالي

يدعم AutoML الآن الكشف عن النوع الدلالي الإضافي:

  • يتم التعامل مع الأعمدة الرقمية التي تحتوي على تسميات فئوية كنوع فئوي.
  • يتم التعامل مع أعمدة السلسلة التي تحتوي على نص إنجليزي كميزة نصية.

يمكنك الآن أيضا إضافة تعليقات توضيحية لتحديد نوع بيانات العمود. للحصول على التفاصيل، راجع الكشف عن النوع الدلالي.

التنبيهات أثناء التدريب على مشكلات البيانات المحتملة

يكتشف AutoML الآن وينشئ تنبيهات للمشكلات المحتملة مع مجموعة البيانات. تتضمن التنبيهات المثال أنواع الأعمدة غير المدعومة والأعمدة الأساسية العالية. تظهر هذه التنبيهات على صفحة التجربة ضمن علامة التبويب تنبيهات جديدة. يتم تضمين معلومات إضافية حول التنبيهات في دفتر ملاحظات استكشاف البيانات. لمزيد من المعلومات، راجع تشغيل التجربة ومراقبة النتائج.

تقليل المكواة الزائدة للنموذج

تقلل الإمكانتان الجديدتان من فرص الإفراط في احتواء النموذج عند استخدام AutoML:

  • يبلغ AutoML الآن عن مقاييس الاختبار بالإضافة إلى مقاييس التحقق من الصحة والتدريب.
  • يستخدم AutoML الآن الإيقاف المبكر. يتوقف عن التدريب وضبط النماذج إذا لم يعد مقياس التحقق من الصحة يتحسن.

تقسيم مجموعة البيانات إلى مجموعات تدريب/تحقق/اختبار زمنيا

بالنسبة لمشاكل التصنيف والانحدار، يمكنك تقسيم مجموعة البيانات إلى مجموعات تدريب وتحقق من الصحة والاختبار بشكل زمني. راجع تقسيم البيانات إلى مجموعات التدريب والتحقق من الصحة والاختبار للحصول على التفاصيل.

تحسينات على مخزن ميزات Databricks

يدعم مخزن ميزات Databricks الآن أنواع بيانات إضافية لجداول الميزات: BinaryTypeو DecimalTypeو.MapType

تدفق التعلم الآلي

تتوفر التحسينات التالية بدءا من Mlflow الإصدار 1.21.0، المضمن في Databricks Runtime 10.1 ML.

  • [النماذج] قم بترقية نكهة fastai النموذج لدعم الإصدار 2 من fastai (2.4.1 وما فوق).
  • [النماذج] تقديم نكهة نموذج mlflow.prophet لنماذج السلسلة الزمنية للنبي.
  • [تسجيل النقاط] إصلاح خطأ فرض المخطط الذي يقوم بشكل غير صحيح بتحزيم سلاسل تشبه التاريخ إلى كائنات التاريخ والوقت.

Hyperopt

SparkTrials يدعم الآن المعلمة early_stopping_fn ل fmin. يمكنك استخدام دالة الإيقاف المبكر لتحديد الشروط التي يجب أن يتوقف فيها Hyperopt عن ضبط المعلمات الفائقة قبل الوصول إلى الحد الأقصى لعدد التقييمات. على سبيل المثال، يمكنك استخدام هذه المعلمة لإنهاء الضبط إذا لم تعد الدالة الموضوعية تتناقص. للحصول على التفاصيل، راجع fmin().

التغييرات الرئيسية في بيئة Databricks Runtime ML Python

تمت ترقية حزم Python

  • automl 1.3.1 => 1.4.1
  • feature_store 0.3.4 => 0.3.5
  • العطلات 0.11.2 => 0.11.3.1
  • horovod 0.22.1 => 0.23.0
  • hyperopt 0.2.5.db2 => 0.2.5.db4
  • غير متوازن-تعلم 0.8.0 => 0.8.1
  • lightgbm 3.1.1 => 3.3.0
  • mlflow 1.20.2 => 1.21.0
  • petastorm 0.11.2 => 0.11.3
  • رسم 5.1.0 => 5.3.0
  • pytorch 1.9.0 => 1.9.1
  • spacy 3.1.2 => 3.1.3
  • sparkdl 2.2.0_db3 => 2.2.0_db4
  • torchvision 0.10.0 => 0.10.1
  • المحولات 4.9.2 => 4.11.3

تمت إضافة حزم Python

  • نص سريع => 0.9.2
  • tensorboard-plugin-profile => 2.5.0

عمليات الإهمال

يتم إهمال تتبع MLflow التلقائي MLlib على المجموعات التي تقوم بتشغيل Databricks Runtime 10.1 ML وما فوق. بدلا من ذلك، استخدم التسجيل التلقائي MLflow PySpark ML عن طريق استدعاء mlflow.pyspark.ml.autolog(). يتم تمكين التسجيل التلقائي بشكل افتراضي باستخدام Databricks Autologging.

بيئة النظام

تختلف بيئة النظام في Databricks Runtime 10.1 ML عن Databricks Runtime 10.1 كما يلي:

المكتبات

تسرد الأقسام التالية المكتبات المضمنة في Databricks Runtime 10.1 ML التي تختلف عن تلك المضمنة في Databricks Runtime 10.1.

في هذا القسم:

مكتبات من المستوى الأعلى

يتضمن Databricks Runtime 10.1 ML مكتبات المستوى الأعلى التالية:

مكتبات Python

يستخدم Databricks Runtime 10.1 ML Virtualenv لإدارة حزمة Python ويتضمن العديد من حزم التعلم الآلي الشائعة.

بالإضافة إلى الحزم المحددة في الأقسام التالية، يتضمن Databricks Runtime 10.1 ML أيضا الحزم التالية:

  • hyperopt 0.2.5.db4
  • sparkdl 2.2.0-db4
  • feature_store 0.3.5
  • automl 1.4.0

إشعار

يتضمن Databricks Runtime 10.1 ML إصدار scikit-learn 0.24 بدلا من الإصدار 1.0 بسبب مشكلات عدم التوافق. تتفاعل حزمة scikit-learn مع العديد من الحزم الأخرى في Databricks Runtime 10.1 ML.

يمكنك الترقية إلى scikit-learn الإصدار 1.0؛ ومع ذلك، لا يدعم Databricks هذا الإصدار.

للترقية، استخدم المكتبات ذات نطاق دفتر الملاحظات. من دفتر ملاحظات، قم بتشغيل %pip install --upgrade "scikit-learn>=1.0,<1.1".

البديل هو استخدام هذا البرنامج النصي ل init لنظام المجموعة:

#!/bin/bash

set -e

pip install --upgrade "scikit-learn>=1.0,<1.1"

مكتبات Python على مجموعات وحدة المعالجة المركزية

مكتبة إصدار مكتبة إصدار مكتبة إصدار
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) dirs 1.4.4
argon2-cffi 20.1.0 استور 0.8.1 astunparse 1.6.3
مولد غير متزامن 1.10 سلاسل السلاسل 20.3.0 تثبيت خلفي 0.2.0
bcrypt 3.2.0 بيض 3.3.0 نعيم 0.7.4
boto3 1.16.7 روبوت الدردشة 1.19.7 قوالب ذاكرة التخزين المؤقت 4.2.4
فهرس 2.0.6 شهادة 2020.12.5 cffi 1.14.5
تجزئة 4.0.0 رنه 5.0 نقر 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
تاريخ التحويل 2.3.2 التشفير 3.4.7 دورة 0.10.0
cymem 2.0.5 Cython 0.29.23 وقت تشغيل databricks-automl 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 ديكور 5.0.6
defusedxml 0.7.1 شبت 0.3.2 diskcache 5.2.1
استياء 0.3.3 معلومات توزيعية 0.23ubuntu1 نقاط الإدخال 0.3
الزوال 4.1 نظرة عامة على الواجهات 1.0.0 نص سريع 0.9.2
قفل الملف 3.0.12 Flask 1.1.2 خزائن مسطحة 1.12
fsspec 0.9.0 future 0.18.2 غاست 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
محول هجري 2.2.2 العطلات 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 التعلم غير المتوازن 0.8.1 بيانات تعريف importlib 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
عناوين ipywidgets 7.6.3 isodate 0.6.0 غير متزامن 1.1.0
jedi 0.17.2 جينجا 2 2.11.3 مسار jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver ⁦⁩⁦⁩1.3.1 الكوالا 1.8.2 تقويم قمري كوري 0.2.1
غيغابايت فاتح 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
ماكو 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 مفقود 0.5.0 سوء الحظ 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 متعدد التتبع 1.6
مورمورهاش 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
تنسيق nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.54.1
numpy 1.19.2 أواتهليب 3.1.0 opt-einsum 3.3.0
التغليف 20.9 pandas 1.2.4 جمع معلومات بانداز 3.1.0
عوامل تصفية pandocfilter 1.4.3 باراميكو 2.7.2 parso 0.7.0
مسار 0.6.0 بتسي 0.5.1 عاصفة صغيرة 0.11.3
pexpect 4.8.0 فيك 0.12.0 pickleshare 0.7.5
مخدة 8.2.0 pip 21.0.1 بشكل مخطط 5.3.0
مسبق الوشاية 3.0.5 prometheus-client 0.10.1 مجموعة أدوات المطالبة 3.0.17
نبي 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 عملية ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 وحدات pyasn1 0.2.8 pybind11 2.8.0
pycparser 2.20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
بستان 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
محرر python 1.0.4 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
الطلبات 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 شفرة 1.6.2 بحر محمول 0.11.1
Send2Trash 1.5.0 أدوات الإعداد 52.0.0 setuptools-git 1.2
shap 0.39.0 simplejson 3.17.2 ستة 1.15.0
القطاعه 0.0.7 smart-open 5.2.0 smmap 3.0.5
التباعد 3.1.3 تباعد قديم 3.0.8 موزع spark-tensorflow 1.0.0
sqlparse 0.4.1 مrsly 2.4.1 ssh-import-id 5.10
نماذج الإحصائيات 0.12.2 جدولة 0.8.7 تشابك لأعلى في unicode 0.1.0
مثابره 6.2.0 لوحة العشرات 2.6.0 خادم بيانات tensorboard 0.6.1
ملف تعريف مكون إضافي من tensorboard 2.5.0 tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0
tensorflow-estimator 2.6.0 لون المصطلحات 1.1.0 terminado 0.9.4
مسار الاختبار 0.4.4 رقيق 8.0.9 threadpoolctl 2.1.0
الرموز المميزة 0.10.3 مشعل 1.9.1+وحدة المعالجة المركزية شعلة الشعلة 0.10.1+وحدة المعالجة المركزية
اعصار 6.1 tqdm 4.59.0 سمات السمات 5.0.5
المحولات 4.11.3 typer 0.3.2 ملحقات الكتابة 3.7.4.3
ujson 4.0.2 ترقيات غير مراقبة 0.1 urllib3 1.25.11
virtualenv 20.4.1 الرؤي 0.7.4 الوسابي 0.8.2
wcwidth 0.2.5 ترميزات الويب 0.5.1 عميل websocket 0.57.0
ويركزيوغ 1.0.1 دولاب 0.36.2 عنصر واجهة المستخدم 3.5.1
ملف التفافي 1.12.1 xgboost 1.4.2 zipp 3.4.1

مكتبات Python على مجموعات GPU

مكتبة إصدار مكتبة إصدار مكتبة إصدار
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) dirs 1.4.4
argon2-cffi 20.1.0 استور 0.8.1 astunparse 1.6.3
مولد غير متزامن 1.10 سلاسل السلاسل 20.3.0 تثبيت خلفي 0.2.0
bcrypt 3.2.0 بيض 3.3.0 نعيم 0.7.4
boto3 1.16.7 روبوت الدردشة 1.19.7 قوالب ذاكرة التخزين المؤقت 4.2.4
فهرس 2.0.6 شهادة 2020.12.5 cffi 1.14.5
تجزئة 4.0.0 رنه 5.0 نقر 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
تاريخ التحويل 2.3.2 التشفير 3.4.7 دورة 0.10.0
cymem 2.0.5 Cython 0.29.23 وقت تشغيل databricks-automl 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 ديكور 5.0.6
defusedxml 0.7.1 شبت 0.3.2 diskcache 5.2.1
استياء 0.3.3 معلومات توزيعية 0.23ubuntu1 نقاط الإدخال 0.3
الزوال 4.1 نظرة عامة على الواجهات 1.0.0 نص سريع 0.9.2
قفل الملف 3.0.12 Flask 1.1.2 خزائن مسطحة 1.12
fsspec 0.9.0 future 0.18.2 غاست 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
محول هجري 2.2.2 العطلات 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 التعلم غير المتوازن 0.8.1 بيانات تعريف importlib 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
عناوين ipywidgets 7.6.3 isodate 0.6.0 غير متزامن 1.1.0
jedi 0.17.2 جينجا 2 2.11.3 مسار jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver ⁦⁩⁦⁩1.3.1 الكوالا 1.8.2 تقويم قمري كوري 0.2.1
غيغابايت فاتح 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
ماكو 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 مفقود 0.5.0 سوء الحظ 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 متعدد التتبع 1.6
مورمورهاش 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
تنسيق nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.54.1
numpy 1.19.2 أواتهليب 3.1.0 opt-einsum 3.3.0
التغليف 20.9 pandas 1.2.4 جمع معلومات بانداز 3.1.0
عوامل تصفية pandocfilter 1.4.3 باراميكو 2.7.2 parso 0.7.0
مسار 0.6.0 بتسي 0.5.1 عاصفة صغيرة 0.11.3
pexpect 4.8.0 فيك 0.12.0 pickleshare 0.7.5
مخدة 8.2.0 pip 21.0.1 بشكل مخطط 5.3.0
مسبق الوشاية 3.0.5 مجموعة أدوات المطالبة 3.0.17 نبي 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
عملية ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
وحدات pyasn1 0.2.8 pybind11 2.8.1 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 بستان 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 محرر python 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 الطلبات 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
شفرة 1.6.2 بحر محمول 0.11.1 Send2Trash 1.5.0
أدوات الإعداد 52.0.0 setuptools-git 1.2 shap 0.39.0
simplejson 3.17.2 ستة 1.15.0 القطاعه 0.0.7
smart-open 5.2.0 smmap 3.0.5 التباعد 3.1.3
تباعد قديم 3.0.8 موزع spark-tensorflow 1.0.0 sqlparse 0.4.1
مrsly 2.4.1 ssh-import-id 5.10 نماذج الإحصائيات 0.12.2
جدولة 0.8.7 تشابك لأعلى في unicode 0.1.0 مثابره 6.2.0
لوحة العشرات 2.6.0 خادم بيانات tensorboard 0.6.1 ملف تعريف مكون إضافي من tensorboard 2.5.0
tensorboard-plugin-wit 1.8.0 تدفق العشرات 2.6.0 tensorflow-estimator 2.6.0
لون المصطلحات 1.1.0 terminado 0.9.4 مسار الاختبار 0.4.4
رقيق 8.0.9 threadpoolctl 2.1.0 الرموز المميزة 0.10.3
مشعل 1.9.1+cu111 شعلة الشعلة 0.10.1+cu111 اعصار 6.1
tqdm 4.59.0 سمات السمات 5.0.5 المحولات 4.11.3
typer 0.3.2 ملحقات الكتابة 3.7.4.3 ujson 4.0.2
ترقيات غير مراقبة 0.1 urllib3 1.25.11 virtualenv 20.4.1
الرؤي 0.7.4 الوسابي 0.8.2 wcwidth 0.2.5
ترميزات الويب 0.5.1 عميل websocket 0.57.0 ويركزيوغ 1.0.1
دولاب 0.36.2 عنصر واجهة المستخدم 3.5.1 ملف التفافي 1.12.1
xgboost 1.4.2 zipp 3.4.1

حزم Spark التي تحتوي على وحدات Python

حزمة Spark وحدة Python النمطية إصدار
إطارات الرسم البياني إطارات الرسم البياني 0.8.2-db1-spark3.2

مكتبات R

مكتبات R مطابقة لمكتبات R في Databricks Runtime 10.1.

مكتبات Java وScala (مجموعة Scala 2.12)

بالإضافة إلى مكتبات Java و Scala في Databricks Runtime 10.1، يحتوي Databricks Runtime 10.1 ML على JARs التالية:

مجموعات وحدة المعالجة المركزية

معرف مجموعة معرف البيانات الاصطناعية إصدار
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow عميل mlflow 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

مجموعات GPU

معرف مجموعة معرف البيانات الاصطناعية إصدار
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1-spark3.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow عميل mlflow 1.21.0
org.mlflow mlflow-spark 1.21.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0