Databricks Runtime 9.1 LTS for التعلم الآلي

أصدرت Databricks هذه الصورة وأعلنت أنها دعم طويل الأجل (LTS) في سبتمبر 2021.

يوفر Databricks Runtime 9.1 LTS for التعلم الآلي بيئة جاهزة للاستخدام للتعلم الآلي وعلوم البيانات استنادا إلى Databricks Runtime 9.1 LTS. يحتوي التعلم الآلي من Databricks Runtime على العديد من مكتبات التعلم الآلي الشائعة، بما في ذلك TensorFlow وPyTorch وXGBoost. يتضمن التعلم الآلي من Databricks Runtime AutoML، وهي أداة لتدريب مسارات التعلم الآلي تلقائيا. يدعم التعلم الآلي من Databricks Runtime أيضا التدريب على التعلم العميق الموزع باستخدام Horovod.

إشعار

LTS يعني أن هذا الإصدار تحت الدعم طويل الأجل. راجع دورة حياة إصدار Databricks Runtime LTS.

لمزيد من المعلومات، بما في ذلك إرشادات إنشاء مجموعة التعلم الآلي من Databricks Runtime، راجع الذكاء الاصطناعي التعلم الآلي على Databricks.

ميزات وتحسينات جديدة

AutoML

تتوفر التحسينات التالية في Databricks Runtime 9.1 LTS ML وما فوق.

يدعم AutoML مجموعات البيانات الأكبر حجما عن طريق أخذ العينات

يقوم AutoML الآن بنماذج مجموعات البيانات التي قد تتجاوز قيود الذاكرة، ما يسمح بتشغيلها على مجموعات بيانات أكبر مع مخاطر أقل لأخطاء نفاد الذاكرة. للحصول على التفاصيل، راجع أخذ عينات مجموعات البيانات الكبيرة.

المعالجة المسبقة ل AutoML للأعمدة استنادا إلى النوع الدلالي

يكتشف AutoML أعمدة معينة لها نوع دلالي يختلف عن نوع بيانات Spark أو pandas. يقوم AutoML بعد ذلك بتحويل خطوات المعالجة المسبقة للبيانات وتطبيقها استنادا إلى النوع الدلالي المكتشف. على وجه التحديد، يقوم AutoML بإجراء التحويلات التالية:

  • يتم تحويل أعمدة السلسلة والعدد الصحيح التي تمثل بيانات التاريخ أو الطابع الزمني إلى نوع طابع زمني.
  • يتم تحويل أعمدة السلسلة التي تمثل البيانات الرقمية إلى نوع رقمي.

تحسينات على دفاتر الملاحظات التي تم إنشاؤها بواسطة AutoML

يتم الآن تضمين خطوات المعالجة المسبقة لأعمدة التاريخ والطابع الزمني في الحزمة databricks-automl-runtime ، مما يبسط دفاتر الملاحظات التي تم إنشاؤها بواسطة تدريب AutoML. databricks-automl-runtime مضمن في Databricks Runtime 9.1 LTS ML وما فوق، وهو متاح أيضا على PyPI.

مخزن الميزات

تتوفر التحسينات التالية في Databricks Runtime 9.1 LTS ML وما فوق.

  • عند إنشاء TrainingSet، يمكنك الآن تعيين label=None لدعم تطبيقات التعلم غير الخاضعة للإشراف.
  • يمكنك الآن تحديد أكثر من ميزة واحدة في .FeatureLookup
  • يمكنك الآن تحديد مسار مخصص لجداول الميزات. استخدم المعلمة path في create_feature_table(). الإعداد الافتراضي هو موقع قاعدة البيانات.
  • أنواع بيانات PySpark المدعومة الجديدة: ArrayType و ShortType.

تدفق التعلم الآلي

تتوفر التحسينات التالية بدءا من Mlflow الإصدار 1.20.2، المضمن في Databricks Runtime 9.1 LTS ML.

  • يسجل التسجيل التلقائي ل scikit-learn الآن مقاييس ما بعد التدريب كلما تم استدعاء واجهة برمجة تطبيقات تقييم scikit-learn، مثل sklearn.metrics.mean_squared_error، .
  • يسجل التسجيل التلقائي ل PySpark ML الآن مقاييس ما بعد التدريب كلما تم استدعاء واجهة برمجة تطبيقات لتقييم النموذج، مثل Evaluator.evaluate()، .
  • mlflow.*.log_model والآن mlflow.*.save_model لديك pip_requirements وسيطات و extra_pip_requirements بحيث يمكنك تحديد متطلبات النقطة للنموذج مباشرة لتسجيل أو حفظ.
  • mlflow.*.log_model والآن mlflow.*.save_model يستنتج تلقائيا متطلبات النقطة للنموذج لتسجيل أو حفظ استنادا إلى بيئة البرنامج الحالية.
  • stdMetrics يتم الآن تسجيل الإدخالات كمقاييس تدريب أثناء التسجيل التلقائي ل PySpark CrossValidator.
  • يدعم التسجيل التلقائي ل PyTorch Lightning الآن التنفيذ الموزع.

Databricks Autologging (معاينة عامة)

تم توسيع المعاينة العامة للسجل التلقائي ل Databricks إلى مناطق جديدة. Databricks Autologging هو حل بدون تعليمات برمجية يوفر تتبعا تلقائيا للتجربة لجلسات التدريب على التعلم الآلي على Azure Databricks. باستخدام Databricks Autologging، يتم التقاط معلمات النموذج والمقاييس والملفات ومعلومات دورة حياة البيانات تلقائيا عند تدريب النماذج من مجموعة متنوعة من مكتبات التعلم الآلي الشائعة. يتم تسجيل جلسات التدريب ك MLflow Tracking Runs. يتم أيضا تعقب ملفات النموذج حتى تتمكن من تسجيلها بسهولة إلى سجل نموذج MLflow ونشرها لتسجيل النقاط في الوقت الحقيقي باستخدام MLflow Model Serving.

لمزيد من المعلومات حول Databricks Autologging، راجع Databricks Autologging.

التغييرات الرئيسية في بيئة Databricks Runtime ML Python

تمت ترقية حزم Python

  • automl 1.1.1 => 1.2.1
  • feature_store 0.3.3 => 0.3.4.1
  • العطلات 0.10.5.2 => 0.11.2
  • keras 2.5.0 => 2.6.0
  • mlflow 1.19.0 => 1.20.2
  • petastorm 0.11.1 => 0.11.2
  • رسم 4.14.3 => 5.1.0
  • spark-tensorflow-distributor 0.1.0 => 1.0.0
  • 2.2.0_db1 sparkdl => 2.2.0_db3
  • tensorboard 2.5.0 => 2.6.0
  • tensorflow 2.5.0 => 2.6.0

تمت إضافة حزم Python

  • databricks-automl-runtime 0.1.0

بيئة النظام

تختلف بيئة النظام في Databricks Runtime 9.1 LTS ML عن Databricks Runtime 9.1 LTS كما يلي:

المكتبات

تسرد الأقسام التالية المكتبات المضمنة في Databricks Runtime 9.1 LTS ML التي تختلف عن تلك المضمنة في Databricks Runtime 9.1 LTS.

في هذا القسم:

مكتبات من المستوى الأعلى

يتضمن Databricks Runtime 9.1 LTS ML مكتبات الطبقة العليا التالية:

مكتبات Python

يستخدم Databricks Runtime 9.1 LTS ML Virtualenv لإدارة حزمة Python ويتضمن العديد من حزم التعلم الآلي الشائعة.

بالإضافة إلى الحزم المحددة في الأقسام التالية، يتضمن Databricks Runtime 9.1 LTS ML أيضا الحزم التالية:

  • hyperopt 0.2.5.db2
  • 2.2.0_db3 sparkdl
  • feature_store 0.3.4.1
  • automl 1.2.1

مكتبات Python على مجموعات وحدة المعالجة المركزية

مكتبة إصدار مكتبة إصدار مكتبة إصدار
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) dirs 1.4.4
argon2-cffi 20.1.0 استور 0.8.1 astunparse 1.6.3
مولد غير متزامن 1.10 سلاسل السلاسل 20.3.0 تثبيت خلفي 0.2.0
bcrypt 3.2.0 التبييض 3.3.0 boto3 1.16.7
روبوت الدردشة 1.19.7 عنق الزجاجه 1.3.2 قوالب ذاكرة التخزين المؤقت 4.2.2
شهادة 2020.12.5 cffi 1.14.5 تجزئة 4.0.0
رنه 5.0 انقر فوق 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 تاريخ التحويل 2.3.2
التشفير 3.4.7 دورة 0.10.0 Cython 0.29.23
وقت تشغيل databricks-automl 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
ديكور 5.0.6 defusedxml 0.7.1 الشبت 0.3.2
diskcache 5.2.1 استياء 0.3.2 معلومات توزيعية 0.23ubuntu1
نقاط الإدخال 0.3 الزوال 4.0.0.2 نظرة عامة على الواجهات 1.0.0
قفل الملف 3.0.12 Flask 1.1.2 خزائن مسطحة 1.12
fsspec 0.9.0 future 0.18.2 غاست 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 محول هجري 2.2.1
العطلات 0.11.2 horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 بيانات تعريف importlib 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
عناوين ipywidgets 7.6.3 isodate 0.6.0 غير متزامن 1.1.0
جدي 0.17.2 جينجا 2 2.11.3 مسار jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver ⁦⁩⁦⁩1.3.1 الكوالا 1.8.1 تقويم قمري كوري 0.2.1
غيغابايت فاتح 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
ماكو 1.1.3 Markdown 3.3.3 العلامات خزينة 1.1.1
matplotlib 3.4.2 مفقود 0.5.0 سوء الحظ 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 متعدد التتبع 1.4
nbclient 0.5.3 nbconvert 6.0.7 تنسيق nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
notebook 6.3.0 numba 0.54.0 numpy 1.19.2
أواتهليب 3.1.0 opt-einsum 3.3.0 التغليف 20.9
pandas 1.2.4 جمع معلومات بانداز 3.0.0 عوامل تصفية pandocfilter 1.4.3
باراميكو 2.7.2 parso 0.7.0 باتسي 0.5.1
عاصفة صغيرة 0.11.2 pexpect 4.8.0 فيك 0.12.0
pickleshare 0.7.5 وساده 8.2.0 pip 21.0.1
بشكل مخطط 5.1.0 prometheus-client 0.10.1 مجموعة أدوات المطالبة 3.0.17
النبي 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 عملية ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 وحدات pyasn1 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 بستان 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 محرر python 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 رجاكس 2021.4.4 الطلبات 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 scikit-learn 0.24.1 شفرة 1.6.2
بحر محمول 0.11.1 Send2Trash 1.5.0 أدوات الإعداد 52.0.0
setuptools-git 1.2 shap 0.39.0 simplejson 3.17.2
ستة 1.15.0 القطاعه 0.0.7 smmap 3.0.5
موزع spark-tensorflow 1.0.0 sqlparse 0.4.1 ssh-import-id 5.10
نماذج الإحصائيات 0.12.2 جدولة 0.8.7 تشابك لأعلى في unicode 0.1.0
مثابره 6.2.0 لوحة العشرات 2.6.0 خادم بيانات tensorboard 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0 tensorflow-estimator 2.6.0
لون المصطلحات 1.1.0 terminado 0.9.4 مسار الاختبار 0.4.4
threadpoolctl 2.1.0 الشعله 1.9.0+cpu شعلة الشعلة 0.10.0+cpu
اعصار 6.1 tqdm 4.59.0 سمات السمات 5.0.5
ملحقات الكتابة 3.7.4.3 ujson 4.0.2 ترقيات غير مراقبة 0.1
urllib3 1.25.11 virtualenv 20.4.1 الرؤي 0.7.1
wcwidth 0.2.5 ترميزات الويب 0.5.1 عميل websocket 0.57.0
ويركزيوغ 1.0.1 عجله 0.36.2 عنصر واجهة المستخدم 3.5.1
ملف التفافي 1.12.1 xgboost 1.4.2 zipp 3.4.1

مكتبات Python على مجموعات GPU

مكتبة إصدار مكتبة إصدار مكتبة إصدار
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) dirs 1.4.4
argon2-cffi 20.1.0 استور 0.8.1 astunparse 1.6.3
مولد غير متزامن 1.10 سلاسل السلاسل 20.3.0 تثبيت خلفي 0.2.0
bcrypt 3.2.0 التبييض 3.3.0 boto3 1.16.7
روبوت الدردشة 1.19.7 عنق الزجاجه 1.3.2 قوالب ذاكرة التخزين المؤقت 4.2.2
شهادة 2020.12.5 cffi 1.14.5 تجزئة 4.0.0
رنه 5.0 انقر فوق 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 تاريخ التحويل 2.3.2
التشفير 3.4.7 دورة 0.10.0 Cython 0.29.23
وقت تشغيل databricks-automl 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
ديكور 5.0.6 defusedxml 0.7.1 الشبت 0.3.2
diskcache 5.2.1 استياء 0.3.2 معلومات توزيعية 0.23ubuntu1
نقاط الإدخال 0.3 الزوال 4.0.0.2 نظرة عامة على الواجهات 1.0.0
قفل الملف 3.0.12 Flask 1.1.2 خزائن مسطحة 1.12
fsspec 0.9.0 future 0.18.2 غاست 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 محول هجري 2.2.1
العطلات 0.11.2 horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 بيانات تعريف importlib 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
عناوين ipywidgets 7.6.3 isodate 0.6.0 غير متزامن 1.1.0
جدي 0.17.2 جينجا 2 2.11.3 مسار jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver ⁦⁩⁦⁩1.3.1 الكوالا 1.8.1 تقويم قمري كوري 0.2.1
غيغابايت فاتح 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
ماكو 1.1.3 Markdown 3.3.3 العلامات خزينة 1.1.1
matplotlib 3.4.2 مفقود 0.5.0 سوء الحظ 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 متعدد التتبع 1.4
nbclient 0.5.3 nbconvert 6.0.7 تنسيق nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
notebook 6.3.0 numba 0.54.0 numpy 1.19.2
أواتهليب 3.1.0 opt-einsum 3.3.0 التغليف 20.9
pandas 1.2.4 جمع معلومات بانداز 3.0.0 عوامل تصفية pandocfilter 1.4.3
باراميكو 2.7.2 parso 0.7.0 باتسي 0.5.1
عاصفة صغيرة 0.11.2 pexpect 4.8.0 فيك 0.12.0
pickleshare 0.7.5 وساده 8.2.0 pip 21.0.1
بشكل مخطط 5.1.0 مجموعة أدوات المطالبة 3.0.17 النبي 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
عملية ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
وحدات pyasn1 0.2.8 pycparser 2.20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 بستان 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 محرر python 1.0.4 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
رجاكس 2021.4.4 الطلبات 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 Rsa 4.7.2 s3transfer 0.3.7
scikit-learn 0.24.1 شفرة 1.6.2 بحر محمول 0.11.1
Send2Trash 1.5.0 أدوات الإعداد 52.0.0 setuptools-git 1.2
shap 0.39.0 simplejson 3.17.2 ستة 1.15.0
القطاعه 0.0.7 smmap 3.0.5 موزع spark-tensorflow 1.0.0
sqlparse 0.4.1 ssh-import-id 5.10 نماذج الإحصائيات 0.12.2
جدولة 0.8.7 تشابك لأعلى في unicode 0.1.0 مثابره 6.2.0
لوحة العشرات 2.6.0 خادم بيانات tensorboard 0.6.1 tensorboard-plugin-wit 1.8.0
تدفق العشرات 2.6.0 tensorflow-estimator 2.6.0 لون المصطلحات 1.1.0
terminado 0.9.4 مسار الاختبار 0.4.4 threadpoolctl 2.1.0
الشعله 1.9.0+cu111 شعلة الشعلة 0.10.0+cu111 اعصار 6.1
tqdm 4.59.0 سمات السمات 5.0.5 ملحقات الكتابة 3.7.4.3
ujson 4.0.2 ترقيات غير مراقبة 0.1 urllib3 1.25.11
virtualenv 20.4.1 الرؤي 0.7.1 wcwidth 0.2.5
ترميزات الويب 0.5.1 عميل websocket 0.57.0 ويركزيوغ 1.0.1
عجله 0.36.2 عنصر واجهة المستخدم 3.5.1 ملف التفافي 1.12.1
xgboost 1.4.2 zipp 3.4.1

حزم Spark التي تحتوي على وحدات Python

حزمة Spark وحدة Python النمطية إصدار
إطارات الرسم البياني إطارات الرسم البياني 0.8.1-db3-spark3.1

مكتبات R

مكتبات R مطابقة لمكتبات R في Databricks Runtime 9.1 LTS.

مكتبات Java وScala (مجموعة Scala 2.12)

بالإضافة إلى مكتبات Java و Scala في Databricks Runtime 9.1 LTS، يحتوي Databricks Runtime 9.1 LTS ML على JARs التالية:

مجموعات وحدة المعالجة المركزية

معرف مجموعة معرف البيانات الاصطناعية إصدار
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow عميل mlflow 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

مجموعات GPU

معرف مجموعة معرف البيانات الاصطناعية إصدار
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow عميل mlflow 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0