Databricks Runtime 5.4 ل ML (غير مدعوم)

أصدرت Databricks هذه الصورة في يونيو 2019.

يوفر Databricks Runtime 5.4 for التعلم الآلي بيئة جاهزة للاستخدام للتعلم الآلي وعلوم البيانات استنادا إلى Databricks Runtime 5.4 (غير مدعوم). يحتوي التعلم الآلي من Databricks Runtime على العديد من مكتبات التعلم الآلي الشائعة، بما في ذلك TensorFlow وPyTorch وKeras وXGBoost. كما يدعم التدريب على التعلم العميق الموزع باستخدام Horovod.

لمزيد من المعلومات، بما في ذلك إرشادات إنشاء مجموعة التعلم الآلي من Databricks Runtime، راجع الذكاء الاصطناعي التعلم الآلي على Databricks.

الميزات الجديدة

تم إنشاء Databricks Runtime 5.4 ML أعلى Databricks Runtime 5.4. للحصول على معلومات حول أحدث الميزات في Databricks Runtime 5.4، راجع ملاحظات إصدار Databricks Runtime 5.4 (غير مدعوم).

بالإضافة إلى تحديثات المكتبة، يقدم Databricks Runtime 5.4 ML الميزات الجديدة التالية:

Hyperopt الموزع + تتبع MLflow التلقائي

يقدم Databricks Runtime 5.4 ML تنفيذا جديدا ل Hyperopt مدعوما من Apache Spark لتوسيع نطاق وتبسيط ضبط hyperparameter. يتم تنفيذ فئة SparkTrials جديدة Trials لتوزيع تشغيلات Hyperopt التجريبية بين أجهزة وعقد متعددة باستخدام Apache Spark. بالإضافة إلى ذلك، يتم تسجيل جميع تجارب الضبط، جنبا إلى جنب مع المعلمات الفائقة المضبوطة والمقاييس المستهدفة، تلقائيا إلى عمليات تشغيل MLflow. راجع موازاة ضبط المعلمات الفائقة مع scikit-learn وMLflow.

هام

هذه الميزة في المعاينة العامة.

Apache Spark MLlib + تتبع MLflow التلقائي

يدعم Databricks Runtime 5.4 ML التسجيل التلقائي لتشغيلات MLflow للنماذج المناسبة باستخدام خوارزميات CrossValidator ضبط PySpark و TrainValidationSplit. راجع Apache Spark MLlib وتتبع MLflow التلقائي. تكون هذه الميزة قيد التشغيل بشكل افتراضي في Databricks Runtime 5.4 ML ولكنها كانت متوقفة عن التشغيل بشكل افتراضي في Databricks Runtime 5.3 ML.

هام

هذه الميزة في المعاينة العامة.

تحسين HorovodRunner

الإخراج المرسل من Horovod إلى عقدة برنامج تشغيل Spark مرئي الآن في خلايا دفتر الملاحظات.

تحديث حزمة XGBoost Python

تم تثبيت حزمة XGBoost Python 0.80.

بيئة النظام

تختلف بيئة النظام في Databricks Runtime 5.4 ML عن Databricks Runtime 5.4 كما يلي:

المكتبات

تسرد الأقسام التالية المكتبات المضمنة في Databricks Runtime 5.4 ML التي تختلف عن تلك المضمنة في Databricks Runtime 5.4.

مكتبات من المستوى الأعلى

يتضمن Databricks Runtime 5.4 ML مكتبات المستوى الأعلى التالية:

مكتبات Python

يستخدم Databricks Runtime 5.4 ML Conda لإدارة حزمة Python. ونتيجة لذلك، هناك اختلافات كبيرة في مكتبات Python المثبتة مقارنة بوقت تشغيل Databricks. فيما يلي قائمة كاملة بحزم Python المتوفرة والإصدارات المثبتة باستخدام إدارة حزم Conda.

مكتبة إصدار مكتبة إصدار مكتبة إصدار
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
استور 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 التبييض 2.1.3
boto 2.48.0 boto3 1.7.62 روبوت الدردشة 1.10.62
شهادة 2018.04.16 cffi 1.11.5 تجزئة 3.0.4
cloudpickle 0.5.3 سمة ملونة 0.3.9 configparser 3.5.0
التشفير 2.2.2 دورة 0.10.0 Cython 0.28.2
ديكور 4.3.0 docutils 0.14 نقاط الإدخال 0.2.3
قائمة تعداد 34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 صمام مدمج 2.0.4 future 0.17.1
العقود الاجله 3.2.0 غاست 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2.6 Ipaddress 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
جينجا 2 2.10 مسار jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 العلامات خزينة 1.0 matplotlib 2.2.2
سوء الحظ 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 وهميه 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 تنسيق nbformat 4.4.0 networkx 2.2
nose 1.3.7 استبعاد الأنف 0.5.0 numba 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
pandas 0.23.0 عوامل تصفية pandocfilter 1.4.2 باراميكو 2.4.1
pathlib2 2.3.2 باتسي 0.5.0 Pbr 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 وساده 5.1.0
pip 10.0.1 رقائق 3.11 مجموعة أدوات المطالبة 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
عملية ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5.1 pyzmq 17.0.0
الطلبات 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 شفرة 1.1.0 بحر محمول 0.8.1
أدوات الإعداد 39.1.0 إنشاء بسيط 0.8.1 أحادي الموضع 3.4.0.3
ستة 1.11.0 نماذج الإحصائيات 0.9.0 العملية الفرعية32 3.5.4
لوحة العشرات 1.12.2 tensorboardX 1.6 تدفق العشرات 1.12.0
لون المصطلحات 1.1.0 مسار الاختبار 0.3.1 الشعله 0.4.1
شعلة الشعلة 0.2.1 اعصار 5.0.2 tqdm 4.32.1
traceback2 1.4.0 سمات السمات 4.3.2 unittest2 1.1.0
urllib3 1.22 virtualenv 16.0.0 wcwidth 0.1.7
ترميزات الويب 0.5.1 ويركزيوغ 0.14.1 عجله 0.31.1
ملف التفافي 1.10.11 wsgiref 0.1.2

بالإضافة إلى ذلك، تتضمن حزم Spark التالية وحدات Python النمطية:

حزمة Spark وحدة Python النمطية إصدار
إطارات الرسم البياني إطارات الرسم البياني 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db3-spark2.4
إطارات العشرات إطارات العشرات 0.6.0-s_2.11

مكتبات R

مكتبات R مطابقة لمكتبات R في Databricks Runtime 5.4.

مكتبات Java وScala (مجموعة Scala 2.11)

بالإضافة إلى مكتبات Java و Scala في Databricks Runtime 5.4، يحتوي Databricks Runtime 5.4 ML على JARs التالية:

معرف مجموعة معرف البيانات الاصطناعية إصدار
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow تدفق libtensor 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow تدفق العشرات 1.12.0
org.tensorframes إطارات العشرات 0.6.0-s_2.11