Databricks Runtime 5.4 для машинного обучения (неподдерживаемый)

Этот образ Databricks выпущен в июне 2019 г.

Databricks Runtime 5.4 для Машинное обучение предоставляет готовую среду для машинного обучения и обработки и анализа данных на основе Databricks Runtime 5.4 (неподдерживаемый). Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch, Keras и XGBoost. Эта среда также поддерживает распределенное глубокое обучение с использованием Horovod.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и Машинное обучение в Databricks.

Новые возможности

В основе Databricks Runtime 5.4 ML лежит Databricks Runtime 5.4. Дополнительные сведения о новых возможностях Databricks Runtime 5.4 см. в заметках о выпуске Databricks Runtime 5.4 (неподдерживаемых).

Помимо обновлений библиотек, Databricks Runtime 5.4 ML включает следующие новые функции:

Распределенный Hyperopt и автоматизированное отслеживание MLflow

В Databricks Runtime 5.4 ML появилась новая реализация Hyperopt на платформе Apache Spark для масштабирования и упрощения настройки гиперпараметров. Реализован новый класс Trials (SparkTrials) для распределения запусков экспериментов Hyperopt между несколькими компьютерами и узлами с помощью Apache Spark. Кроме того, все эксперименты по настройке, а также настроенные гиперпараметры и целевые метрики автоматически регистрируются в запусках MLflow. См. статью Параллельная настройка гиперпараметров с помощью scikit-learn и MLflow.

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Apache Spark MLlib и автоматизированное отслеживание MLflow

Databricks Runtime 5.4 ML поддерживает автоматическое ведение журнала запусков MLflow для моделей, адаптированных с использованием алгоритмов настройки PySpark CrossValidator и TrainValidationSplit. См. Apache Spark MLlib и автоматизированное отслеживание MLflow. Эта функция включена по умолчанию в Databricks Runtime 5.4 ML, но была по умолчанию отключена в версии Databricks Runtime 5.3 ML.

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Улучшение HorovodRunner

Выходные данные, отправленные из Horovod на узел драйвера Spark, теперь отображаются в ячейках записной книжки.

Обновление пакета Python для XGBoost

Установлен пакет Python для XGBoost версии 0.80.

Системная среда

Ниже описаны отличия системной среды в Databricks Runtime 5.4 ML от Databricks Runtime 5.4.

Библиотеки

В следующих разделах перечислены библиотеки, входящие в состав Databricks Runtime 5.4 ML и отличающиеся от тех, что входят в состав Databricks Runtime 5.4.

Библиотеки верхнего уровня

Databricks Runtime 5.4 ML включает следующие библиотеки верхнего уровня:

Библиотеки Python

Для управления пакетами Python Databricks Runtime 5.4 ML использует Conda. В результате существуют значительные различия в установленных библиотеках Python по сравнению с Databricks Runtime. Ниже приведен полный список пакетов и версий Python, установленных с помощью диспетчера пакетов Conda.

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
Криптографии 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0,14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 будущее 0.17.1
фьючерсы 3.2.0 gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2.6 ipaddress 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2,10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
mistune 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 mock 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 networkx 2,2
nose 1.3.7 nose-exclude 0.5.0 numba 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 patsy 0.5.0 pbr 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Pillow 5.1.0
pip 10.0.1 ply 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5.1 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1,7
scikit-learn 0.19.1 scipy 1.1.0 Сиборн 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
six 1.11.0 statsmodels 0.9.0 subprocess32 3.5.4
tensorboard 1.12.2 tensorboardX 1,6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 tqdm 4.32.1
traceback2 1.4.0 traitlets 4.3.2 unittest2 1.1.0
urllib3 1.22 virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 wheel 0.31.1
wrapt 1.10.11 wsgiref 0.1.2

Кроме того, модули Python включены в следующие пакеты Spark:

Пакет Spark Модуль Python Версия
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 5.4.

Библиотеки Java и Scala (кластер Scala 2.11)

Помимо библиотек Java и Scala в Databricks Runtime 5.4, среда Databricks Runtime 5.4 ML также включает следующие пакеты JAR:

ИД группы Идентификатор артефакта Версия
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0,81
ml.dmlc xgboost4j-spark 0,81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11