Выпуск Databricks Runtime 5.4 для Машинного обучения (не поддерживается)

Этот образ Databricks выпущен в июне 2019 г.

Выпуск Databricks Runtime 5.4 для Машинного обучения — это готовая среда для машинного обучения, обработки и анализа данных на основе Databricks Runtime 5.4 (не поддерживается). Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch, Keras и XGBoost. Эта среда также поддерживает распределенное глубокое обучение с использованием Horovod.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в разделе Databricks Runtime для Машинного обучения.

новые функции;

В основе Databricks Runtime 5.4 ML лежит Databricks Runtime 5.4. Сведения о новых возможностях Databricks Runtime 5.4 см. в заметках о выпуске Databricks Runtime 5.4 (не поддерживается).

Помимо обновлений библиотек, Databricks Runtime 5.4 ML включает следующие новые функции:

Распределенный Hyperopt и автоматизированное отслеживание MLflow

В Databricks Runtime 5.4 ML появилась новая реализация Hyperopt на платформе Apache Spark для масштабирования и упрощения настройки гиперпараметров. Реализован новый класс Trials (SparkTrials) для распределения запусков экспериментов Hyperopt между несколькими компьютерами и узлами с помощью Apache Spark. Кроме того, все эксперименты по настройке, а также настроенные гиперпараметры и целевые метрики автоматически регистрируются в запусках MLflow. См. статью Параллельная настройка гиперпараметров с помощью scikit-learn и MLflow.

Важно!

Эта функция предоставляется в режиме общедоступной предварительной версии.

Apache Spark MLlib и автоматизированное отслеживание MLflow

Databricks Runtime 5.4 ML поддерживает автоматическое ведение журнала запусков MLflow для моделей, адаптированных с использованием алгоритмов настройки PySpark CrossValidator и TrainValidationSplit. См. Apache Spark MLlib и автоматизированное отслеживание MLflow. Эта функция включена по умолчанию в Databricks Runtime 5.4 ML, но была по умолчанию отключена в версии Databricks Runtime 5.3 ML.

Важно!

Эта функция предоставляется в режиме общедоступной предварительной версии.

Улучшение HorovodRunner

Выходные данные, отправленные из Horovod на узел драйвера Spark, теперь отображаются в ячейках записной книжки.

Обновление пакета Python для XGBoost

Установлен пакет Python для XGBoost версии 0.80.

Системная среда

Ниже описаны отличия системной среды в Databricks Runtime 5.4 ML от Databricks Runtime 5.4.

  • Python: 2.7.15 для кластеров Python 2 и 3.6.5 для кластеров Python 3.
  • DBUtils: Databricks Runtime 5.4 ML не включает программу библиотеки (dbutils.library).
  • Для кластеров GPU — следующие библиотеки GPU для NVIDIA:
    • Драйвер Tesla 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Библиотеки

В следующих разделах перечислены библиотеки, входящие в состав Databricks Runtime 5.4 ML и отличающиеся от тех, что входят в состав Databricks Runtime 5.4.

Библиотеки верхнего уровня

Databricks Runtime 5.4 ML включает следующие библиотеки верхнего уровня:

Библиотеки Python

Для управления пакетами Python Databricks Runtime 5.4 ML использует Conda. В результате существуют значительные различия в установленных библиотеках Python по сравнению с Databricks Runtime. Ниже приведен полный список пакетов и версий Python, установленных с помощью диспетчера пакетов Conda.

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
шифрование 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 future 0.17.1
фьючерсы 3.2.0 gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2.6 ipaddress 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2.10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1,0 matplotlib 2.2.2
mistune 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 mock 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 networkx 2.2
nose 1.3.7 nose-exclude 0.5.0 numba 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 patsy 0.5.0 pbr 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Pillow 5.1.0
pip 10.0.1 ply 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5,1 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1,7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
six 1.11.0 statsmodels 0.9.0 subprocess32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 tqdm 4.32.1
traceback2 1.4.0 traitlets 4.3.2 unittest2 1.1.0
urllib3 1,22 virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 wheel 0.31.1
wrapt 1.10.11 wsgiref 0.1.2

Кроме того, модули Python включены в следующие пакеты Spark:

Пакет Spark Модуль Python Версия
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 5.4.

Библиотеки Java и Scala (кластер Scala 2.11)

Помимо библиотек Java и Scala в Databricks Runtime 5.4, среда Databricks Runtime 5.4 ML также включает следующие пакеты JAR:

Идентификатор группы. Идентификатор артефакта Версия
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11