Поделиться через


Databricks Runtime 5.3 ML (EoS)

Примечание.

Поддержка этой версии databricks Runtime закончилась. Сведения о дате окончания поддержки см . в журнале завершения поддержки. Все поддерживаемые версии среды выполнения Databricks см. в заметках о выпуске Databricks Runtime и совместимости.

Databricks выпустила эту версию в апреле 2019 года.

Databricks Runtime 5.3 ML предоставляет готовую среду для машинного обучения и обработки и анализа данных на основе Databricks Runtime 5.3 (EoS). Databricks Runtime для Машинного обучения содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch, Keras и XGBoost. Эта среда также поддерживает распределенное глубокое обучение с использованием Horovod.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и машинное обучение в Databricks.

Новые возможности

В основе Databricks Runtime 5.3 ML лежит Databricks Runtime 5.3. Сведения о новых возможностях Databricks Runtime 5.3 см. в заметках о выпуске Databricks Runtime 5.3 (EoS). Помимо обновлений библиотек, Databricks Runtime 5.3 ML включает следующие новые функции:

  • Интеграция Apache Spark MLlib + MLflow: Databricks Runtime 5.3 ML поддерживает автоматическое ведение журнала запусков MLflow для моделей, адаптированных с использованием алгоритмов настройки PySpark CrossValidator и TrainValidationSplit.

    Внимание

    Доступна закрытая предварительная версия этой функции. Обратитесь к торговому представителям Azure Databricks, чтобы узнать о его включении.

  • Обновляет следующие библиотеки до последней версии:

    • Обновление PyArrow с 0.8.0 до 0.12.1: BinaryType поддерживается посредством преобразования на основе Arrow и может использоваться в PandaUDF.
    • Horovod с 0.15.2 до 0.16.0.
    • TensorboardX с 1.4 до 1.6.

API экспорта модели Databricks ML не рекомендуется использовать. Azure Databricks рекомендует использовать вместо него MLeap, который обеспечивает более широкий охват типов моделей MLlib. Дополнительные сведения см. в модели экспорта MLeap ML.

Примечание.

Кроме того, Databricks Runtime 5.3 содержит новое подключение FUSE, оптимизированное для загрузки данных, создания контрольных точек модели и ведения журнала каждой рабочей роли в общую папку хранилища file:/dbfs/ml, которая обеспечивает высокопроизводительные операции ввода-вывода для рабочих нагрузок глубокого обучения. Сведения о загрузке данных для машинного обучения и глубокого обучения.

Обновления в рамках обслуживания

См. Служебные обновления Databricks Runtime 5.4 ML.

Системная среда

Ниже описаны отличия системной среды в Databricks Runtime 5.3 ML от Databricks Runtime 5.3.

Библиотеки

В следующих разделах перечислены библиотеки, входящие в состав Databricks Runtime 5.3 ML и отличающиеся от тех, что входят в состав Databricks Runtime 5.3.

Библиотеки верхнего уровня

Databricks Runtime 5.3 ML включает следующие библиотеки верхнего уровня:

Библиотеки Python

Для управления пакетами Python Databricks Runtime 5.3 ML использует Conda. В результате существуют значительные различия в предустановленных библиотеках Python по сравнению с Databricks Runtime. Ниже приведен полный список пакетов и версий Python, установленных с помощью диспетчера пакетов Conda.

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 0.7.0 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
криптография 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0,14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 фьючерсы 3.2.0
gast 0.2.2 grpcio 1.12.1 h5py 2.8.0
horovod 0.16.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2,10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psutil 5.6.0
psycopg2 2.7.5 ptyprocess 0.5.2 pyarrow 0.12.1
pyasn1 0.4.5 pycparser 2.18 Pygments 2.2.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 3.12 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1,7
scikit-learn 0.19.1 scipy 1.1.0 мореборн 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
six 1.11.0 statsmodels 0.9.0 subprocess32 3.5.3
tensorboard 1.12.2 tensorboardX 1,6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 traceback2 1.4.0
traitlets 4.3.2 unittest2 1.1.0 urllib3 1.22
virtualenv 16.0.0 wcwidth 0.1.7 webencodings 0.5.1
Werkzeug 0.14.1 wheel 0.31.1 wrapt 1.10.11
wsgiref 0.1.2

Кроме того, модули Python включены в следующие пакеты Spark:

Пакет Spark Модуль Python Версия
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db1-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 5.3.

Библиотеки Java и Scala (кластер Scala 2.11)

Помимо библиотек Java и Scala в Databricks Runtime 5.3, среда Databricks Runtime 5.3 ML также включает следующие пакеты JAR:

ИД группы Идентификатор артефакта Версия
com.databricks spark-deep-learning 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0,81
ml.dmlc xgboost4j-spark 0,81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11