Sdílet prostřednictvím


Databricks Runtime 5.2 ML

Databricks vydala tuto verzi v lednu 2019.

Databricks Runtime 5.2 ML poskytuje připravené prostředí pro strojové učení a datové vědy založené na databricks Runtime 5.2 (EoS). Databricks Runtime pro ML obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch, Keras a XGBoost. Podporuje také distribuované trénování TensorFlow pomocí Horovodu.

Další informace, včetně pokynů k vytvoření clusteru Databricks Runtime ML, najdete v tématu AI a strojové učení v Databricks.

Nové funkce

Databricks Runtime 5.2 ML je postaven na Databricks Runtime 5.2. Informace o novinkách v Databricks Runtime 5.2 najdete ve zprávě k vydání verze Databricks Runtime 5.2 (EoS ). Kromě aktualizací knihoven zavádí Databricks Runtime 5.2 ML následující nové funkce:

  • GraphFrames teď podporuje rozhraní Pregel API (Python) s optimalizací výkonu Databricks.
  • HorovodRunner přidává:
    • V clusteru GPU se procesy trénování mapují na GPU místo pracovních uzlů, aby se zjednodušila podpora typů instancí s více GPU. Tato integrovaná podpora umožňuje distribuovat do všech GPU na počítači s více GPU bez vlastního kódu.
    • HorovodRunner.run() nyní vrátí vrácenou hodnotu z prvního trénovacího procesu.

Poznámka:

Verze Databricks Runtime ML vyzvednou všechny aktualizace údržby základní verze Databricks Runtime. Seznam všech aktualizací údržby najdete v tématu Aktualizace údržby pro Databricks Runtime (archivováno).

Prostředí systému

Systémové prostředí v Databricks Runtime 5.2 ML se liší od Databricks Runtime 5.2 následujícím způsobem:

  • Python: 2.7.15 pro clustery Python 2 a 3.6.5 pro clustery Python 3.
  • DBUtils: Databricks Runtime 5.2 ML neobsahuje nástroj knihovny (dbutils.library) (starší verze).
  • Pro clustery GPU následující knihovny NVIDIA GPU:
    • Ovladač Tesla 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Knihovny

Následující části obsahují seznam knihoven zahrnutých v Databricks Runtime 5.2 ML, které se liší od knihoven zahrnutých v Databricks Runtime 5.2.

Knihovny Pythonu

Databricks Runtime 5.2 ML používá Ke správě balíčků Pythonu Conda. V důsledku toho existují hlavní rozdíly v předinstalovaných knihovnách Pythonu v porovnání s modulem Databricks Runtime. Následuje úplný seznam poskytnutých balíčků a verzí Pythonu nainstalovaných pomocí Správce balíčků Conda.

Knihovna Verze Knihovna Verze Knihovna Verze
absl-py 0.6.1 argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 šifra 3.1.5 bělit 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
kryptografie 2.2.2 cyklista 0.10.0 Cython 0.28.2
dekoratér 4.3.0 docutils 0,14 vstupní body 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 budoucnosti 3.2.0
Gast 0.2.0 grpcio 1.12.1 h5py 2.8.0
horovod 0.15.2 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2.10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Předběžné zpracování Kerasu 1.0.5
verizonsolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 špatně zamyšlení 0.8.3 mleap 0.8.1
zesměšňovat 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nos 1.3.7 vyloučení nosu 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 bábovka 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Polštář 5.1.0 jádro 10.0.1 dýha 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.8.0 pyasn1 0.4.4
pycparser 2.18 Pygments 2.2.0 PyNaCl 1.3.0
pyOpenSSL 18.0.0 pyparsing 2.2.0 PySocks 1.6.8
Python 2.7.15 python-dateutil 2.7.3 pytz 2018.4
PyYAML 3.12 pyzmq 17.0.0 žádosti 2.18.4
s3transfer 0.1.13 scandir 1,7 scikit-learn 0.19.1
scipy 1.1.0 seaborn 0.8.1 setuptools 39.1.0
simplegeneric 0.8.1 singledispatch 3.4.0.3 Šest 1.11.0
statsmodels 0.9.0 podproces32 3.5.3 tensorboard 1.12.2
tensorboardX 1.4 tensorflow 1.12.0 termcolor 1.1.0
testpath 0.3.1 pochodeň 0.4.1 torchvision 0.2.1
tornádo 5.0.2 traceback2 1.4.0 vlastnosti 4.3.2
unittest2 1.1.0 urllib3 1.22 virtualenv 16.0.0
wcwidth 0.1.7 webencodings 0.5.1 Werkzeug 0.14.1
kolo 0.31.1 wrapt 1.10.11 wsgiref 0.1.2

Kromě toho následující balíčky Sparku zahrnují moduly Pythonu:

Balíček Spark Modul Pythonu Verze
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning Sparkdl 1.5.0-db1-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

Knihovny jazyka R

Knihovny jazyka R jsou identické s knihovnami jazyka R v Databricks Runtime 5.2.

Knihovny Java a Scala (cluster Scala 2.11)

Kromě knihoven Java a Scala v Databricks Runtime 5.2 obsahuje Databricks Runtime 5.2 ML následující jary:

ID skupiny ID artefaktu Verze
com.databricks spark-deep-learning 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11