Databricks Runtime 5.3 ML (nicht unterstützt)

Dieses Image wurde von Databricks im April 2019 veröffentlicht.

Databricks Runtime 5.3 ML bietet eine sofort einsatzbereite Umgebung für maschinelles Lernen und Data Science auf Basis von Databricks Runtime 5.3 (nicht unterstützt). Databricks Runtime für ML enthält viele beliebte Machine Learning-Bibliotheken, einschließlich TensorFlow, PyTorch, Keras und XGBoost. Zudem wird ein verteiltes Deep Learning-Training mit Horovod unterstützt.

Weitere Informationen, einschließlich Anweisungen zum Erstellen eines Databricks Runtime ML-Clusters, finden Sie unter KI und Machine Learning in Databricks.

Neue Funktionen

Databricks Runtime 5.3 ML basiert auf Databricks Runtime 5.3. Informationen zu den Neuerungen in Databricks Runtime 5.3 finden Sie in den Versionshinweisen zu Databricks Runtime 5.3 (nicht unterstützt). Zusätzlich zu Bibliotheksupdates werden mit Databricks Runtime 5.3 ML die folgenden neuen Features eingeführt:

  • MLflow + Apache Spark MLlib-Integration: Databricks Runtime 5.3 ML unterstützt die automatische Protokollierung von MLflow-Ausführungen für die Modellanpassung mit den PySpark-Optimierungsalgorithmen CrossValidator und TrainValidationSplit.

    Wichtig

    Dieses Feature befindet sich in der privaten Vorschauphase. Wenden Sie sich an Ihren Azure Databricks-Ansprechpartner, um mehr über die Aktivierung zu erfahren.

  • Die folgenden Bibliotheken wurden auf die neueste Version aktualisiert:

    • PyArrow von 0.8.0 auf 0.12.1: BinaryType wird von der Arrow-basierten Konvertierung unterstützt und kann in Pandas UDF verwendet werden.
    • Horovod von 0.15.2 auf 0.16.0.
    • TensorboardX von 1.4 auf 1.6.

Die Modellexport-API von Databricks ML ist nun veraltet. Azure Databricks empfiehlt stattdessen die Verwendung von MLeap, was eine umfassendere Abdeckung der MLlib-Modelltypen bietet. Weitere Informationen finden Sie unter MLeap ML-Modellexport.

Hinweis

Darüber hinaus bietet Databricks Runtime 5.3 eine neue FUSE-Einbindung, die für das Laden von Daten, die Prüfpunktausführung in Modellen und das Protokollieren aller Worker an einem freigegebenen Speicherort file:/dbfs/ml optimiert ist und leistungsstarke E/A für Deep-Learning-Workloads bietet. Weitere Informationen finden Sie unter Laden von Daten für maschinelles Lernen und Deep Learning.

Wartungsupdates

Weitere Informationen finden Sie unter Databricks Runtime 5.4-Wartungsupdates.

Systemumgebung

Die Systemumgebung in Databricks Runtime 5.3 ML unterscheidet sich wie folgt von Databricks Runtime 5.3:

  • Python: 2.7.15 für Python 2-Cluster und 3.6.5 für Python 3-Cluster.
  • DBUtils: Databricks Runtime 5.3 ML enthält kein Bibliothekshilfsprogramm (dbutils.library) (Legacy).
  • Für GPU-Cluster sind die folgenden NVIDIA-GPU-Bibliotheken verfügbar:
    • Tesla-Treiber 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Bibliotheken

In den folgenden Abschnitten sind die Bibliotheken aufgelistet, die in Databricks Runtime 5.3 ML enthalten sind und sich von den in Databricks Runtime 5.3 enthaltenen Bibliotheken unterscheiden.

Bibliotheken der obersten Ebene

Databricks Runtime 5.3 ML enthält die folgenden Bibliotheken der obersten Ebene:

Python-Bibliotheken

Databricks Runtime 5.3 ML verwendet Conda für die Python-Paketverwaltung. Daher gibt es im Vergleich zu Databricks Runtime wesentliche Unterschiede bei den vorinstallierten Python-Bibliotheken. Im Folgenden finden Sie die vollständige Liste der bereitgestellten Python-Pakete und -Versionen, die mit dem Conda-Paket-Manager installiert wurden.

Bibliothek Version Bibliothek Version Bibliothek Version
absl-py 0.7.0 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
cryptography 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 futures 3.2.0
gast 0.2.2 grpcio 1.12.1 h5py 2.8.0
horovod 0.16.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2,10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 Pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3,11
prompt-toolkit 1.0.15 protobuf 3.6.1 psutil 5.6.0
psycopg2 2.7.5 ptyprocess 0.5.2 pyarrow 0.12.1
pyasn1 0.4.5 pycparser 2,18 Pygments 2.2.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 Python-dateutil 2.7.3
pytz 2018.4 PyYAML 3,12 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
sechs 1.11.0 statsmodels 0.9.0 subprocess32 3.5.3
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 traceback2 1.4.0
traitlets 4.3.2 unittest2 1.1.0 urllib3 1.22
virtualenv 16.0.0 wcwidth 0.1.7 webencodings 0.5.1
Werkzeug 0.14.1 wheel 0.31.1 wrapt 1.10.11
wsgiref 0.1.2

Darüber hinaus enthalten die folgenden Spark-Pakete Python-Module:

Spark-Paket Python-Modul Version
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db1-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R-Bibliotheken

Die R-Bibliotheken sind mit den R-Bibliotheken in Databricks Runtime 5.3 identisch.

Java- und Scala-Bibliotheken (Scala 2.11-Cluster)

Zusätzlich zu Java- und Scala-Bibliotheken in Databricks Runtime 5.3 enthält Databricks Runtime 5.3 ML die folgenden JAR-Dateien:

Gruppen-ID Artefakt-ID Version
com.databricks spark-deep-learning 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11