Databricks Runtime 5.4 für ML (nicht unterstützt)

Dieses Image wurde von Databricks im Juni 2019 veröffentlicht.

Databricks Runtime 5.4 für Machine Learning bietet eine sofort einsatzbereite Umgebung für maschinelles Lernen und Data Science auf Basis von Databricks Runtime 5.4 (nicht unterstützt). Databricks Runtime ML enthält viele beliebte Machine Learning-Bibliotheken, einschließlich TensorFlow, PyTorch, Keras und XGBoost. Zudem wird ein verteiltes Deep Learning-Training mit Horovod unterstützt.

Weitere Informationen, einschließlich Anweisungen zum Erstellen eines Databricks Runtime ML-Clusters, finden Sie unter KI und Machine Learning in Databricks.

Neue Funktionen

Databricks Runtime 5.4 ML basiert auf Databricks Runtime 5.4. Informationen zu den Neuerungen in Databricks Runtime 5.4 finden Sie in den Versionshinweisen zu Databricks Runtime 5.4 (nicht unterstützt).

Zusätzlich zu Bibliotheksupdates werden mit Databricks Runtime 5.4 ML die folgenden neuen Features eingeführt:

Verteiltes Hyperopt und automatisierte MLflow-Nachverfolgung

In Databricks Runtime 5.4 ML wird eine neue Implementierung von Hyperopt eingeführt, die auf Apache Spark basiert und die Hyperparameteroptimierung vereinfachen und skalierbar gestalten soll. Die neue Trials-Klasse SparkTrials wird implementiert, um Hyperopt-Testläufe mithilfe von Apache Spark auf mehrere Computer und Knoten zu verteilen. Darüber hinaus werden alle Optimierungsexperimente und die optimierten Hyperparameter und Zielmetriken automatisch in MLflow-Ausführungen protokolliert. Weitere Informationen finden Sie unter Parallelisieren der Hyperparameteroptimierung mit scikit-learn und MLflow.

Wichtig

Dieses Feature befindet sich in der Public Preview.

Apache Spark MLlib und automatisierte MLflow-Nachverfolgung

Databricks Runtime 5.4 ML unterstützt die automatische Protokollierung von MLflow-Ausführungen für die Modellanpassung mit den PySpark-Optimierungsalgorithmen CrossValidator und TrainValidationSplit. Weitere Informationen finden Sie unter Apache Spark MLlib und automatisierte MLflow-Nachverfolgung. Dieses Feature ist in Databricks Runtime 5.4 ML standardmäßig aktiviert, war jedoch in Databricks Runtime 5.3 ML standardmäßig deaktiviert.

Wichtig

Dieses Feature befindet sich in der Public Preview.

Verbesserung an HorovodRunner

Die Ausgabe, die von Horovod an den Spark-Treiberknoten gesendet wird, ist jetzt in Notebookzellen sichtbar.

Update für das Python-Paket „XGBoost“

Version 0.80 des Python-Pakets „XGBoost“ ist jetzt installiert.

Systemumgebung

Die Systemumgebung in Databricks Runtime 5.4 ML unterscheidet sich wie folgt von Databricks Runtime 5.4:

  • Python: 2.7.15 für Python 2-Cluster und 3.6.5 für Python 3-Cluster
  • DBUtils: Databricks Runtime 5.4 ML enthält kein Bibliothekshilfsprogramm (dbutils.library) (Legacy).
  • Für GPU-Cluster sind die folgenden NVIDIA-GPU-Bibliotheken verfügbar:
    • Tesla-Treiber 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Bibliotheken

In den folgenden Abschnitten sind die Bibliotheken aufgelistet, die in Databricks Runtime 5.4 ML enthalten sind und sich von den in Databricks Runtime 5.4 enthaltenen Bibliotheken unterscheiden.

Bibliotheken der obersten Ebene

Databricks Runtime 5.4 ML enthält die folgenden Bibliotheken der obersten Ebene:

Python-Bibliotheken

Databricks Runtime 5.4 ML verwendet Conda für die Python-Paketverwaltung. Daher gibt es im Vergleich zu Databricks Runtime wesentliche Unterschiede bei den vorinstallierten Python-Bibliotheken. Im Folgenden finden Sie die vollständige Liste der bereitgestellten Python-Pakete und -Versionen, die mit dem Conda-Paket-Manager installiert wurden.

Bibliothek Version Bibliothek Version Bibliothek Version
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
cryptography 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 future 0.17.1
futures 3.2.0 gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2.6 ipaddress 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2,10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
mistune 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 mock 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 networkx 2.2
nose 1.3.7 nose-exclude 0.5.0 numba 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
Pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 patsy 0.5.0 pbr 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Pillow 5.1.0
pip 10.0.1 ply 3,11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2,18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 Python-dateutil 2.7.3
pytz 2018.4 PyYAML 5,1 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
sechs 1.11.0 statsmodels 0.9.0 subprocess32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 tqdm 4.32.1
traceback2 1.4.0 traitlets 4.3.2 unittest2 1.1.0
urllib3 1.22 virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 wheel 0.31.1
wrapt 1.10.11 wsgiref 0.1.2

Darüber hinaus enthalten die folgenden Spark-Pakete Python-Module:

Spark-Paket Python-Modul Version
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R-Bibliotheken

Die R-Bibliotheken sind mit den R-Bibliotheken in Databricks Runtime 5.4 identisch.

Java- und Scala-Bibliotheken (Scala 2.11-Cluster)

Zusätzlich zu Java- und Scala-Bibliotheken in Databricks Runtime 5.4 enthält Databricks Runtime 5.4 ML die folgenden JAR-Dateien:

Gruppen-ID Artefakt-ID Version
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11