Databricks Runtime ML 5.4 für ML (EoS)
Hinweis
Die Unterstützung für diese Databricks-Runtime-Version wurde beendet. Den End-of-Support-Termin finden Sie im Verlauf des Supportendes. Alle unterstützten Versionen von Databricks Runtime finden Sie unter Versionshinweise, Versionen und Kompatibilität von Databricks Runtime.
Diese Version wurde von Databricks im Juni 2019 veröffentlicht.
Databricks Runtime 5.4 für Machine Learning bietet eine sofort einsatzbereite Umgebung für maschinelles Lernen und Data Science auf Basis von Databricks Runtime 5.4 (EoS). Databricks Runtime ML enthält viele beliebte Machine Learning-Bibliotheken, einschließlich TensorFlow, PyTorch, Keras und XGBoost. Zudem wird ein verteiltes Deep Learning-Training mit Horovod unterstützt.
Weitere Informationen, einschließlich Anweisungen zum Erstellen eines Databricks Runtime ML-Clusters, finden Sie unter KI und Machine Learning in Databricks.
Neue Funktionen
Databricks Runtime 5.4 ML basiert auf Databricks Runtime 5.4. Informationen zu den Neuerungen in Databricks Runtime 5.4 finden Sie in den Versionshinweisen zu Databricks Runtime 5.4 (EoS).
Zusätzlich zu Bibliotheksupdates werden mit Databricks Runtime 5.4 ML die folgenden neuen Features eingeführt:
Verteiltes Hyperopt und automatisierte MLflow-Nachverfolgung
In Databricks Runtime 5.4 ML wird eine neue Implementierung von Hyperopt eingeführt, die auf Apache Spark basiert und die Hyperparameteroptimierung vereinfachen und skalierbar gestalten soll. Die neue Trials
-Klasse SparkTrials
wird implementiert, um Hyperopt-Testläufe mithilfe von Apache Spark auf mehrere Computer und Knoten zu verteilen. Darüber hinaus werden alle Optimierungsexperimente und die optimierten Hyperparameter und Zielmetriken automatisch in MLflow-Ausführungen protokolliert. Weitere Informationen finden Sie unter Parallelisieren der Hyperopt-Hyperparameteroptimierung.
Wichtig
Dieses Feature befindet sich in der Public Preview.
Apache Spark MLlib und automatisierte MLflow-Nachverfolgung
Databricks Runtime 5.4 ML unterstützt die automatische Protokollierung von MLflow-Ausführungen für die Modellanpassung mit den PySpark-Optimierungsalgorithmen CrossValidator
und TrainValidationSplit
. Weitere Informationen finden Sie unter Apache Spark MLlib und automatisierte MLflow-Nachverfolgung. Dieses Feature ist in Databricks Runtime 5.4 ML standardmäßig aktiviert, war jedoch in Databricks Runtime 5.3 ML standardmäßig deaktiviert.
Wichtig
Dieses Feature befindet sich in der Public Preview.
Verbesserung an HorovodRunner
Die Ausgabe, die von Horovod an den Spark-Treiberknoten gesendet wird, ist jetzt in Notebookzellen sichtbar.
Update für das Python-Paket „XGBoost“
Version 0.80 des Python-Pakets „XGBoost“ ist jetzt installiert.
Systemumgebung
Die Systemumgebung in Databricks Runtime 5.4 ML unterscheidet sich wie folgt von Databricks Runtime 5.4:
- Python: 2.7.15 für Python 2-Cluster und 3.6.5 für Python 3-Cluster
- DBUtils: Databricks Runtime 5.4 ML enthält kein Bibliothekshilfsprogramm (dbutils.library) (Legacy).
- Für GPU-Cluster sind die folgenden NVIDIA-GPU-Bibliotheken verfügbar:
- Tesla-Treiber 396.44
- CUDA 9.2
- CUDNN 7.2.1
Bibliotheken
In den folgenden Abschnitten sind die Bibliotheken aufgelistet, die in Databricks Runtime 5.4 ML enthalten sind und sich von den in Databricks Runtime 5.4 enthaltenen Bibliotheken unterscheiden.
Bibliotheken der obersten Ebene
Databricks Runtime 5.4 ML enthält die folgenden Bibliotheken der obersten Ebene:
Python-Bibliotheken
Databricks Runtime 5.4 ML verwendet Conda für die Python-Paketverwaltung. Daher gibt es im Vergleich zu Databricks Runtime wesentliche Unterschiede bei den vorinstallierten Python-Bibliotheken. Im Folgenden finden Sie die vollständige Liste der bereitgestellten Python-Pakete und -Versionen, die mit dem Conda-Paket-Manager installiert wurden.
Bibliothek | Version | Bibliothek | Version | Bibliothek | Version |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0,5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
cryptography | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0.14 | entrypoints | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | future | 0.17.1 |
futures | 3.2.0 | gast | 0.2.2 | grpcio | 1.12.1 |
h5py | 2.8.0 | horovod | 0.16.0 | html5lib | 1.0.1 |
hyperopt | 0.1.2.db4 | idna | 2.6 | ipaddress | 1.0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2,10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-client | 5.2.3 | jupyter-core | 4.4.0 | Keras | 2.2.4 |
Keras-Applications | 1.0.7 | Keras-Preprocessing | 1.0.9 | kiwisolver | 1.1.0 |
linecache2 | 1.0.0 | llvmlite | 0.23.1 | lxml | 4.2.1 |
Markdown | 3.1.1 | MarkupSafe | 1.0 | matplotlib | 2.2.2 |
mistune | 0.8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
mleap | 0.8.1 | mock | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | networkx | 2.2 |
nose | 1.3.7 | nose-exclude | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.dirty |
numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
Pandas | 0.23.0 | pandocfilters | 1.4.2 | paramiko | 2.4.1 |
pathlib2 | 2.3.2 | patsy | 0.5.0 | pbr | 5.1.3 |
pexpect | 4.5.0 | pickleshare | 0.7.4 | Pillow | 5.1.0 |
pip | 10.0.1 | ply | 3,11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | psutil | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2,18 | Pygments | 2.2.0 | pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | Python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5,1 | pyzmq | 17.0.0 |
requests | 2.18.4 | s3transfer | 0.1.13 | scandir | 1.7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
sechs | 1.11.0 | statsmodels | 0.9.0 | subprocess32 | 3.5.4 |
tensorboard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | testpath | 0.3.1 | torch | 0.4.1 |
torchvision | 0.2.1 | tornado | 5.0.2 | tqdm | 4.32.1 |
traceback2 | 1.4.0 | traitlets | 4.3.2 | unittest2 | 1.1.0 |
urllib3 | 1.22 | virtualenv | 16.0.0 | wcwidth | 0.1.7 |
webencodings | 0.5.1 | Werkzeug | 0.14.1 | wheel | 0.31.1 |
wrapt | 1.10.11 | wsgiref | 0.1.2 |
Darüber hinaus enthalten die folgenden Spark-Pakete Python-Module:
Spark-Paket | Python-Modul | Version |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
spark-deep-learning | sparkdl | 1.5.0-db3-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
R-Bibliotheken
Die R-Bibliotheken sind mit den R-Bibliotheken in Databricks Runtime 5.4 identisch.
Java- und Scala-Bibliotheken (Scala 2.11-Cluster)
Zusätzlich zu Java- und Scala-Bibliotheken in Databricks Runtime 5.4 enthält Databricks Runtime 5.4 ML die folgenden JAR-Dateien:
Gruppen-ID | Artefakt-ID | Version |
---|---|---|
com.databricks | spark-deep-learning | 1.5.0-db3-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0.81 |
ml.dmlc | xgboost4j-spark | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |