Databricks Runtime 5.4 voor ML (niet ondersteund)

Databricks heeft deze afbeelding uitgebracht in juni 2019.

Databricks Runtime 5.4 voor Machine Learning biedt een kant-en-klare omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 5.4 (niet ondersteund). Databricks Runtime ML bevat veel populaire machine learning-bibliotheken, waaronder TensorFlow, PyTorch, Keras en XGBoost. Het biedt ook ondersteuning voor gedistribueerde deep learning-training met behulp van Horovod.

Zie AI en Machine Learning op Databricks voor meer informatie, waaronder instructies voor het maken van een Databricks Runtime ML-cluster.

Nieuwe functies

Databricks Runtime 5.4 ML is gebaseerd op Databricks Runtime 5.4. Zie de releaseopmerkingen van Databricks Runtime 5.4 voor informatie over wat er nieuw is in Databricks Runtime 5.4 (niet-ondersteund ).

Naast bibliotheekupdates introduceert Databricks Runtime 5.4 ML de volgende nieuwe functies:

Gedistribueerde Hyperopt + geautomatiseerde MLflow-tracering

Databricks Runtime 5.4 ML introduceert een nieuwe implementatie van Hyperopt mogelijk gemaakt door Apache Spark om hyperparameterafstemming te schalen en te vereenvoudigen. Er wordt een nieuwe Trials klasse SparkTrials geïmplementeerd om proefversies van Hyperopt te distribueren tussen meerdere machines en knooppunten met behulp van Apache Spark. Bovendien worden alle afstemmingsexperimenten, samen met de afgestemde hyperparameters en gerichte metrische gegevens, automatisch geregistreerd bij MLflow-uitvoeringen. Zie Hyperparameterafstemming parallelliseren met scikit-learn en MLflow.

Belangrijk

Deze functie is beschikbaar als openbare preview.

Apache Spark MLlib + geautomatiseerde MLflow-tracering

Databricks Runtime 5.4 ML ondersteunt automatische logboekregistratie van MLflow-uitvoeringen voor modellen die geschikt zijn voor pySpark-afstemmingsalgoritmen CrossValidator en TrainValidationSplit. Zie Apache Spark MLlib en geautomatiseerde MLflow-tracering. Deze functie is standaard ingeschakeld in Databricks Runtime 5.4 ML, maar is standaard uitgeschakeld in Databricks Runtime 5.3 ML.

Belangrijk

Deze functie is beschikbaar als openbare preview.

Verbetering horovodRunner

Uitvoer die vanuit Horovod naar het Spark-stuurprogrammaknooppunt wordt verzonden, is nu zichtbaar in notebookcellen.

XGBoost Python-pakketupdate

XGBoost Python-pakket 0.80 is geïnstalleerd.

Systeemomgeving

De systeemomgeving in Databricks Runtime 5.4 ML verschilt als volgt van Databricks Runtime 5.4:

Bibliotheken

In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 5.4 ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 5.4.

Bibliotheken met de hoogste laag

Databricks Runtime 5.4 ML bevat de volgende bibliotheken met de hoogste laag:

Python-bibliotheken

Databricks Runtime 5.4 ML maakt gebruik van Conda voor Python-pakketbeheer. Als gevolg hiervan zijn er grote verschillen in geïnstalleerde Python-bibliotheken in vergelijking met Databricks Runtime. Hier volgt een volledige lijst met opgegeven Python-pakketten en -versies die zijn geïnstalleerd met Conda Package Manager.

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 Bcrypt 3.1.6 Bleekmiddel 2.1.3
Boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 Cffi 1.11.5 Chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
Cryptografie 2.2.2 cycler 0.10.0 Cython 0.28.2
Decorator 4.3.0 Docutils 0,14 invoerpunten 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Toekomst 0.17.1
Futures 3.2.0 gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2.6 ipaddress 1.0.22
Ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2.10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 Lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
mistune 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 Mock 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 Networkx 2.2
Neus 1.3.7 neus-uitsluiten 0.5.0 numba 0.38.0+0.g2a2b772fc.dirty
Numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
Pandas 0.23.0 pandocfilters 1.4.2 Paramiko 2.4.1
pathlib2 2.3.2 Patsy 0.5.0 Pbr 5.1.3
Pexpect 4.5.0 pickleshare 0.7.4 Kussen 5.1.0
Pip 10.0.1 Ply 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 Pyopenssl 18.0.0 Pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5.1 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1,7
scikit-learn 0.19.1 Scipy 1.1.0 seaborn 0.8.1
Setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
Zes 1.11.0 statsmodels 0.9.0 subproces32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 Fakkel 0.4.1
torchvision 0.2.1 Tornado 5.0.2 tqdm 4.32.1
traceback2 1.4.0 traitlets 4.3.2 unittest2 1.1.0
urllib3 1.22 Virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 Wiel 0.31.1
wrapt 1.10.11 Wsgiref 0.1.2

Daarnaast bevatten de volgende Spark-pakketten Python-modules:

Spark-pakket Python-module Versie
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep learning sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R-bibliotheken

De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 5.4.

Java- en Scala-bibliotheken (Scala 2.11-cluster)

Naast Java- en Scala-bibliotheken in Databricks Runtime 5.4 bevat Databricks Runtime 5.4 ML de volgende JAR's:

Groeps-id Artefact-id Versie
com.databricks spark-deep learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11