Sdílet prostřednictvím


Databricks Runtime 5.4 pro ML (EoS)

Poznámka:

Podpora této verze Databricks Runtime skončila. Datum ukončení podpory najdete v tématu Historie ukončení podpory. Všechny podporované verze databricks Runtime najdete v poznámkách k verzi Databricks Runtime a kompatibilitu.

Databricks vydala tuto verzi v červnu 2019.

Databricks Runtime 5.4 pro Machine Learning poskytuje připravené prostředí pro strojové učení a datové vědy založené na databricks Runtime 5.4 (EoS). Databricks Runtime ML obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch, Keras a XGBoost. Podporuje také distribuované trénování hlubokého učení pomocí Horovodu.

Další informace, včetně pokynů k vytvoření clusteru Databricks Runtime ML, najdete v tématu AI a strojové učení v Databricks.

Nové funkce

Databricks Runtime 5.4 ML je postaven na Databricks Runtime 5.4. Informace o novinkách v Databricks Runtime 5.4 najdete ve zprávě k vydání verze Databricks Runtime 5.4 (EoS ).

Kromě aktualizací knihoven zavádí Databricks Runtime 5.4 ML následující nové funkce:

Distribuovaná technologie Hyperopt + automatizované sledování MLflow

Databricks Runtime 5.4 ML zavádí novou implementaci Hyperoptu , která využívá Apache Spark ke škálování a zjednodušení ladění hyperparametrů. Nová Trials třída SparkTrials se implementuje pro distribuci zkušební verze Hyperoptu mezi více počítačů a uzlů pomocí Apache Sparku. Kromě toho se všechny experimenty ladění spolu s vyladěnými hyperparametry a cílovými metrikami automaticky protokolují do spuštění MLflow. Viz Paralelizace ladění hyperparametrů Hyperopt.

Důležité

Tato funkce je ve verzi Public Preview.

Apache Spark MLlib + automatizované sledování MLflow

Databricks Runtime 5.4 ML podporuje automatické protokolování běhů MLflow pro modely vhodné pomocí algoritmů CrossValidator ladění PySpark a TrainValidationSplit. Viz Apache Spark MLlib a automatizované sledování MLflow. Tato funkce je ve výchozím nastavení zapnutá v Databricks Runtime 5.4 ML, ale ve výchozím nastavení byla ve službě Databricks Runtime 5.3 ML vypnutá.

Důležité

Tato funkce je ve verzi Public Preview.

Vylepšení HorovodRunneru

Výstup odeslaný z Horovodu do uzlu ovladače Sparku je teď viditelný v buňkách poznámkového bloku.

Aktualizace balíčku XGBoost Pythonu

Nainstaluje se balíček XGBoost Python 0.80.

Prostředí systému

Systémové prostředí v Databricks Runtime 5.4 ML se liší od Databricks Runtime 5.4 následujícím způsobem:

  • Python: 2.7.15 pro clustery Python 2 a 3.6.5 pro clustery Python 3.
  • DBUtils: Databricks Runtime 5.4 ML neobsahuje nástroj knihovny (dbutils.library) (starší verze).
  • Pro clustery GPU následující knihovny NVIDIA GPU:
    • Ovladač Tesla 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Knihovny

Následující části obsahují seznam knihoven zahrnutých v Databricks Runtime 5.4 ML, které se liší od knihoven zahrnutých v Databricks Runtime 5.4.

Knihovny nejvyšší úrovně

Databricks Runtime 5.4 ML obsahuje následující knihovny nejvyšší úrovně:

Knihovny Pythonu

Databricks Runtime 5.4 ML používá Ke správě balíčků Pythonu Conda. V důsledku toho jsou v nainstalovaných knihovnách Pythonu v porovnání s Modulem Databricks Runtime velké rozdíly. Následuje úplný seznam poskytnutých balíčků a verzí Pythonu nainstalovaných pomocí Správce balíčků Conda.

Knihovna Verze Knihovna Verze Knihovna Verze
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 šifra 3.1.6 bělit 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
kryptografie 2.2.2 cyklista 0.10.0 Cython 0.28.2
dekoratér 4.3.0 docutils 0,14 vstupní body 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 budoucnost 0.17.1
budoucnosti 3.2.0 Gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2.6 ipaddress 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2.10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Předběžné zpracování Kerasu 1.0.9 verizonsolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
špatně zamyšlení 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 zesměšňovat 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 networkx 2,2
nos 1.3.7 vyloučení nosu 0.5.0 numba 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 bábovka 0.5.0 pbr 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Polštář 5.1.0
jádro 10.0.1 dýha 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5,1 pyzmq 17.0.0
žádosti 2.18.4 s3transfer 0.1.13 scandir 1,7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
Šest 1.11.0 statsmodels 0.9.0 podproces32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 pochodeň 0.4.1
torchvision 0.2.1 tornádo 5.0.2 tqdm 4.32.1
traceback2 1.4.0 vlastnosti 4.3.2 unittest2 1.1.0
urllib3 1.22 virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 kolo 0.31.1
wrapt 1.10.11 wsgiref 0.1.2

Kromě toho následující balíčky Sparku zahrnují moduly Pythonu:

Balíček Spark Modul Pythonu Verze
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning Sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

Knihovny jazyka R

Knihovny jazyka R jsou identické s knihovnami jazyka R v Databricks Runtime 5.4.

Knihovny Java a Scala (cluster Scala 2.11)

Kromě knihoven Java a Scala v Databricks Runtime 5.4 obsahuje Databricks Runtime 5.4 ML následující jary:

ID skupiny ID artefaktu Verze
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11