Databricks Runtime 5.4 dla Machine Learning (nieobsługiwane)

Databricks opublikował ten obraz w czerwcu 2019 roku.

środowisko Databricks Runtime 5.4 dla Machine Learning zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych na podstawie Databricks Runtime 5.4 (nieobsługiwane). Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch, Keras i XGBoost. Obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.

Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra ML środowiska uruchomieniowego Databricks, zobacz Databricks Runtime for Machine Learning (Środowisko uruchomieniowe Databricks).

Nowe funkcje

Databricks Runtime 5.4 ML jest oparta na środowisku uruchomieniowym Databricks Runtime 5.4. Aby uzyskać informacje o nowościach w środowisku Databricks Runtime 5.4, zobacz informacje o wersji Databricks Runtime 5.4 (nieobsługiwane).

Oprócz aktualizacji biblioteki Databricks Runtime 5.4 ML wprowadzono następujące nowe funkcje:

Rozproszone śledzenie biblioteki Hyperopt i zautomatyzowanego śledzenia MLflow

Databricks Runtime 5.4 ML wprowadza nową implementację biblioteki Hyperopt obsługiwanej przez platformę Apache Spark w celu skalowania i upraszczania dostrajania hiperparametrów. Nowa Trials klasa SparkTrials jest implementowana w celu dystrybucji przebiegów próbnych funkcji Hyperopt między wieloma maszynami i węzłami przy użyciu platformy Apache Spark. Ponadto wszystkie eksperymenty dostrajania wraz ze dostrojeniem hiperparametrów i docelowych metryk są automatycznie rejestrowane w przebiegach MLflow. Zobacz Parallelize hyperparameter tuning with scikit-learn and MLflow (Równoległe dostrajanie hiperparametrów za pomocą biblioteki scikit-learn i MLflow).

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Biblioteka MLlib platformy Apache Spark i zautomatyzowane śledzenie MLflow

Databricks Runtime 5.4 ML obsługuje automatyczne rejestrowanie przebiegów MLflow dla modeli pasujących do algorytmów CrossValidator dostrajania PySpark i TrainValidationSplit. Zobacz Biblioteki MLlib platformy Apache Spark i zautomatyzowane śledzenie biblioteki MLflow. Ta funkcja jest domyślnie włączona w środowisku Databricks Runtime 5.4 ML, ale domyślnie jest wyłączona w środowisku uruchomieniowym Databricks Runtime 5.3 ML.

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Ulepszenie interfejsu HorovodRunner

Dane wyjściowe wysyłane z struktury Horovod do węzła sterownika spark są teraz widoczne w komórkach notesu.

Aktualizacja pakietu języka Python XGBoost

Zainstalowano pakiet języka Python XGBoost 0.80.

Środowisko systemu

Środowisko systemowe w Databricks Runtime 5.4 ML różni się od środowiska Databricks Runtime 5.4 w następujący sposób:

  • Python: 2.7.15 dla klastrów języka Python 2 i 3.6.5 dla klastrów języka Python 3.
  • DBUtils: Databricks Runtime 5.4 ML nie zawiera narzędzia biblioteki (dbutils.library).
  • W przypadku klastrów gpu następujące biblioteki procesora GPU firmy NVIDIA:
    • Kierowca Tesla 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Biblioteki

W poniższych sekcjach wymieniono biblioteki zawarte w Databricks Runtime 5.4 ML, które różnią się od bibliotek zawartych w środowisku uruchomieniowym Databricks Runtime 5.4.

Biblioteki najwyższego poziomu

Databricks Runtime 5.4 ML zawiera następujące biblioteki najwyższego poziomu:

Biblioteki języka Python

Databricks Runtime 5.4 ML używa środowiska Conda do zarządzania pakietami języka Python. W związku z tym istnieją poważne różnice w instalowanych bibliotekach języka Python w porównaniu do środowiska uruchomieniowego Databricks. Poniżej znajduje się pełna lista udostępnionych pakietów i wersji języka Python zainstalowanych przy użyciu menedżera pakietów Conda.

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 Bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 zestaw znaków 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
Kryptografii 2.2.2 Cycler 0.10.0 Cython 0.28.2
Dekorator 4.3.0 docutils 0.14 punkty wejścia 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Przyszłości 0.17.1
Futures 3.2.0 Gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 Idna 2,6 Ipaddress 1.0.22
Ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2,10 jmespath 0.9.4 jsonschema 2.6.0
klient jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 Lxml 4.2.1
Znaczniki języka Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
mistune 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 Makiety 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 networkx 2,2
Nos 1.3.7 wykluczanie nosa 0.5.0 numba 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
Pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 Patsy 0.5.0 Pbr 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Poduszkę 5.1.0
Pip 10.0.1 Ply 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 Pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5,1 pyzmq 17.0.0
Żądania 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
Sześć 1.11.0 statsmodels 0.9.0 podproces32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 Palnika 0.4.1
torchvision 0.2.1 Tornado 5.0.2 tqdm 4.32.1
traceback2 1.4.0 traitlety 4.3.2 unittest2 1.1.0
urllib3 1,22 Virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 kółko 0.31.1
zawijanie 1.10.11 wsgiref 0.1.2

Ponadto następujące pakiety Spark obejmują moduły języka Python:

Pakiet Spark Moduł języka Python Wersja
ramki grafu ramki grafu 0.7.0-db1-spark2.4
uczenie głębokie platformy Spark sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

Biblioteki języka R

Biblioteki języka R są identyczne z bibliotekami języka R w środowisku uruchomieniowym Databricks Runtime 5.4.

Biblioteki Java i Scala (klaster Scala 2.11)

Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 5.4 Databricks Runtime 5.4 ML zawiera następujące jednostki JARs:

Identyfikator grupy Identyfikator artefaktu Wersja
com.databricks uczenie głębokie platformy Spark 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11