Databricks Runtime 5.4 dla uczenia maszynowego (nieobsługiwane)
Usługa Databricks opublikowała ten obraz w czerwcu 2019 roku.
Środowisko Databricks Runtime 5.4 for Machine Edukacja zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 5.4 (nieobsługiwane). Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch, Keras i XGBoost. Obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.
Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks, zobacz AI and Machine Edukacja on Databricks (Sztuczna inteligencja i maszyna Edukacja w usłudze Databricks).
Nowe funkcje
Środowisko Databricks Runtime 5.4 ML jest oparte na środowisku Databricks Runtime 5.4. Aby uzyskać informacje o nowościach w środowisku Databricks Runtime 5.4, zobacz informacje o wersji środowiska Databricks Runtime 5.4 (nieobsługiwane).
Oprócz aktualizacji biblioteki środowisko Databricks Runtime 5.4 ML wprowadza następujące nowe funkcje:
Rozproszone śledzenie biblioteki Hyperopt i zautomatyzowanego śledzenia MLflow
Środowisko Databricks Runtime 5.4 ML wprowadza nową implementację funkcji Hyperopt obsługiwanej przez platformę Apache Spark w celu skalowania i upraszczania dostrajania hiperparametrów. Nowa Trials
klasa SparkTrials
jest implementowana w celu dystrybucji przebiegów próbnych funkcji Hyperopt między wieloma maszynami i węzłami przy użyciu platformy Apache Spark. Ponadto wszystkie eksperymenty dostrajania wraz ze dostrojenia hiperparametrami i docelowymi metrykami są automatycznie rejestrowane w przebiegach MLflow. Zobacz Parallelize hyperparameter tuning with scikit-learn and MLflow (Równoległe dostrajanie hiperparametrów za pomocą biblioteki scikit-learn i MLflow).
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
Biblioteka MLlib platformy Apache Spark i zautomatyzowane śledzenie MLflow
Środowisko Databricks Runtime 5.4 ML obsługuje automatyczne rejestrowanie przebiegów MLflow dla modeli pasujących do algorytmów CrossValidator
dostrajania PySpark i TrainValidationSplit
. Zobacz Biblioteki MLlib platformy Apache Spark i zautomatyzowane śledzenie MLflow. Ta funkcja jest domyślnie włączona w środowisku Databricks Runtime 5.4 ML, ale domyślnie była wyłączona w środowisku Databricks Runtime 5.3 ML.
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej.
Ulepszenia modułu HorovodRunner
Dane wyjściowe wysyłane z platformy Horovod do węzła sterownika spark są teraz widoczne w komórkach notesu.
Aktualizacja pakietu języka Python XGBoost
Zainstalowano pakiet języka Python XGBoost 0.80.
Środowisko systemu
Środowisko systemowe w środowisku Databricks Runtime 5.4 ML różni się od środowiska Databricks Runtime 5.4 w następujący sposób:
- Python: 2.7.15 dla klastrów języka Python 2 i 3.6.5 dla klastrów języka Python 3.
- DBUtils: Środowisko Databricks Runtime 5.4 ML nie zawiera narzędzia biblioteki (dbutils.library) (starsza wersja).
- W przypadku klastrów gpu następujące biblioteki procesora GPU firmy NVIDIA:
- Kierowca Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1
Biblioteki
W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 5.4 ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 5.4.
Biblioteki najwyższego poziomu
Środowisko Databricks Runtime 5.4 ML obejmuje następujące biblioteki najwyższego poziomu:
Biblioteki języka Python
Środowisko Databricks Runtime 5.4 ML używa narzędzia Conda do zarządzania pakietami języka Python. W związku z tym istnieją poważne różnice w instalowanych bibliotekach języka Python w porównaniu z środowiskiem Databricks Runtime. Poniżej znajduje się pełna lista udostępnionych pakietów i wersji języka Python zainstalowanych przy użyciu menedżera pakietów Conda.
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
Astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | Bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
Kryptografii | 2.2.2 | Cycler | 0.10.0 | Cython | 0.28.2 |
Dekorator | 4.3.0 | docutils | 0,14 | punkty wejścia | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | Przyszłości | 0.17.1 |
Futures | 3.2.0 | Gast | 0.2.2 | grpcio | 1.12.1 |
h5py | 2.8.0 | horovod | 0.16.0 | html5lib | 1.0.1 |
hyperopt | 0.1.2.db4 | Idna | 2.6 | Ipaddress | 1.0.22 |
Ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-client | 5.2.3 | jupyter-core | 4.4.0 | Keras | 2.2.4 |
Keras-Applications | 1.0.7 | Przetwarzanie wstępne protokołu Keras | 1.0.9 | kiwisolver | 1.1.0 |
linecache2 | 1.0.0 | llvmlite | 0.23.1 | Lxml | 4.2.1 |
Znaczniki języka Markdown | 3.1.1 | Znaczniki Sejf | 1.0 | matplotlib | 2.2.2 |
mistune | 0.8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
mleap | 0.8.1 | Makiety | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | networkx | 2,2 |
Nos | 1.3.7 | wyklucz nos | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.dirty |
Numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
Pandas | 0.23.0 | pandocfilters | 1.4.2 | paramiko | 2.4.1 |
pathlib2 | 2.3.2 | Patsy | 0.5.0 | Pbr | 5.1.3 |
pexpect | 4.5.0 | pickleshare | 0.7.4 | Poduszkę | 5.1.0 |
Pip | 10.0.1 | Ply | 3.11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | psutil | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | Pygments | 2.2.0 | pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5,1 | pyzmq | 17.0.0 |
żądania | 2.18.4 | s3transfer | 0.1.13 | scandir | 1,7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
Sześć | 1.11.0 | statsmodels | 0.9.0 | podprocesy32 | 3.5.4 |
tablica tensorboard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | ścieżka testowa | 0.3.1 | Palnika | 0.4.1 |
torchvision | 0.2.1 | Tornado | 5.0.2 | tqdm | 4.32.1 |
traceback2 | 1.4.0 | traitlety | 4.3.2 | unittest2 | 1.1.0 |
urllib3 | 1.22 | Virtualenv | 16.0.0 | wcwidth | 0.1.7 |
webencodings | 0.5.1 | Werkzeug | 0.14.1 | Koła | 0.31.1 |
zawijanie | 1.10.11 | wsgiref | 0.1.2 |
Ponadto następujące pakiety platformy Spark obejmują moduły języka Python:
Pakiet Platformy Spark | Moduł języka Python | Wersja |
---|---|---|
ramki grafu | ramki grafu | 0.7.0-db1-spark2.4 |
uczenie głębokie spark | sparkdl | 1.5.0-db3-spark2.4 |
ramki tensorframe | ramki tensorframe | 0.6.0-s_2.11 |
Biblioteki języka R
Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 5.4.
Biblioteki Java i Scala (klaster Scala 2.11)
Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 5.4 środowisko Databricks Runtime 5.4 ML zawiera następujące jednostki JAR:
Identyfikator grupy | Identyfikator artefaktu | Wersja |
---|---|---|
com.databricks | uczenie głębokie spark | 1.5.0-db3-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0.81 |
ml.dmlc | xgboost4j-spark | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | ramki tensorframe | 0.6.0-s_2.11 |