Udostępnij przez


Databricks Runtime 10.5 for Machine Learning (EoS)

Uwaga

Obsługa tej wersji środowiska Databricks Runtime została zakończona. Aby uzyskać datę zakończenia pomocy technicznej, zobacz Historia zakończenia pomocy technicznej. Wszystkie obsługiwane wersje środowiska Databricks Runtime można znaleźć w temacie Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime).

Środowisko Databricks Runtime 10.5 for Machine Learning zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 10.5 (EoS). Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch i XGBoost. Środowisko Databricks Runtime ML obejmuje rozwiązanie AutoML— narzędzie do automatycznego trenowania potoków uczenia maszynowego. Środowisko Databricks Runtime ML obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.

Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks Runtime, zobacz Sztuczna inteligencja i uczenie maszynowe w usłudze Databricks.

Nowe funkcje i ulepszenia

Środowisko Databricks Runtime 10.5 ML jest oparte na środowisku Databricks Runtime 10.5. Aby uzyskać informacje na temat nowości w Databricks Runtime 10.5, w tym Apache Spark MLlib i SparkR, zobacz informacje o wydaniu Databricks Runtime 10.5 (EoS).

Ulepszenia rozwiązania AutoML

Następujące ulepszenia zostały wprowadzone do rozwiązania AutoML.

  • Ulepszone użycie pamięci umożliwia AutoML szkolenie na większych zestawach danych.
  • Dzięki prognozowaniu automatycznego uczenia maszynowego można teraz wyeksportować najlepsze przewidywania modelu do tabeli przy użyciu interfejsu API. Jeśli output_database zostanie podana, rozwiązanie AutoML zapisuje przewidywania najlepszego modelu w nowej tabeli w określonej bazie danych. Przewidywania nie są zapisywane, jeśli output_database nie zostaną określone.

Ulepszenia w Databricks Feature Store

Następujące ulepszenia zostały wprowadzone w usłudze Databricks Feature Store.

  • Teraz możesz usunąć istniejącą tabelę funkcji za pomocą interfejsu drop_table API. Ta akcja powoduje również usunięcie bazowej tabeli Delta.
  • Teraz możesz użyć interfejsu API języka Python , aby dodać tag do tabeli funkcji podczas tworzenia lub rejestrowania oraz dodawać, aktualizować, usuwać lub odczytywać tagi w istniejących tabelach funkcji.

Środowisko systemu

Środowisko systemowe w środowisku Databricks Runtime 10.5 ML różni się od środowiska Databricks Runtime 10.5 w następujący sposób:

Biblioteki

W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 10.5 ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 10.5.

W tej sekcji:

Biblioteki najwyższego poziomu

Środowisko Databricks Runtime 10.5 ML obejmuje następujące biblioteki najwyższego poziomu:

Biblioteki języka Python

Środowisko Databricks Runtime 10.5 ML używa usługi Virtualenv do zarządzania pakietami języka Python i zawiera wiele popularnych pakietów uczenia maszynowego.

Oprócz pakietów określonych w poniższych sekcjach środowisko Databricks Runtime 10.5 ML zawiera również następujące pakiety:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db6
  • feature_store 0.4.1
  • automl 1.8.0

Biblioteki języka Python w klastrach procesora CPU

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.11.0 Antergos Linux 2015.10 (ISO w trybie ciągłym) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
asynchroniczny generator 1.10 attrs 20.3.0 Wezwanie zwrotne 0.2.0
bcrypt 3.2.0 bidict 0.21.4 wybielacz 3.3.0
błogość 0.7.7 boto3 1.16.7 botocore 1.19.7
cachetools (narzędzia do zarządzania pamięcią podręczną) 4.2.4 katalog 2.0.7 certyfikat 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknij 7.1.2
cloudpickle (biblioteka Python do serializacji obiektów) 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konwertuj datę 2.4.0 kryptografia 3.4.7 rowerzysta 0.10.0
cymem 2.0.6 Cython 0.29.23 databricks-automl-runtime 0.2.7
databricks-cli 0.16.4 dbl-tempo 0.1.2 dbus-python 1.2.16
dekorator 5.0.6 defusedxml (biblioteka zabezpieczająca przetwarzanie XML) 0.7.1 koper 0.3.2
bufor dyskowy 5.4.0 distlib 0.3.4 informacje o dystrybucji 0.23ubuntu1
punkty wejścia 0,3 efem 4.1.3 aspekty — omówienie 1.0.0
FastText 0.9.2 blokada plików 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 przyszłość 0.18.2
Gast 0.4.0 gitdb (baza danych Git) 4.0.9 GitPython 3.1.12
google-auth (autoryzacja Google) 1.22.1 google-auth-oauthlib (biblioteka uwierzytelniania OAuth dla Google) 0.4.2 Makaron Google 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 Gviz-API 1.10.0
h5py 3.1.0 konwerter hidżryjski 2.2.3 wakacje 0,13
korowód 0.23.0 htmlmin 0.1.12 Hugging Face Hub 0.5.1
IDNA 2.10 ImageHash 4.2.1 niezrównoważona nauka 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jegodangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 Widżety JupyterLab 1.0.0 Keras 2.8.0
Przetwarzanie wstępne Keras 1.1.2 kiwisolver 1.3.1 Koale 1.8.2
koreański kalendarz księżycowy 0.2.1 kody językowe 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Kalendarz Księżycowy 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno (błąd w grze Pokémon) 0.5.1 rozstroić 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimetoda 1.8
szmurhash 1.0.6 NBClient 0.5.3 nbconvert - narzędzie do konwersji plików Jupyter Notebook 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
Natural Language Toolkit (nltk) 3.6.1 notes 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
opakowanie 21,3 Pandas 1.2.4 Pandas Profiling 3.1.0
pandocfilters 1.4.3 paramiko - biblioteka do protokołu SSH2 dla języka Python 2.7.2 parso 0.7.0
-patia 0.6.1 Patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.2 pickleshare (jeśli to nazwa własna, nie trzeba tłumaczyć) 0.7.5
Poduszka 8.2.0 pip (menedżer pakietów Pythona) 21.0.1 kreślenie 5.6.0
pmdarima 1.8.5 [Preserved translation until further clarification or context is available] 3.0.6 prometheus-client 0.10.1
zestaw narzędzi prompt 3.0.17 prorok 1.0.1 Protobuf (w skrócie od Protocol Buffers) 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.2 pycparser 2,20 pydantic (biblioteka Python do walidacji danych i zarządzania ustawieniami) 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.5.0 pyodbc 4.0.30 pyparsing – biblioteka do przetwarzania tekstu w Pythonie 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
python-dateutil (biblioteka Pythona do zarządzania datami) 2.8.1 Edytor Pythona 1.0.4 Python-engineio 4.3.0
python-socketio 5.4.1 pytz (biblioteka Pythona do obliczeń stref czasowych) 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 wyrażenie regularne 2021.4.4
żądania 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
RSA 4.8 s3transfer 0.3.7 sacremoses 0.0.49
scikit-learn 0.24.1 scipy (biblioteka naukowa dla Pythona) 1.6.2 urodzony na morzu 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
Shap 0.40.0 simplejson 3.17.2 Sześć 1.15.0
fragmentator 0.0.7 inteligentne-otwarcie 5.2.1 smmap 3.0.5
rozkojarzony 3.2.3 spacy-legacy 3.0.9 spacy-loggers 1.0.2
spark-tensorflow-distributor (biblioteka do dystrybucji TensorFlow w Spark) 1.0.0 sqlparse 0.4.1 serio 2.4.3
ssh-import-id (narzędzie do importowania kluczy SSH) 5.10 statsmodels - biblioteka do modelowania statystycznego 0.12.2 tabulować 0.8.7
splątane-w-unicode 0.1.0 Wytrzymałość 6.2.0 tablica tensorboard 2.8.0
serwer danych TensorBoard 0.6.1 TensorBoard wtyczka-profil 2.5.0 wtyczka-tensorboard-wit 1.8.1
tensorflow-cpu 2.8.0 tensorflow-estimator (moduł TensorFlow do estymacji) 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor (narzędzie do zarządzania kolorami w terminalu) 1.1.0 zakończony 0.9.4 ścieżka testowa 0.4.4
tf-estimator-nightly (nocna wersja narzędzia do estymacji tensorflow) 2.8.0.dev2021212109 cienki 8.0.15 threadpoolctl 2.1.0
tokenizatory 0.12.1 pochodnia 1.10.2+procesor torchvision 0.11.3+procesor
tornado 6.1 tqdm 4.59.0 traitlety 5.0.5
Transformatory 4.17.0 pisarz 0.4.1 wpisywanie rozszerzeń 3.7.4.3
ujson (szybka biblioteka do obsługi formatu JSON) 4.0.2 nienadzorowane uaktualnienia 0.1 urllib3 1.25.11
virtualenv 20.4.1 Wizje 0.7.4 wasabi 0.9.1
szerokość(wcwidth) 0.2.5 kodowania webowe 0.5.1 websocket-klient 0.57.0
Narzędzie 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
owinięty 1.12.1 xgboost 1.5.2 zamek błyskawiczny 3.4.1

Biblioteki języka Python w klastrach gpu

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.11.0 Antergos Linux 2015.10 (ISO w trybie ciągłym) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
asynchroniczny generator 1.10 attrs 20.3.0 Wezwanie zwrotne 0.2.0
bcrypt 3.2.0 bidict 0.21.4 wybielacz 3.3.0
błogość 0.7.7 boto3 1.16.7 botocore 1.19.7
cachetools (narzędzia do zarządzania pamięcią podręczną) 4.2.4 katalog 2.0.7 certyfikat 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknij 7.1.2
cloudpickle (biblioteka Python do serializacji obiektów) 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konwertuj datę 2.4.0 kryptografia 3.4.7 rowerzysta 0.10.0
cymem 2.0.6 Cython 0.29.23 databricks-automl-runtime 0.2.7
databricks-cli 0.16.4 dbl-tempo 0.1.2 dbus-python 1.2.16
dekorator 5.0.6 defusedxml (biblioteka zabezpieczająca przetwarzanie XML) 0.7.1 koper 0.3.2
bufor dyskowy 5.4.0 distlib 0.3.4 informacje o dystrybucji 0.23ubuntu1
punkty wejścia 0,3 efem 4.1.3 aspekty — omówienie 1.0.0
FastText 0.9.2 blokada plików 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 przyszłość 0.18.2
Gast 0.4.0 gitdb (baza danych Git) 4.0.9 GitPython 3.1.12
google-auth (autoryzacja Google) 1.22.1 google-auth-oauthlib (biblioteka uwierzytelniania OAuth dla Google) 0.4.2 Makaron Google 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 Gviz-API 1.10.0
h5py 3.1.0 konwerter hidżryjski 2.2.3 wakacje 0,13
korowód 0.23.0 htmlmin 0.1.12 Hugging Face Hub 0.5.1
IDNA 2.10 ImageHash 4.2.1 niezrównoważona nauka 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jegodangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 Widżety JupyterLab 1.0.0 Keras 2.8.0
Przetwarzanie wstępne Keras 1.1.2 kiwisolver 1.3.1 Koale 1.8.2
koreański kalendarz księżycowy 0.2.1 kody językowe 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Kalendarz Księżycowy 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno (błąd w grze Pokémon) 0.5.1 rozstroić 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimetoda 1.8
szmurhash 1.0.6 NBClient 0.5.3 nbconvert - narzędzie do konwersji plików Jupyter Notebook 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
Natural Language Toolkit (nltk) 3.6.1 notes 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
opakowanie 21,3 Pandas 1.2.4 Pandas Profiling 3.1.0
pandocfilters 1.4.3 paramiko - biblioteka do protokołu SSH2 dla języka Python 2.7.2 parso 0.7.0
-patia 0.6.1 Patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.2 pickleshare (jeśli to nazwa własna, nie trzeba tłumaczyć) 0.7.5
Poduszka 8.2.0 pip (menedżer pakietów Pythona) 21.0.1 kreślenie 5.6.0
pmdarima 1.8.5 [Preserved translation until further clarification or context is available] 3.0.6 zestaw narzędzi prompt 3.0.17
prorok 1.0.1 Protobuf (w skrócie od Protocol Buffers) 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.2
pycparser 2,20 pydantic (biblioteka Python do walidacji danych i zarządzania ustawieniami) 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.5.0
pyodbc 4.0.30 pyparsing – biblioteka do przetwarzania tekstu w Pythonie 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil (biblioteka Pythona do zarządzania datami) 2.8.1
Edytor Pythona 1.0.4 Python-engineio 4.3.0 python-socketio 5.4.1
pytz (biblioteka Pythona do obliczeń stref czasowych) 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 wyrażenie regularne 2021.4.4 żądania 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 RSA 4.8
s3transfer 0.3.7 sacremoses 0.0.49 scikit-learn 0.24.1
scipy (biblioteka naukowa dla Pythona) 1.6.2 urodzony na morzu 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.40.0
simplejson 3.17.2 Sześć 1.15.0 fragmentator 0.0.7
inteligentne-otwarcie 5.2.1 smmap 3.0.5 rozkojarzony 3.2.3
spacy-legacy 3.0.9 spacy-loggers 1.0.2 spark-tensorflow-distributor (biblioteka do dystrybucji TensorFlow w Spark) 1.0.0
sqlparse 0.4.1 serio 2.4.3 ssh-import-id (narzędzie do importowania kluczy SSH) 5.10
statsmodels - biblioteka do modelowania statystycznego 0.12.2 tabulować 0.8.7 splątane-w-unicode 0.1.0
Wytrzymałość 6.2.0 tablica tensorboard 2.8.0 serwer danych TensorBoard 0.6.1
TensorBoard wtyczka-profil 2.5.0 wtyczka-tensorboard-wit 1.8.1 TensorFlow 2.8.0
tensorflow-estimator (moduł TensorFlow do estymacji) 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor (narzędzie do zarządzania kolorami w terminalu) 1.1.0
zakończony 0.9.4 ścieżka testowa 0.4.4 tf-estimator-nightly (nocna wersja narzędzia do estymacji tensorflow) 2.8.0.dev2021212109
cienki 8.0.15 threadpoolctl 2.1.0 tokenizatory 0.12.1
pochodnia 1.10.2+cu113 torchvision 0.11.3+cu113 tornado 6.1
tqdm 4.59.0 traitlety 5.0.5 Transformatory 4.17.0
pisarz 0.4.1 wpisywanie rozszerzeń 3.7.4.3 ujson (szybka biblioteka do obsługi formatu JSON) 4.0.2
nienadzorowane uaktualnienia 0.1 urllib3 1.25.11 virtualenv 20.4.1
Wizje 0.7.4 wasabi 0.9.1 szerokość(wcwidth) 0.2.5
kodowania webowe 0.5.1 websocket-klient 0.57.0 Narzędzie 1.0.1
wheel 0.36.2 widgetsnbextension 3.5.1 owinięty 1.12.1
xgboost 1.5.2 zamek błyskawiczny 3.4.1

Pakiety platformy Spark zawierające moduły języka Python

Pakiet Spark Moduł języka Python Wersja
GraphFrames GraphFrames 0.8.2-db1-spark3.2

Biblioteki R

Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 10.5.

Biblioteki Java i Scala (klaster Scala 2.12)

Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 10.5 środowisko Databricks Runtime 10.5 ML zawiera następujące elementy JAR:

Klastry procesora CPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Klastry procesora GPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0