Databricks Runtime 10.4 LTS do uczenia maszynowego (EoS)

Uwaga

Obsługa tej wersji środowiska Databricks Runtime została zakończona. Aby zapoznać się z datą zakończenia wsparcia, zobacz End-of-support and end-of-life history (Koniec wsparcia technicznego i historia zakończenia życia). Wszystkie obsługiwane wersje środowiska Databricks Runtime można znaleźć w sekcji Notatki o wersjach i zgodności środowiska Databricks Runtime.

Środowisko Databricks Runtime 10.4 LTS dla uczenia maszynowego zapewnia gotowe do użycia środowisko na potrzeby uczenia maszynowego i analizy danych na podstawie Databricks Runtime 10.4 LTS (EoS). Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch i XGBoost. Środowisko Databricks Runtime ML obejmuje rozwiązanie AutoML— narzędzie do automatycznego trenowania potoków uczenia maszynowego. Środowisko Databricks Runtime ML obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.

Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks Runtime, zobacz Sztuczna inteligencja i uczenie maszynowe w usłudze Databricks.

Nowe funkcje i ulepszenia

Środowisko Databricks Runtime 10.4 LTS ML jest oparte na środowisku Databricks Runtime 10.4 LTS. Aby uzyskać informacje o nowościach w Databricks Runtime 10.4 LTS, w tym Apache Spark MLlib i SparkR, zobacz informacje o wydaniu Databricks Runtime 10.4 LTS (EoS).

Ulepszenia rozwiązania AutoML

Następujące ulepszenia zostały wprowadzone do rozwiązania AutoML.

Rozwiązanie AutoML jest ogólnie dostępne

Począwszy od środowiska Databricks Runtime 10.4 LTS ML, rozwiązanie AutoML jest ogólnie dostępne.

Imputacja brakujących wartości

Teraz możesz określić, w jaki sposób wartości null są przypisywane. Domyślnie rozwiązanie AutoML wybiera metodę imputacji na podstawie typu kolumny i zawartości. Aby uzyskać szczegółowe informacje, zobacz Uzupełnianie brakujących wartości.

Wybór kolumny z interfejsu użytkownika

W przypadku problemów klasyfikacji i regresji można teraz używać interfejsu użytkownika oprócz interfejsu API do określania kolumn, które mają być ignorowane przez rozwiązanie AutoML podczas wykonywania obliczeń. Zobacz Wybór kolumny.

Nowy typ danych

Rozwiązanie AutoML obsługuje teraz typy tablic liczbowych.

Własna lokalizacja wygenerowanych notebooków i eksperymentów

Teraz możesz określić lokalizację w obszarze roboczym, w którym rozwiązanie AutoML powinno zapisywać wygenerowane notesy i eksperymenty. Użyj parametru experiment_dir . Zobacz Dokumentacja referencyjna AutoML Python API.

Ulepszenia funkcji Databricks Feature Store

Następujące ulepszenia zostały wprowadzone w usłudze Databricks Feature Store.

  • Teraz możesz zarejestrować istniejącą tabelę delty jako tabelę funkcji.

Środowisko systemu

Środowisko systemowe w środowisku Databricks Runtime 10.4 LTS ML różni się od środowiska Databricks Runtime 10.4 LTS w następujący sposób:

  • DBUtils: Środowisko uruchomieniowe Databricks Runtime ML nie zawiera narzędzia biblioteki (dbutils.library) (starsza wersja). Użyj zamiast tego poleceń %pip. Zobacz biblioteki Python Python Notebook.
  • W przypadku klastrów gpu środowisko Databricks Runtime ML obejmuje następujące biblioteki procesora GPU FIRMY NVIDIA:
    • CUDA 11.0
    • cuDNN 8.0.5.39
    • NCCL 2.10.3
    • TensorRT 7.2.2

Biblioteki

W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 10.4 LTS ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 10.4 LTS.

W tej sekcji:

Biblioteki najwyższego poziomu

Środowisko Databricks Runtime 10.4 LTS ML obejmuje następujące biblioteki najwyższego poziomu:

biblioteki Python

Środowisko Databricks Runtime 10.4 LTS ML używa usługi Virtualenv do zarządzania pakietami Python i zawiera wiele popularnych pakietów uczenia maszynowego.

Oprócz pakietów określonych w poniższych sekcjach środowisko Databricks Runtime 10.4 LTS ML zawiera również następujące pakiety:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

biblioteki Python w klastrach procesora CPU

Aby odtworzyć środowisko Python Databricks Runtime ML w lokalnym wirtualnym środowisku Python, pobierz plik requirements-10.4.txt i wykonaj polecenie pip install -r requirements-10.4.txt. To polecenie instaluje wszystkie biblioteki open source używane przez usługę Databricks Runtime ML, ale nie instaluje niestandardowych bibliotek opracowanych przez Azure Databricks, takich jak databricks-automl, databricks-feature-store lub fork Databricks hyperopt.

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.11.0 Antergos Linux 2015.10 (ISO rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
asynchroniczny generator 1.10 attrs 20.3.0 oddzwonienie 0.2.0
bcrypt 3.2.0 bidict 0.21.4 wybielacz 3.3.0
błogość 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools (narzędzia do zarządzania pamięcią podręczną) 4.2.4 katalog 2.0.6 certyfikat 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknięcie 7.1.2
cloudpickle (biblioteka Python do serializacji obiektów) 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konwersja daty 2.3.2 kryptografia 3.4.7 rowerzysta 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
dekorator 5.0.6 defusedxml (biblioteka zabezpieczająca przetwarzanie XML) 0.7.1 koper 0.3.2
bufor dyskowy 5.2.1 distlib 0.3.4 informacje o dystrybucji 0.23ubuntu1
punkty wejścia 0,3 efem 4.1.3 aspekty — omówienie 1.0.0
FastText 0.9.2 blokada plików 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 przyszłość 0.18.2
Gast 0.4.0 gitdb (baza danych Git) 4.0.7 GitPython 3.1.12
google-auth (autoryzacja Google) 1.22.1 google-auth-oauthlib (biblioteka uwierzytelniania OAuth dla Google) 0.4.2 makaron google 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 Gviz-API 1.10.0
h5py 3.1.0 przelicznik kalendarza hidżry 2.2.3 wakacje 0,12
korowód 0.23.0 htmlmin 0.1.12 Hugging Face Hub 0.1.2
IDNA 2.10 ImageHash 4.2.1 niezrównoważona nauka 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jegodangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 Widżety JupyterLab 1.0.0 Keras 2.8.0
Wstępne przetwarzanie Keras 1.1.2 kiwisolver 1.3.1 Koale 1.8.2
koreański kalendarz księżycowy 0.2.1 kody językowe 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Kalendarz księżycowy 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno (błąd w grze Pokémon) 0.5.1 rozstroić 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 wielometodowy 1,7
szmurhash 1.0.5 NBClient 0.5.3 nbconvert - narzędzie do konwersji plików Jupyter Notebook 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
Natural Language Toolkit (nltk) 3.6.1 notes 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
opakowanie 21,3 Pandas 1.2.4 Profilowanie pandas 3.1.0
pandocfilters 1.4.3 paramiko - biblioteka do protokołu SSH2 dla języka Python 2.7.2 parso 0.7.0
patologia 0.6.0 Patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare (jeśli to nazwa własna, nie trzeba tłumaczyć) 0.7.5
Poduszka 8.2.0 pip (menedżer pakietów Pythona) 21.0.1 kreślenie 5.5.0
pmdarima 1.8.4 przeszhetowany 3.0.5 prometheus-client 0.10.1
zestaw narzędzi prompt 3.0.17 prorok 1.0.1 Protobuf (w skrócie od Protocol Buffers) 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.1 pycparser 2,20 pydantic (biblioteka Python do walidacji danych i zarządzania ustawieniami) 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing – biblioteka do przetwarzania tekstu w Pythonie 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
python-dateutil (biblioteka Pythona do zarządzania datami) 2.8.1 Python-editor 1.0.4 Python-engineio 4.3.0
python-socketio 5.4.1 pytz (biblioteka Pythona do obliczeń stref czasowych) 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 wyrażenie regularne 2021.4.4
żądania 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
RSA 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy (biblioteka naukowa dla Pythona) 1.6.2 urodzony na morzu 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
Shap 0.40.0 simplejson 3.17.2 Sześć 1.15.0
fragmentator 0.0.7 inteligentne-otwarcie 5.2.0 smmap 3.0.5
przestronny 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor (biblioteka do dystrybucji TensorFlow w Spark) 1.0.0 sqlparse 0.4.1 serio 2.4.1
ssh-import-id (narzędzie do importowania kluczy SSH) 5.10 statsmodels - biblioteka do modelowania statystycznego 0.12.2 tabulować 0.8.7
uwikłany-w-unicode 0.1.0 Wytrzymałość 6.2.0 TensorBoard 2.8.0
serwer danych TensorBoard 0.6.1 wtyczka TensorBoard do profilowania 2.5.0 wtyczka-tensorboard-wit 1.8.1
tensorflow-cpu 2.8.0 tensorflow-estimator (moduł TensorFlow do estymacji) 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor (narzędzie do zarządzania kolorami w terminalu) 1.1.0 zakończony 0.9.4 ścieżka testowa 0.4.4
tf-estimator-nightly (nocna wersja narzędzia do estymacji tensorflow) 2.8.0.dev2021212109 cienki 8.0.12 threadpoolctl 2.1.0
tokenizatory 0.10.3 pochodnia 1.10.2+procesor TorchVision (Wizja Pochodni 0.11.3+procesor
tornado 6.1 tqdm 4.59.0 traitlety 5.0.5
Transformersi 4.16.2 pisarz 0.3.2 wpisywanie rozszerzeń 3.7.4.3
ujson (szybka biblioteka do obsługi formatu JSON) 4.0.2 nienadzorowane uaktualnienia 0.1 urllib3 1.25.11
virtualenv 20.4.1 Wizje 0.7.4 wasabi 0.8.2
szerokość(wcwidth) 0.2.5 kodowania webowe 0.5.1 websocket-klient 0.57.0
Narzędzie 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
owinięty 1.12.1 xgboost 1.5.2 zamek błyskawiczny 3.4.1

biblioteki Python w klastrach gpu

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.11.0 Antergos Linux 2015.10 (ISO rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
asynchroniczny generator 1.10 attrs 20.3.0 oddzwonienie 0.2.0
bcrypt 3.2.0 bidict 0.21.4 wybielacz 3.3.0
błogość 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools (narzędzia do zarządzania pamięcią podręczną) 4.2.4 katalog 2.0.6 certyfikat 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknięcie 7.1.2
cloudpickle (biblioteka Python do serializacji obiektów) 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konwersja daty 2.3.2 kryptografia 3.4.7 rowerzysta 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
dekorator 5.0.6 defusedxml (biblioteka zabezpieczająca przetwarzanie XML) 0.7.1 koper 0.3.2
bufor dyskowy 5.2.1 distlib 0.3.4 informacje o dystrybucji 0.23ubuntu1
punkty wejścia 0,3 efem 4.1.3 aspekty — omówienie 1.0.0
FastText 0.9.2 blokada plików 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 przyszłość 0.18.2
Gast 0.4.0 gitdb (baza danych Git) 4.0.7 GitPython 3.1.12
google-auth (autoryzacja Google) 1.22.1 google-auth-oauthlib (biblioteka uwierzytelniania OAuth dla Google) 0.4.2 makaron google 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 Gviz-API 1.10.0
h5py 3.1.0 przelicznik kalendarza hidżry 2.2.3 wakacje 0,12
korowód 0.23.0 htmlmin 0.1.12 Hugging Face Hub 0.1.2
IDNA 2.10 ImageHash 4.2.1 niezrównoważona nauka 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jegodangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 Widżety JupyterLab 1.0.0 Keras 2.8.0
Wstępne przetwarzanie Keras 1.1.2 kiwisolver 1.3.1 Koale 1.8.2
koreański kalendarz księżycowy 0.2.1 kody językowe 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Kalendarz księżycowy 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno (błąd w grze Pokémon) 0.5.1 rozstroić 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 wielometodowy 1,7
szmurhash 1.0.5 NBClient 0.5.3 nbconvert - narzędzie do konwersji plików Jupyter Notebook 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
Natural Language Toolkit (nltk) 3.6.1 notes 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
opakowanie 21,3 Pandas 1.2.4 Profilowanie pandas 3.1.0
pandocfilters 1.4.3 paramiko - biblioteka do protokołu SSH2 dla języka Python 2.7.2 parso 0.7.0
patologia 0.6.0 Patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare (jeśli to nazwa własna, nie trzeba tłumaczyć) 0.7.5
Poduszka 8.2.0 pip (menedżer pakietów Pythona) 21.0.1 kreślenie 5.5.0
pmdarima 1.8.4 przeszhetowany 3.0.5 zestaw narzędzi prompt 3.0.17
prorok 1.0.1 Protobuf (w skrócie od Protocol Buffers) 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.1
pycparser 2,20 pydantic (biblioteka Python do walidacji danych i zarządzania ustawieniami) 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing – biblioteka do przetwarzania tekstu w Pythonie 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil (biblioteka Pythona do zarządzania datami) 2.8.1
Python-editor 1.0.4 Python-engineio 4.3.0 python-socketio 5.4.1
pytz (biblioteka Pythona do obliczeń stref czasowych) 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 wyrażenie regularne 2021.4.4 żądania 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 RSA 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy (biblioteka naukowa dla Pythona) 1.6.2 urodzony na morzu 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.40.0
simplejson 3.17.2 Sześć 1.15.0 fragmentator 0.0.7
inteligentne-otwarcie 5.2.0 smmap 3.0.5 przestronny 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor (biblioteka do dystrybucji TensorFlow w Spark) 1.0.0
sqlparse 0.4.1 serio 2.4.1 ssh-import-id (narzędzie do importowania kluczy SSH) 5.10
statsmodels - biblioteka do modelowania statystycznego 0.12.2 tabulować 0.8.7 uwikłany-w-unicode 0.1.0
Wytrzymałość 6.2.0 TensorBoard 2.8.0 serwer danych TensorBoard 0.6.1
wtyczka TensorBoard do profilowania 2.5.0 wtyczka-tensorboard-wit 1.8.1 TensorFlow 2.8.0
tensorflow-estimator (moduł TensorFlow do estymacji) 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor (narzędzie do zarządzania kolorami w terminalu) 1.1.0
zakończony 0.9.4 ścieżka testowa 0.4.4 tf-estimator-nightly (nocna wersja narzędzia do estymacji tensorflow) 2.8.0.dev2021212109
cienki 8.0.12 threadpoolctl 2.1.0 tokenizatory 0.10.3
pochodnia 1.10.2+cu111 TorchVision (Wizja Pochodni 0.11.3+cu111 tornado 6.1
tqdm 4.59.0 traitlety 5.0.5 Transformersi 4.16.2
pisarz 0.3.2 wpisywanie rozszerzeń 3.7.4.3 ujson (szybka biblioteka do obsługi formatu JSON) 4.0.2
nienadzorowane uaktualnienia 0.1 urllib3 1.25.11 virtualenv 20.4.1
Wizje 0.7.4 wasabi 0.8.2 szerokość(wcwidth) 0.2.5
kodowania webowe 0.5.1 websocket-klient 0.57.0 Narzędzie 1.0.1
wheel 0.36.2 widgetsnbextension 3.5.1 owinięty 1.12.1
xgboost 1.5.2 zamek błyskawiczny 3.4.1

Pakiety platformy Spark zawierające moduły Python

Pakiet Spark moduł Python Wersja
GraphFrames GraphFrames 0.8.2-db1-spark3.2

Biblioteki R

Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 10.4 LTS.

biblioteki Java i Scala (klaster Scala 2.12)

Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 10.4 LTS, środowisko Databricks Runtime 10.4 LTS ML zawiera następujące jednostki JAR:

Klastry procesora CPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Klastry procesora GPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0