Databricks Runtime 9.0 dla uczenia maszynowego (nieobsługiwane)

Usługa Databricks opublikowała ten obraz w sierpniu 2021 roku.

Środowisko Databricks Runtime 9.0 for Machine Edukacja zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 9.0 (nieobsługiwane). Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch i XGBoost. Obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.

Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks, zobacz AI and Machine Edukacja on Databricks (Sztuczna inteligencja i maszyna Edukacja w usłudze Databricks).

Korekta

Poprzednia wersja tych informacji o wersji stwierdziła, że obsługa monitorowania metryk procesora GPU klastra za pomocą platformy Ganglia została wyłączona w procesorze GPU usługi Databricks Runtime 9.0 ML. Dotyczyło to środowiska Databricks Runtime 9.0 ML w wersji beta, ale problem został rozwiązany przy użyciu wersji ogólnie dostępnej w środowisku Databricks Runtime 9.0 ML. Instrukcja została usunięta.

Nowe funkcje i ulepszenia

Środowisko Databricks Runtime 9.0 ML jest oparte na środowisku Databricks Runtime 9.0. Aby uzyskać informacje na temat nowości w środowisku Databricks Runtime 9.0, w tym apache Spark MLlib i SparkR, zobacz informacje o wersji środowiska Databricks Runtime 9.0 (nieobsługiwane).

Automatyczne rejestrowanie usługi Databricks (publiczna wersja zapoznawcza)

Automatyczne rejestrowanie w usłudze Databricks jest teraz dostępne dla środowiska Databricks Runtime 9.0 dla maszyny Edukacja w wybranych regionach. Automatyczne rejestrowanie usługi Databricks to rozwiązanie bez kodu, które zapewnia automatyczne śledzenie eksperymentów na potrzeby sesji uczenia maszynowego w usłudze Azure Databricks. Dzięki funkcji automatycznego rejestrowania usługi Databricks parametry modelu, metryki, pliki i informacje o pochodzenia są automatycznie przechwytywane podczas trenowania modeli z różnych popularnych bibliotek uczenia maszynowego. Sesje szkoleniowe są rejestrowane jako przebiegi śledzenia MLflow. Pliki modelu są również śledzone, dzięki czemu można je łatwo rejestrować w rejestrze modeli MLflow i wdrażać je na potrzeby oceniania w czasie rzeczywistym za pomocą usługi MLflow Model Serving.

Aby uzyskać więcej informacji na temat automatycznego rejestrowania w usłudze Databricks, zobacz Automatyczne rejestrowanie w usłudze Databricks.

Ulepszenia magazynu funkcji usługi Databricks

Wydajność tworzenia zestawu szkoleniowego została ulepszona przez zminimalizowanie liczby sprzężeń w tabelach funkcji źródłowych.

Integracja biblioteki XGBoost z rozwiązaniem PySpark obsługuje teraz rozproszone trenowanie i klastry procesora GPU

Aby uzyskać szczegółowe informacje, zobacz Use XGBoost on Azure Databricks (Używanie biblioteki XGBoost w usłudze Azure Databricks).

Istotne zmiany w środowisku języka Python środowiska Databricks Runtime ML

Środowiska Conda wraz z poleceniem %conda są usuwane. Środowisko Databricks Runtime 9.0 ML jest kompilowane za pomocą poleceń pip i virtualenv. Obrazy niestandardowe korzystające ze środowisk opartych na platformie Conda z usługami Kontener Services usługi Databricks będą nadal obsługiwane, ale nie będą miały możliwości biblioteki o zakresie notesu. Usługa Databricks zaleca używanie środowisk wirtualnych z usługami Kontener Services usługi Databricks i %pip wszystkich bibliotek o zakresie notesu.

Zobacz Databricks Runtime 9.0 (nieobsługiwane), aby zapoznać się z ważnymi zmianami w środowisku języka Python środowiska Databricks Runtime. Aby uzyskać pełną listę zainstalowanych pakietów języka Python i ich wersji, zobacz Biblioteki języka Python.

Uaktualnione pakiety języka Python

  • mlflow 1.18.0 -> 1.19.0
  • nltk 3.5 -> 3.6.1

Dodane pakiety języka Python

  • proroka 1.0.1

Usunięte pakiety języka Python

  • MKL
  • azure-core
  • azure-storage-blob
  • msrest
  • docker
  • querystring-parser
  • Intel-openmp

Wycofywanie i nieobsługiwane funkcje

  • W środowisku Databricks Runtime 9.0 ML narzędzie HorovodRunner nie obsługuje ustawienia np=0, gdzie np jest liczbą procesów równoległych do użycia dla zadania Horovod.
  • Środowisko Databricks Runtime 9.0 ML zawiera r-base 4.1.0 z aparatem graficznym języka R w wersji 14. Nie jest to obsługiwane przez program RStudio Server w wersji 1.2.x.
  • nvprof Jest usuwany w środowisku Databricks Runtime 9.0 ML GPU.

Środowisko systemu

Środowisko systemowe w środowisku Databricks Runtime 9.0 ML różni się od środowiska Databricks Runtime 9.0 w następujący sposób:

Biblioteki

W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 9.0 ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 9.0.

W tej sekcji:

Biblioteki najwyższego poziomu

Środowisko Databricks Runtime 9.0 ML obejmuje następujące biblioteki najwyższego poziomu:

Biblioteki języka Python

Środowisko Databricks Runtime 9.0 ML używa usługi Virtualenv do zarządzania pakietami języka Python i zawiera wiele popularnych pakietów uczenia maszynowego.

Oprócz pakietów określonych w poniższych sekcjach środowisko Databricks Runtime 9.0 ML zawiera również następujące pakiety:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

Biblioteki języka Python w klastrach procesora CPU

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.11.0 Antergos Linux 2015.10 (rolling ISO) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 Bleach 3.3.0 boto3 1.16.7
botocore 1.19.7 Wąskie gardło 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
kliknięcie 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 konwertuj 2.3.2 Kryptografii 3.4.7
Cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 Dekorator 5.0.6 defusedxml 0.7.1
Koperek 0.3.2 diskcache 5.2.1 distlib 0.3.2
dystrybucja informacji 0.23ubuntu1 punkty wejścia 0.3 efem 4.0.0.2
aspekty — omówienie 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 Przyszłości 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 makaron google 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
konwerter hidżri 2.1.3 Wakacje 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 Idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 jegodangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Przetwarzanie wstępne protokołu Keras 1.1.2
kiwisolver 1.3.1 Koale 1.8.1 koreański kalendarz księżycowy 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 KsiężycowyCalendar 0.0.9
Mako 1.1.3 Znaczniki języka Markdown 3.3.3 Znaczniki Sejf 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 nltk 3.6.1
notes 6.3.0 numba 0.53.1 Numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Opakowania 20.9
Pandas 1.2.4 Profilowanie biblioteki pandas 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Poduszkę 8.2.0 Pip 21.0.1
kreślenie 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
Proroka 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pirstent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 Python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 żądania 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Ponawianie 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
simplejson 3.17.2 Sześć 1.15.0 Fragmentatora 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulacji 0.8.7
splątane-up-in-unicode 0.1.0 tablica tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 ścieżka testowa 0.4.4
threadpoolctl 2.1.0 Palnika 1.9.0+ procesor torchvision 0.10.0+procesor
Tornado 6.1 tqdm 4.59.0 traitlety 5.0.5
wpisywanie rozszerzeń 3.7.4.3 ujson 4.0.2 nienadzorowane uaktualnienia 0.1
urllib3 1.25.11 Virtualenv 20.4.1 Wizje 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Koła 0.36.2 widgetsnbextension 3.5.1
zawijanie 1.12.1 xgboost 1.4.2

Biblioteki języka Python w klastrach gpu

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.11.0 Antergos Linux 2015.10 (rolling ISO) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 Bleach 3.3.0 boto3 1.16.7
botocore 1.19.7 Wąskie gardło 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
kliknięcie 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 konwertuj 2.3.2 Kryptografii 3.4.7
Cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 Dekorator 5.0.6 defusedxml 0.7.1
Koperek 0.3.2 diskcache 5.2.1 distlib 0.3.2
dystrybucja informacji 0.23ubuntu1 punkty wejścia 0.3 efem 4.0.0.2
aspekty — omówienie 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 Przyszłości 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 makaron google 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
konwerter hidżri 2.1.3 Wakacje 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 Idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 jegodangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Przetwarzanie wstępne protokołu Keras 1.1.2
kiwisolver 1.3.1 Koale 1.8.1 koreański kalendarz księżycowy 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 KsiężycowyCalendar 0.0.9
Mako 1.1.3 Znaczniki języka Markdown 3.3.3 Znaczniki Sejf 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 nltk 3.6.1
notes 6.3.0 numba 0.53.1 Numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Opakowania 20.9
Pandas 1.2.4 Profilowanie biblioteki pandas 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Poduszkę 8.2.0 Pip 21.0.1
kreślenie 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
Proroka 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pirstent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 Python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 żądania 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Ponawianie 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
simplejson 3.17.2 Sześć 1.15.0 Fragmentatora 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulacji 0.8.7
splątane-up-in-unicode 0.1.0 tablica tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 ścieżka testowa 0.4.4
threadpoolctl 2.1.0 Palnika 1.9.0+cu111 torchvision 0.10.0+cu111
Tornado 6.1 tqdm 4.59.0 traitlety 5.0.5
wpisywanie rozszerzeń 3.7.4.3 ujson 4.0.2 nienadzorowane uaktualnienia 0.1
urllib3 1.25.11 Virtualenv 20.4.1 Wizje 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Koła 0.36.2 widgetsnbextension 3.5.1
zawijanie 1.12.1 xgboost 1.4.2

Pakiety platformy Spark zawierające moduły języka Python

Pakiet Platformy Spark Moduł języka Python Wersja
ramki grafu ramki grafu 0.8.1-db3-spark3.1

Biblioteki języka R

Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 9.0.

Biblioteki Java i Scala (klaster Scala 2.12)

Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 9.0 środowisko Databricks Runtime 9.0 ML zawiera następujące jednostki JAR:

Klastry procesora CPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Klastry procesora GPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0