Databricks Runtime 9.0 dla uczenia maszynowego (nieobsługiwane)
Usługa Databricks opublikowała ten obraz w sierpniu 2021 roku.
Środowisko Databricks Runtime 9.0 for Machine Edukacja zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 9.0 (nieobsługiwane). Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch i XGBoost. Obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.
Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks, zobacz AI and Machine Edukacja on Databricks (Sztuczna inteligencja i maszyna Edukacja w usłudze Databricks).
Korekta
Poprzednia wersja tych informacji o wersji stwierdziła, że obsługa monitorowania metryk procesora GPU klastra za pomocą platformy Ganglia została wyłączona w procesorze GPU usługi Databricks Runtime 9.0 ML. Dotyczyło to środowiska Databricks Runtime 9.0 ML w wersji beta, ale problem został rozwiązany przy użyciu wersji ogólnie dostępnej w środowisku Databricks Runtime 9.0 ML. Instrukcja została usunięta.
Nowe funkcje i ulepszenia
Środowisko Databricks Runtime 9.0 ML jest oparte na środowisku Databricks Runtime 9.0. Aby uzyskać informacje na temat nowości w środowisku Databricks Runtime 9.0, w tym apache Spark MLlib i SparkR, zobacz informacje o wersji środowiska Databricks Runtime 9.0 (nieobsługiwane).
Automatyczne rejestrowanie usługi Databricks (publiczna wersja zapoznawcza)
Automatyczne rejestrowanie w usłudze Databricks jest teraz dostępne dla środowiska Databricks Runtime 9.0 dla maszyny Edukacja w wybranych regionach. Automatyczne rejestrowanie usługi Databricks to rozwiązanie bez kodu, które zapewnia automatyczne śledzenie eksperymentów na potrzeby sesji uczenia maszynowego w usłudze Azure Databricks. Dzięki funkcji automatycznego rejestrowania usługi Databricks parametry modelu, metryki, pliki i informacje o pochodzenia są automatycznie przechwytywane podczas trenowania modeli z różnych popularnych bibliotek uczenia maszynowego. Sesje szkoleniowe są rejestrowane jako przebiegi śledzenia MLflow. Pliki modelu są również śledzone, dzięki czemu można je łatwo rejestrować w rejestrze modeli MLflow i wdrażać je na potrzeby oceniania w czasie rzeczywistym za pomocą usługi MLflow Model Serving.
Aby uzyskać więcej informacji na temat automatycznego rejestrowania w usłudze Databricks, zobacz Automatyczne rejestrowanie w usłudze Databricks.
Ulepszenia magazynu funkcji usługi Databricks
Wydajność tworzenia zestawu szkoleniowego została ulepszona przez zminimalizowanie liczby sprzężeń w tabelach funkcji źródłowych.
Integracja biblioteki XGBoost z rozwiązaniem PySpark obsługuje teraz rozproszone trenowanie i klastry procesora GPU
Aby uzyskać szczegółowe informacje, zobacz Use XGBoost on Azure Databricks (Używanie biblioteki XGBoost w usłudze Azure Databricks).
Istotne zmiany w środowisku języka Python środowiska Databricks Runtime ML
Środowiska Conda wraz z poleceniem %conda są usuwane. Środowisko Databricks Runtime 9.0 ML jest kompilowane za pomocą poleceń pip
i virtualenv
.
Obrazy niestandardowe korzystające ze środowisk opartych na platformie Conda z usługami Kontener Services usługi Databricks będą nadal obsługiwane, ale nie będą miały możliwości biblioteki o zakresie notesu. Usługa Databricks zaleca używanie środowisk wirtualnych z usługami Kontener Services usługi Databricks i %pip
wszystkich bibliotek o zakresie notesu.
Zobacz Databricks Runtime 9.0 (nieobsługiwane), aby zapoznać się z ważnymi zmianami w środowisku języka Python środowiska Databricks Runtime. Aby uzyskać pełną listę zainstalowanych pakietów języka Python i ich wersji, zobacz Biblioteki języka Python.
Uaktualnione pakiety języka Python
- mlflow 1.18.0 -> 1.19.0
- nltk 3.5 -> 3.6.1
Dodane pakiety języka Python
- proroka 1.0.1
Usunięte pakiety języka Python
- MKL
- azure-core
- azure-storage-blob
- msrest
- docker
- querystring-parser
- Intel-openmp
Wycofywanie i nieobsługiwane funkcje
- W środowisku Databricks Runtime 9.0 ML narzędzie HorovodRunner nie obsługuje ustawienia
np=0
, gdzienp
jest liczbą procesów równoległych do użycia dla zadania Horovod. - Środowisko Databricks Runtime 9.0 ML zawiera r-base 4.1.0 z aparatem graficznym języka R w wersji 14. Nie jest to obsługiwane przez program RStudio Server w wersji 1.2.x.
nvprof
Jest usuwany w środowisku Databricks Runtime 9.0 ML GPU.
Środowisko systemu
Środowisko systemowe w środowisku Databricks Runtime 9.0 ML różni się od środowiska Databricks Runtime 9.0 w następujący sposób:
- DBUtils: Środowisko uruchomieniowe Databricks Runtime ML nie zawiera narzędzia biblioteki (dbutils.library) (starsza wersja).
Zamiast tego użyj
%pip
poleceń. Zobacz Biblioteki języka Python o zakresie notesu. - W przypadku klastrów gpu środowisko Databricks Runtime ML obejmuje następujące biblioteki procesora GPU FIRMY NVIDIA:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
Biblioteki
W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 9.0 ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 9.0.
W tej sekcji:
- Biblioteki najwyższego poziomu
- Biblioteki języka Python
- Biblioteki języka R
- Biblioteki Java i Scala (klaster Scala 2.12)
Biblioteki najwyższego poziomu
Środowisko Databricks Runtime 9.0 ML obejmuje następujące biblioteki najwyższego poziomu:
- GraphFrames
- Horovod i HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Biblioteki języka Python
Środowisko Databricks Runtime 9.0 ML używa usługi Virtualenv do zarządzania pakietami języka Python i zawiera wiele popularnych pakietów uczenia maszynowego.
Oprócz pakietów określonych w poniższych sekcjach środowisko Databricks Runtime 9.0 ML zawiera również następujące pakiety:
- hyperopt 0.2.5.db2
- sparkdl 2.2.0_db1
- feature_store 0.3.3
- automl 1.1.1
Biblioteki języka Python w klastrach procesora CPU
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (rolling ISO) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | Bleach | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Wąskie gardło | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
kliknięcie | 7.1.2 | cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 |
configparser | 5.0.1 | konwertuj | 2.3.2 | Kryptografii | 3.4.7 |
Cycler | 0.10.0 | Cython | 0.29.23 | databricks-cli | 0.14.3 |
dbus-python | 1.2.16 | Dekorator | 5.0.6 | defusedxml | 0.7.1 |
Koperek | 0.3.2 | diskcache | 5.2.1 | distlib | 0.3.2 |
dystrybucja informacji | 0.23ubuntu1 | punkty wejścia | 0.3 | efem | 4.0.0.2 |
aspekty — omówienie | 1.0.0 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 0.9.0 | Przyszłości | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | makaron google | 0.2.0 |
grpcio | 1.34.1 | gunicorn | 20.0.4 | h5py | 3.1.0 |
konwerter hidżri | 2.1.3 | Wakacje | 0.10.5.2 | horovod | 0.22.1 |
htmlmin | 0.1.12 | Idna | 2.10 | ImageHash | 4.2.1 |
ipykernel | 5.3.4 | Ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | isodate | 0.6.0 | jegodangerous | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.1 | keras-nightly | 2.5.0.dev2021032900 | Przetwarzanie wstępne protokołu Keras | 1.1.2 |
kiwisolver | 1.3.1 | Koale | 1.8.1 | koreański kalendarz księżycowy | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.36.0 | KsiężycowyCalendar | 0.0.9 |
Mako | 1.1.3 | Znaczniki języka Markdown | 3.3.3 | Znaczniki Sejf | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.19.0 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2,5 | nltk | 3.6.1 |
notes | 6.3.0 | numba | 0.53.1 | Numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | Opakowania | 20.9 |
Pandas | 1.2.4 | Profilowanie biblioteki pandas | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | Patsy | 0.5.1 |
petastorm | 0.11.1 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Poduszkę | 8.2.0 | Pip | 21.0.1 |
kreślenie | 4.14.3 | prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 |
Proroka | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pirstent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | Python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | Regex | 2021.4.4 | żądania | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | Ponawianie | 1.3.3 |
rsa | 4.7.2 | s3transfer | 0.3.7 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | Shap | 0.39.0 |
simplejson | 3.17.2 | Sześć | 1.15.0 | Fragmentatora | 0.0.7 |
smmap | 3.0.5 | spark-tensorflow-distributor | 0.1.0 | sqlparse | 0.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulacji | 0.8.7 |
splątane-up-in-unicode | 0.1.0 | tablica tensorboard | 2.5.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.5.0 | tensorflow-estimator | 2.5.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | ścieżka testowa | 0.4.4 |
threadpoolctl | 2.1.0 | Palnika | 1.9.0+ procesor | torchvision | 0.10.0+procesor |
Tornado | 6.1 | tqdm | 4.59.0 | traitlety | 5.0.5 |
wpisywanie rozszerzeń | 3.7.4.3 | ujson | 4.0.2 | nienadzorowane uaktualnienia | 0.1 |
urllib3 | 1.25.11 | Virtualenv | 20.4.1 | Wizje | 0.7.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | Koła | 0.36.2 | widgetsnbextension | 3.5.1 |
zawijanie | 1.12.1 | xgboost | 1.4.2 |
Biblioteki języka Python w klastrach gpu
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (rolling ISO) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | Bleach | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Wąskie gardło | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
kliknięcie | 7.1.2 | cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 |
configparser | 5.0.1 | konwertuj | 2.3.2 | Kryptografii | 3.4.7 |
Cycler | 0.10.0 | Cython | 0.29.23 | databricks-cli | 0.14.3 |
dbus-python | 1.2.16 | Dekorator | 5.0.6 | defusedxml | 0.7.1 |
Koperek | 0.3.2 | diskcache | 5.2.1 | distlib | 0.3.2 |
dystrybucja informacji | 0.23ubuntu1 | punkty wejścia | 0.3 | efem | 4.0.0.2 |
aspekty — omówienie | 1.0.0 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 0.9.0 | Przyszłości | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | makaron google | 0.2.0 |
grpcio | 1.34.1 | gunicorn | 20.0.4 | h5py | 3.1.0 |
konwerter hidżri | 2.1.3 | Wakacje | 0.10.5.2 | horovod | 0.22.1 |
htmlmin | 0.1.12 | Idna | 2.10 | ImageHash | 4.2.1 |
ipykernel | 5.3.4 | Ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | isodate | 0.6.0 | jegodangerous | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.1 | keras-nightly | 2.5.0.dev2021032900 | Przetwarzanie wstępne protokołu Keras | 1.1.2 |
kiwisolver | 1.3.1 | Koale | 1.8.1 | koreański kalendarz księżycowy | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.36.0 | KsiężycowyCalendar | 0.0.9 |
Mako | 1.1.3 | Znaczniki języka Markdown | 3.3.3 | Znaczniki Sejf | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.19.0 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2,5 | nltk | 3.6.1 |
notes | 6.3.0 | numba | 0.53.1 | Numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | Opakowania | 20.9 |
Pandas | 1.2.4 | Profilowanie biblioteki pandas | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | Patsy | 0.5.1 |
petastorm | 0.11.1 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Poduszkę | 8.2.0 | Pip | 21.0.1 |
kreślenie | 4.14.3 | prometheus-client | 0.11.0 | prompt-toolkit | 3.0.17 |
Proroka | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pirstent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | Python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | Regex | 2021.4.4 | żądania | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | Ponawianie | 1.3.3 |
rsa | 4.7.2 | s3transfer | 0.3.7 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | Shap | 0.39.0 |
simplejson | 3.17.2 | Sześć | 1.15.0 | Fragmentatora | 0.0.7 |
smmap | 3.0.5 | spark-tensorflow-distributor | 0.1.0 | sqlparse | 0.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulacji | 0.8.7 |
splątane-up-in-unicode | 0.1.0 | tablica tensorboard | 2.5.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow | 2.5.0 | tensorflow-estimator | 2.5.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | ścieżka testowa | 0.4.4 |
threadpoolctl | 2.1.0 | Palnika | 1.9.0+cu111 | torchvision | 0.10.0+cu111 |
Tornado | 6.1 | tqdm | 4.59.0 | traitlety | 5.0.5 |
wpisywanie rozszerzeń | 3.7.4.3 | ujson | 4.0.2 | nienadzorowane uaktualnienia | 0.1 |
urllib3 | 1.25.11 | Virtualenv | 20.4.1 | Wizje | 0.7.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | Koła | 0.36.2 | widgetsnbextension | 3.5.1 |
zawijanie | 1.12.1 | xgboost | 1.4.2 |
Pakiety platformy Spark zawierające moduły języka Python
Pakiet Platformy Spark | Moduł języka Python | Wersja |
---|---|---|
ramki grafu | ramki grafu | 0.8.1-db3-spark3.1 |
Biblioteki języka R
Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 9.0.
Biblioteki Java i Scala (klaster Scala 2.12)
Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 9.0 środowisko Databricks Runtime 9.0 ML zawiera następujące jednostki JAR:
Klastry procesora CPU
Identyfikator grupy | Identyfikator artefaktu | Wersja |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.19.0 |
org.mlflow | mlflow-spark | 1.19.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Klastry procesora GPU
Identyfikator grupy | Identyfikator artefaktu | Wersja |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.19.0 |
org.mlflow | mlflow-spark | 1.19.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |