Databricks Runtime 13.0 для Машинное обучение (не поддерживается)

Databricks Runtime 13.0 для Машинное обучение предоставляет готовую среду для машинного обучения и обработки и анализа данных на основе Databricks Runtime 13.0 (неподдерживаемая версия). Databricks Runtime ML содержит множество популярных библиотек машинного обучения, включая TensorFlow, PyTorch и XGBoost. Databricks Runtime ML включает AutoML – средство для автоматического обучения конвейеров машинного обучения. Databricks Runtime ML также поддерживает распределенное углубленное обучение с использованием Horovod.

Дополнительные сведения, включая инструкции по созданию кластера Databricks Runtime ML, см. в статье ИИ и Машинное обучение в Databricks.

Новые функции и внесенные улучшения

Databricks Runtime 13.0 ML построен на основе Databricks Runtime 13.0. Сведения о новых возможностях Databricks Runtime 13.0, включая Apache Spark MLlib и SparkR, см. в заметках о выпуске Databricks Runtime 13.0 (неподдерживаемых).

Изменения в Databricks AutoML

В Databricks Runtime 13.0 ML и более поздних версиях Databricks AutoML не поддерживается для рабочих областей с соответствием FedRAMP .

Дополнительные сведения о Databricks AutoML см. в разделе "Что такое AutoML?".

Улучшения хранилища признаков в Databricks

В рабочих областях с поддержкой каталога Unity в кластере под управлением Databricks Runtime 13.0 ML или более поздней версии можно опубликовать таблицы функций рабочей области и каталога Unity в интернет-магазинах Cosmos DB.

Дополнительные сведения о Хранилище компонентов Databricks см. в разделе "Что такое хранилище функций?".

Системная среда

Системная среда в Databricks Runtime 13.0 ML отличается от Databricks Runtime 13.0 следующим образом:

Databricks Runtime 13.0 ML включает XGBoost 1.7.2, который не поддерживает кластеры GPU с возможностями вычислений 5.2 и ниже.

Пакет miniconda удален из Databricks Runtime 13.0 ML.

Библиотеки

В следующих разделах перечислены библиотеки, включенные в Databricks Runtime 13.0 ML, которые отличаются от библиотек, включенных в Databricks Runtime 13.0.

В этом разделе рассматриваются следующие вопросы.

Библиотеки верхнего уровня

Databricks Runtime 13.0 ML включает следующие библиотеки верхнего уровня:

Библиотеки Python

Databricks Runtime 13.0 ML использует Virtualenv для управления пакетами Python и включает множество популярных пакетов машинного обучения.

В azure Databricks Runtime 13.0 ml появились следующие библиотеки Python:

  • accelerate
  • наборы данных
  • evaluate
  • ydata-profiling

Помимо пакетов, указанных в следующих разделах, Databricks Runtime 13.0 ML также включает следующие пакеты:

  • Hyperopt 0.2.7+db3
  • sparkdl 3.0.0_db1
  • automl 1.17.0

Чтобы воспроизвести среду Python среды выполнения Databricks в локальной виртуальной среде Python, скачайте файл requirements-13.0.txt и запустите pip install -r requirements-13.0.txtего. Эта команда устанавливает все библиотеки открытый код, которые использует Databricks Runtime ML, но не устанавливает библиотеки, разработанные Databricks, например databricks-automldatabricks-feature-store, или вилку hyperoptDatabricks.

Библиотеки Python в кластерах CPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 accelerate 0.16.0 aiohttp 3.8.4
aiosignal 1.3.1 appdirs 1.4.4 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 astor 0.8.1 asttokens 2.2.1
astunparse 1.6.3 async-timeout 4.0.2 attrs 21.4.0
azure-core 1.26.3 azure-cosmos 4.3.1b1 backcall 0.2.0
bcrypt 3.2.0 beautifulsoup4 4.11.1 black 22.6.0
bleach 4.1.0 blinker 1.4 blis 0.7.9
boto3 1.24.28 botocore 1.27.28 cachetools 4.2.4
catalogue 2.0.8 кодировщики категорий 2.6.0 certifi 2022.9.14
cffi 1.15.1 chardet 4.0.0 charset-normalizer 2.0.4
щелчок 8.0.4 cloudpickle 2.0.0 cmdstanpy 1.1.0
Сладости 0.0.4 configparser 5.2.0 convertdate 2.4.0
Криптографии 37.0.1 cycler 0.11.0 cymem 2.0.7
Cython 0.29.32 databricks-automl-runtime 0.2.16 databricks-cli 0.17.4
databricks-feature-store 0.11.0 наборы данных 2.10.0 dbl-tempo 0.1.12
dbus-python 1.2.18 debugpy 1.5.1 decorator 5.1.1
defusedxml 0.7.1 dill 0.3.4 diskcache 5.4.0
distlib 0.3.6 docstring-to-markdown 0,11 entrypoints 0,4
ephem 4.1.4 evaluate 0.4.0 executing 1.2.0
facets-overview 1.0.2 fastjsonschema 2.16.3 fasttext 0.9.2
filelock 3.6.0 Flask 1.1.2 flatbuffers 23.3.3
шрифтовые инструменты 4.25.0 замороженный список 1.3.3 fsspec 2022.7.1
будущее 0.18.2 gast 0.4.0 gitdb 4.0.10
GitPython 3.1.27 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-pasta 0.2.0 googleapis-common-protos 1.56.4 grpcio 1.48.1
grpcio-status 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.7.0 hijri-converter 2.2.4 holidays 0,19
horovod 0.27.0 htmlmin 0.1.12 httplib2 0.20.2
huggingface-hub 0.13.2 idna 3,3 ImageHash 4.3.1
imbalanced-learn 0.8.1 importlib-metadata 4.11.3 ipykernel 6.17.1
ipython 8.10.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 jedi 0.18.1
jeepney 0.7.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.16.0
jupyter-client 7.3.4 jupyter_core 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 Брелок 23.5.0
kiwisolver 1.4.2 korean-lunar-calendar 0.3.1 langcodes 3.3.0
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
libclang 15.0.6.1 lightgbm; 3.3.5 llvmlite 0.38.0
LunarCalendar 0.0.9 Mako 1.2.0 Markdown 3.3.4
MarkupSafe 2.0.1 matplotlib 3.5.2 matplotlib-inline 0.1.6
Маккейб 0.7.0 mistune 0.8.4 mleap 0.20.0
mlflow-skinny 2.2.1 more-itertools 8.10.0 multidict 6.0.4
multimethod 1.9.1 многопроцессная обработка 0.70.12.2 murmurhash 1.0.9
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.5.0 nest-asyncio 1.5.5 networkx 2.8.4
nltk 3,7 nodeenv 1.7.0 записная книжка 6.4.12
numba 0.55.1 numpy 1.21.5 oauthlib 3.2.0
opt-einsum 3.3.0 во внешнем виде 21,3 pandas 1.4.4
pandas-profiling 3.6.6 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 pathspec 0.9.0 pathy 0.10.1
patsy 0.5.2 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Pillow 9.2.0
pip 22.2.2 platformdirs 2.5.2 график 5.9.0
pluggy 1.0.0 pmdarima 2.0.2 preshed 3.0.8
prometheus-client 0.14.1 prompt-toolkit 3.0.36 Пророк 1.1.2
protobuf 3.19.4 psutil 5.9.0 psycopg2 2.9.3
ptyprocess 0.7.0 pure-eval 0.2.2 pyarrow 7.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.10.3
pycparser 2.21 pydantic 1.10.6 pyflakes 3.0.1
Pygments 2.11.2 PyGObject 3.42.1 PyJWT 2.3.0
PyMeeus 0.5.12 PyNaCl 1.5.0 pyodbc 4.0.32
pyparsing 3.0.9 pyright 1.1.294 pyrsistent 0.18.0
python-dateutil 2.8.2 python-editor 1.0.4 python-lsp-jsonrpc 1.0.0
python-lsp-server 1.7.1 pytoolconfig 1.2.2 pytz 2022.1
PyWavelets 1.3.0 PyYAML 6,0 pyzmq 23.2.0
regex 2022.7.9 requests 2.28.1 requests-oauthlib 1.3.1
Ответы на запросы 0.18.0 Веревку 1.7.0 rsa 4,9
s3transfer 0.6.0 scikit-learn 1.1.1 scipy 1.9.1
Сиборн 0.11.2 Секрет служба хранилища 3.3.1 Send2Trash 1.8.0
setuptools 63.4.1 shap 0.41.0 simplejson 3.17.6
six 1.16.0 Среза 0.0.7 smart-open 5.2.1
smmap 5.0.0 soupsieve 2.3.1 spacy 3.5.0
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.2 srsly 2.4.6 ssh-import-id 5,11
stack-data 0.6.2 statsmodels 0.13.2 tabulate 0.8.10
tangled-up-in-unicode 0.2.0 tenacity 8.0.1 tensorboard 2.11.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.11.1 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.11.0 tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.31.0
termcolor 2.2.0 terminado 0.13.1 testpath 0.6.0
thinc 8.1.9 threadpoolctl 2.2.0 tokenize-rt 4.2.1
токенизаторы 0.13.2 tomli 2.0.1 torch 1.13.1+ЦП
torchvision 0.14.1+ЦП tornado 6.1 tqdm 4.64.1
traitlets 5.1.1 Трансформаторы 4.26.1 typeguard 2.13.3
typer 0.7.0 typing_extensions 4.3.0 ujson 5.4.0
unattended-upgrades 0,1 urllib3 1.26.11 virtualenv 20.16.3
visions 0.7.5 wadllib 1.3.6 wasabi 1.1.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.58.0
Werkzeug 2.0.3 whatthepatch 1.0.2 wheel 0.37.1
widgetsnbextension 3.6.1 wrapt 1.14.1 XGBoost 1.7.4
xxhash 3.2.0 yapf 0.31.0 yarl 1.8.2
ydata-profiling 4.1.0 zipp 3.8.0

Библиотеки Python в кластерах GPU

Библиотека Версия Библиотека Версия Библиотека Версия
absl-py 1.0.0 accelerate 0.16.0 aiohttp 3.8.4
aiosignal 1.3.1 appdirs 1.4.4 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 astor 0.8.1 asttokens 2.2.1
astunparse 1.6.3 async-timeout 4.0.2 attrs 21.4.0
azure-core 1.26.3 azure-cosmos 4.3.1b1 backcall 0.2.0
bcrypt 3.2.0 beautifulsoup4 4.11.1 black 22.6.0
bleach 4.1.0 blinker 1.4 blis 0.7.9
boto3 1.24.28 botocore 1.27.28 cachetools 4.2.4
catalogue 2.0.8 кодировщики категорий 2.6.0 certifi 2022.9.14
cffi 1.15.1 chardet 4.0.0 charset-normalizer 2.0.4
щелчок 8.0.4 cloudpickle 2.0.0 cmdstanpy 1.1.0
Сладости 0.0.4 configparser 5.2.0 convertdate 2.4.0
Криптографии 37.0.1 cycler 0.11.0 cymem 2.0.7
Cython 0.29.32 databricks-automl-runtime 0.2.16 databricks-cli 0.17.4
databricks-feature-store 0.11.0 наборы данных 2.10.0 dbl-tempo 0.1.12
dbus-python 1.2.18 debugpy 1.5.1 decorator 5.1.1
defusedxml 0.7.1 dill 0.3.4 diskcache 5.4.0
distlib 0.3.6 docstring-to-markdown 0,11 entrypoints 0,4
ephem 4.1.4 evaluate 0.4.0 executing 1.2.0
facets-overview 1.0.2 fastjsonschema 2.16.3 fasttext 0.9.2
filelock 3.6.0 Flask 1.1.2 flatbuffers 23.3.3
шрифтовые инструменты 4.25.0 замороженный список 1.3.3 fsspec 2022.7.1
будущее 0.18.2 gast 0.4.0 gitdb 4.0.10
GitPython 3.1.27 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-pasta 0.2.0 googleapis-common-protos 1.56.4 grpcio 1.48.1
grpcio-status 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.7.0 hijri-converter 2.2.4 holidays 0,19
horovod 0.27.0 htmlmin 0.1.12 httplib2 0.20.2
huggingface-hub 0.13.1 idna 3,3 ImageHash 4.3.1
imbalanced-learn 0.8.1 importlib-metadata 4.11.3 ipykernel 6.17.1
ipython 8.10.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 jedi 0.18.1
jeepney 0.7.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.16.0
jupyter-client 7.3.4 jupyter_core 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 Брелок 23.5.0
kiwisolver 1.4.2 korean-lunar-calendar 0.3.1 langcodes 3.3.0
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
libclang 15.0.6.1 lightgbm; 3.3.5 llvmlite 0.38.0
LunarCalendar 0.0.9 Mako 1.2.0 Markdown 3.3.4
MarkupSafe 2.0.1 matplotlib 3.5.2 matplotlib-inline 0.1.6
Маккейб 0.7.0 mistune 0.8.4 mleap 0.20.0
mlflow-skinny 2.2.1 more-itertools 8.10.0 multidict 6.0.4
multimethod 1.9.1 многопроцессная обработка 0.70.12.2 murmurhash 1.0.9
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.5.0 nest-asyncio 1.5.5 networkx 2.8.4
nltk 3,7 nodeenv 1.7.0 записная книжка 6.4.12
numba 0.55.1 numpy 1.21.5 oauthlib 3.2.0
opt-einsum 3.3.0 во внешнем виде 21,3 pandas 1.4.4
pandas-profiling 3.6.6 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 pathspec 0.9.0 pathy 0.10.1
patsy 0.5.2 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Pillow 9.2.0
pip 22.2.2 platformdirs 2.5.2 график 5.9.0
pluggy 1.0.0 pmdarima 2.0.2 preshed 3.0.8
prompt-toolkit 3.0.36 Пророк 1.1.2 protobuf 3.19.4
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 7.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.10.3 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent 0.18.0 python-dateutil 2.8.2
python-editor 1.0.4 python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1
pytoolconfig 1.2.2 pytz 2022.1 PyWavelets 1.3.0
PyYAML 6,0 pyzmq 23.2.0 regex 2022.7.9
requests 2.28.1 requests-oauthlib 1.3.1 Ответы на запросы 0.18.0
Веревку 1.7.0 rsa 4,9 s3transfer 0.6.0
scikit-learn 1.1.1 scipy 1.9.1 Сиборн 0.11.2
Секрет служба хранилища 3.3.1 Send2Trash 1.8.0 setuptools 63.4.1
shap 0.41.0 simplejson 3.17.6 six 1.16.0
Среза 0.0.7 smart-open 5.2.1 smmap 5.0.0
soupsieve 2.3.1 spacy 3.5.0 spacy-legacy 3.0.12
spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.2
srsly 2.4.6 ssh-import-id 5,11 stack-data 0.6.2
statsmodels 0.13.2 tabulate 0.8.10 tangled-up-in-unicode 0.2.0
tenacity 8.0.1 tensorboard 2.11.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.11.1 tensorboard-plugin-wit 1.8.1 tensorflow 2.11.0
tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.31.0 termcolor 2.2.0
terminado 0.13.1 testpath 0.6.0 thinc 8.1.9
threadpoolctl 2.2.0 tokenize-rt 4.2.1 токенизаторы 0.13.2
tomli 2.0.1 torch 1.13.1+cu117 torchvision 0.14.1+cu117
tornado 6.1 tqdm 4.64.1 traitlets 5.1.1
Трансформаторы 4.26.1 typeguard 2.13.3 typer 0.7.0
typing_extensions 4.3.0 ujson 5.4.0 unattended-upgrades 0,1
urllib3 1.26.11 virtualenv 20.16.3 visions 0.7.5
wadllib 1.3.6 wasabi 1.1.1 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.58.0 Werkzeug 2.0.3
whatthepatch 1.0.2 wheel 0.37.1 widgetsnbextension 3.6.1
wrapt 1.14.1 XGBoost 1.7.4 xxhash 3.2.0
yapf 0.31.0 yarl 1.8.2 ydata-profiling 4.1.0
zipp 3.8.0

Библиотеки R

Библиотеки R идентичны библиотекам R в Databricks Runtime 13.0.

Библиотеки Java и Scala (кластер Scala 2.12)

Помимо библиотек Java и Scala в Databricks Runtime 13.0, Databricks Runtime 13.0 ML содержит следующие JAR:

Кластеры ЦП

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db2
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.2.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Кластеры GPU

ИД группы Идентификатор артефакта Версия
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db2
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.2.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0