适用于机器学习的 Databricks Runtime 13.3 LTS

适用于机器学习的 Databricks Runtime 13.3 LTS 基于 Databricks Runtime 13.3 LTS,为机器学习和数据科学提供了随时可用的环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新增功能和改进

Databricks Runtime 13.3 LTS ML 是基于 Databricks Runtime 13.3 LTS 构建的。 若要了解 Databricks Runtime 13.3 LTS 中的新增功能,包括 Apache Spark MLlib 和 SparkR,请参阅 Databricks Runtime 13.3 LTS 发行说明。

对 Databricks 特征存储的更改

  • Databricks Runtime 13.3 LTS ML 包含功能存储客户端 v0.14.0。 对于客户端版本 0.14.0 及更高版本,必须在primary_keys参数中 指定时间戳键列。 时间戳键是“主键”的一部分,用于唯一标识特征表中的每一行。
  • 现在可以从训练集中排除具有指定时间之前时间戳的特征值。 有关详细信息,请参阅设置历史特征值的时间限制
  • 现在可以在推理时按需计算机器学习特征。 特征计算逻辑、模型和数据均受 Unity Catalog 管理。 这使模型能够使用仅在推理时可用的输入(例如用户的当前位置)来计算特征。 有关详细信息,请参阅使用 Python 用户定义的函数按需计算特征

系统环境

Databricks Runtime 13.3 LTS ML 中的系统环境与 Databricks Runtime 13.3 LTS 不同,如下所示:

Databricks Runtime 13.3 LTS ML 包括 XGBoost 1.7.3,它不支持计算功能 5.2 及以下的 GPU 群集。

miniconda 包已从 Databricks Runtime 13.0 ML 及更高版本中删除。

Libraries

以下部分列出了 Databricks Runtime 13.3 LTS ML 中包含的库,这些库与 Databricks Runtime 13.3 LTS 中包含的不同。

本节内容:

顶层库

Databricks Runtime 13.3 LTS ML 包含以下顶层

Python 库

Databricks Runtime 13.3 LTS ML 使用 Virtualenv 进行 Python 包管理,并且包含许多常用的 ML 包。

除了在以下部分中指定的包,Databricks Runtime 13.3 LTS ML 还包含以下包:

  • hyperopt 0.2.7+db3
  • sparkdl 3.0.0_db1
  • automl 1.20.0

若要在本地 Python 虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-13.3.txt 文件并运行 pip install -r requirements-13.3.txt。 此命令安装 Databricks Runtime ML 使用的所有开源库,但不安装 Databricks 开发的库,例如 databricks-automldatabricks-feature-store,或 hyperopt 的 Databricks 分支。

CPU 群集上的 Python 库

版本 版本 版本
absl-py 1.0.0 accelerate 0.20.3 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 astor 0.8.1
asttokens 2.2.1 astunparse 1.6.3 async-timeout 4.0.2
attrs 21.4.0 audioread 3.0.0 azure-core 1.28.0
azure-cosmos 4.3.1 azure-storage-blob 12.17.0 azure-storage-file-datalake 12.12.0
backcall 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
black 22.6.0 bleach 4.1.0 blinker 1.4
blis 0.7.10 boto3 1.24.28 botocore 1.27.28
cachetools 4.2.4 catalogue 2.0.9 category-encoders 2.6.1
certifi 2022.9.14 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 单击 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 confection 0.1.0 configparser 5.2.0
convertdate 2.4.0 密码系统 37.0.1 cycler 0.11.0
cymem 2.0.7 Cython 0.29.32 dacite 1.8.1
databricks-automl-runtime 0.2.17 databricks-cli 0.17.7 databricks-feature-store 0.14.0
databricks-sdk 0.1.6 dataclasses-json 0.5.13 datasets 2.13.1
dbl-tempo 0.1.23 dbu-python 1.2.18 debugpy 1.6.0
decorator 5.1.1 defusedxml 0.7.1 dill 0.3.4
diskcache 5.6.1 distlib 0.3.7 docstring-to-markdown 0.12
entrypoints 0.4 ephem 4.1.4 评估 0.4.0
执行 1.2.0 facets-overview 1.0.3 fastapi 0.98.0
fastjsonschema 2.18.0 fasttext 0.9.2 filelock 3.6.0
Flask 1.1.2+db1 flatbuffers 23.5.26 fonttools 4.25.0
frozenlist 1.4.0 fsspec 2022.7.1 future 0.18.2
gast 0.4.0 gitdb 4.0.10 GitPython 3.1.27
google-api-core 2.8.2 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-cloud-core 2.3.3 google-cloud-storage 2.10.0 google-crc32c 1.5.0
google-pasta 0.2.0 google-resumable-media 2.5.0 googleapis-common-protos 1.56.4
greenlet 1.1.1 grpcio 1.48.1 grpcio-status 1.48.1
gunicorn 20.1.0 gviz-api 1.10.0 h11 0.14.0
h5py 3.7.0 holidays 0.27.1 horovod 0.28.1
htmlmin 0.1.12 httplib2 0.20.2 httptools 0.6.0
huggingface-hub 0.16.4 idna 3.3 ImageHash 4.3.1
imbalanced-learn 0.10.1 importlib-metadata 4.11.3 importlib-resources 6.0.0
ipykernel 6.17.1 ipython 8.10.0 ipython-genutils 0.2.0
ipywidgets 7.7.2 isodate 0.6.1 itsdangerous 2.0.1
jedi 0.18.1 jeepney 0.7.1 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.2.0 joblibspark 0.5.1
jsonschema 4.16.0 jupyter-client 7.3.4 jupyter_core 4.11.2
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.11.0
keyring 23.5.0 kiwisolver 1.4.2 langchain 0.0.217
langchainplus-sdk 0.0.20 langcodes 3.3.0 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 lazy_loader 0.3
libclang 15.0.6.1 librosa 0.10.0 lightgbm 3.3.5
llvmlite 0.38.0 LunarCalendar 0.0.9 Mako 1.2.0
Markdown 3.3.4 MarkupSafe 2.0.1 marshmallow 3.20.1
matplotlib 3.5.2 matplotlib-inline 0.1.6 mccabe 0.7.0
mistune 0.8.4 mleap 0.20.0 mlflow-skinny 2.5.0
more-itertools 8.10.0 msgpack 1.0.5 multidict 6.0.4
multimethod 1.9.1 multiprocess 0.70.12.2 murmurhash 1.0.9
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.5.0 nest-asyncio 1.5.5 networkx 2.8.4
ninja 1.11.1 nltk 3.7 nodeenv 1.8.0
笔记本 6.4.12 numba 0.55.1 numexpr 2.8.4
numpy 1.21.5 oauthlib 3.2.0 openai 0.27.8
openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0 打包 21.3
pandas 1.4.4 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 pathspec 0.9.0 pathy 0.10.2
patsy 0.5.2 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Pillow 9.2.0
pip 22.2.2 platformdirs 2.5.2 plotly 5.9.0
pluggy 1.0.0 pmdarima 2.0.3 pooch 1.7.0
preshed 3.0.8 prometheus-client 0.14.1 prompt-toolkit 3.0.36
prophet 1.1.4 protobuf 3.19.4 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.11.1 pycparser 2.21 pydantic 1.10.6
pyflakes 3.0.1 Pygments 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyMeeus 0.5.12 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing 3.0.9 pyright 1.1.294
pyrsistent 0.18.0 pytesseract 0.3.10 python-dateutil 2.8.2
python-dotenv 1.0.0 python-editor 1.0.4 python-lsp-jsonrpc 1.0.0
python-lsp-server 1.7.1 pytoolconfig 1.2.2 pytz 2022.1
PyWavelets 1.3.0 PyYAML 6.0 pyzmq 23.2.0
regex 2022.7.9 请求 2.28.1 requests-oauthlib 1.3.1
responses 0.18.0 rope 1.7.0 rsa 4.9
s3transfer 0.6.0 safetensors 0.3.1 scikit-learn 1.1.1
scipy 1.9.1 seaborn 0.11.2 SecretStorage 3.3.1
Send2Trash 1.8.0 sentence-transformers 2.2.2 sentencepiece 0.1.99
setuptools 63.4.1 shap 0.41.0 simplejson 3.17.6
6 1.16.0 slicer 0.0.7 smart-open 5.2.1
smmap 5.0.0 sniffio 1.2.0 soundfile 0.12.1
soupsieve 2.3.1 soxr 0.3.5 spacy 3.5.3
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 srsly 2.4.7
ssh-import-id 5.11 stack-data 0.6.2 starlette 0.27.0
statsmodels 0.13.2 tabulate 0.8.10 tangled-up-in-unicode 0.2.0
tenacity 8.1.0 tensorboard 2.11.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.11.2 tensorboard-plugin-wit 1.8.1 tensorflow-cpu 2.11.1
tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.32.0 termcolor 2.3.0
terminado 0.13.1 testpath 0.6.0 thinc 8.1.10
threadpoolctl 2.2.0 tiktoken 0.4.0 tokenize-rt 4.2.1
tokenizers 0.13.3 tomli 2.0.1 torch 1.13.1+cpu
torchvision 0.14.1+cpu tornado 6.1 tqdm 4.64.1
traitlets 5.1.1 transformers 4.30.2 typeguard 2.13.3
typer 0.7.0 typing-inspect 0.9.0 typing_extensions 4.3.0
ujson 5.4.0 unattended-upgrades 0.1 urllib3 1.26.11
uvicorn 0.23.1 uvloop 0.17.0 virtualenv 20.16.3
visions 0.7.5 wadllib 1.3.6 wasabi 1.1.2
watchfiles 0.19.0 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.58.0 websockets 11.0.3 Werkzeug 2.0.3
whatthepatch 1.0.2 wheel 0.37.1 widgetsnbextension 3.6.1
wordcloud 1.9.2 wrapt 1.14.1 xgboost 1.7.6
xxhash 3.2.0 yapf 0.31.0 yarl 1.9.2
ydata-profiling 4.2.0 zipp 3.8.0

GPU 群集上的 Python 库

版本 版本 版本
absl-py 1.0.0 accelerate 0.20.3 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 astor 0.8.1
asttokens 2.2.1 astunparse 1.6.3 async-timeout 4.0.2
attrs 21.4.0 audioread 3.0.0 azure-core 1.28.0
azure-cosmos 4.3.1 azure-storage-blob 12.17.0 azure-storage-file-datalake 12.12.0
backcall 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
black 22.6.0 bleach 4.1.0 blinker 1.4
blis 0.7.10 boto3 1.24.28 botocore 1.27.28
cachetools 4.2.4 catalogue 2.0.9 category-encoders 2.6.1
certifi 2022.9.14 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 单击 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 confection 0.1.0 configparser 5.2.0
convertdate 2.4.0 密码系统 37.0.1 cycler 0.11.0
cymem 2.0.7 Cython 0.29.32 dacite 1.8.1
databricks-automl-runtime 0.2.17 databricks-cli 0.17.7 databricks-feature-store 0.14.0
databricks-sdk 0.1.6 dataclasses-json 0.5.13 datasets 2.13.1
dbl-tempo 0.1.23 dbu-python 1.2.18 debugpy 1.6.0
decorator 5.1.1 defusedxml 0.7.1 dill 0.3.4
diskcache 5.6.1 distlib 0.3.7 docstring-to-markdown 0.12
einops 0.6.1 entrypoints 0.4 ephem 4.1.4
评估 0.4.0 执行 1.2.0 facets-overview 1.0.3
fastapi 0.98.0 fastjsonschema 2.18.0 fasttext 0.9.2
filelock 3.6.0 flash-attn 1.0.7 Flask 1.1.2+db1
flatbuffers 23.5.26 fonttools 4.25.0 frozenlist 1.4.0
fsspec 2022.7.1 future 0.18.2 gast 0.4.0
gitdb 4.0.10 GitPython 3.1.27 google-api-core 2.8.2
google-auth 1.33.0 google-auth-oauthlib 0.4.6 google-cloud-core 2.3.3
google-cloud-storage 2.10.0 google-crc32c 1.5.0 google-pasta 0.2.0
google-resumable-media 2.5.0 googleapis-common-protos 1.56.4 greenlet 1.1.1
grpcio 1.48.1 grpcio-status 1.48.1 gunicorn 20.1.0
gviz-api 1.10.0 h11 0.14.0 h5py 3.7.0
holidays 0.27.1 horovod 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 httptools 0.6.0 huggingface-hub 0.16.4
idna 3.3 ImageHash 4.3.1 imbalanced-learn 0.10.1
importlib-metadata 4.11.3 importlib-resources 6.0.0 ipykernel 6.17.1
ipython 8.10.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 jedi 0.18.1
jeepney 0.7.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.16.0
jupyter-client 7.3.4 jupyter_core 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 keyring 23.5.0
kiwisolver 1.4.2 langchain 0.0.217 langchainplus-sdk 0.0.20
langcodes 3.3.0 launchpadlib 1.10.16 lazr.restfulclient 0.14.4
lazr.uri 1.0.6 lazy_loader 0.3 libclang 15.0.6.1
librosa 0.10.0 lightgbm 3.3.5 llvmlite 0.38.0
LunarCalendar 0.0.9 Mako 1.2.0 Markdown 3.3.4
MarkupSafe 2.0.1 marshmallow 3.20.1 matplotlib 3.5.2
matplotlib-inline 0.1.6 mccabe 0.7.0 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 2.5.0 more-itertools 8.10.0
msgpack 1.0.5 multidict 6.0.4 multimethod 1.9.1
multiprocess 0.70.12.2 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.5.0
nest-asyncio 1.5.5 networkx 2.8.4 ninja 1.11.1
nltk 3.7 nodeenv 1.8.0 笔记本 6.4.12
numba 0.55.1 numexpr 2.8.4 numpy 1.21.5
oauthlib 3.2.0 openai 0.27.8 openapi-schema-pydantic 1.2.4
opt-einsum 3.3.0 打包 21.3 pandas 1.4.4
pandocfilters 1.5.0 paramiko 2.9.2 parso 0.8.3
pathspec 0.9.0 pathy 0.10.2 patsy 0.5.2
petastorm 0.12.1 pexpect 4.8.0 phik 0.12.3
pickleshare 0.7.5 Pillow 9.2.0 pip 22.2.2
platformdirs 2.5.2 plotly 5.9.0 pluggy 1.0.0
pmdarima 2.0.3 pooch 1.7.0 preshed 3.0.8
prompt-toolkit 3.0.36 prophet 1.1.4 protobuf 3.19.4
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.11.1 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 python-dotenv 1.0.0 python-editor 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1 pytoolconfig 1.2.2
pytz 2022.1 PyWavelets 1.3.0 PyYAML 6.0
pyzmq 23.2.0 regex 2022.7.9 请求 2.28.1
requests-oauthlib 1.3.1 responses 0.18.0 rope 1.7.0
rsa 4.9 s3transfer 0.6.0 safetensors 0.3.1
scikit-learn 1.1.1 scipy 1.9.1 seaborn 0.11.2
SecretStorage 3.3.1 Send2Trash 1.8.0 sentence-transformers 2.2.2
sentencepiece 0.1.99 setuptools 63.4.1 shap 0.41.0
simplejson 3.17.6 6 1.16.0 slicer 0.0.7
smart-open 5.2.1 smmap 5.0.0 sniffio 1.2.0
soundfile 0.12.1 soupsieve 2.3.1 soxr 0.3.5
spacy 3.5.3 spacy-legacy 3.0.12 spacy-loggers 1.0.4
spark-tensorflow-distributor 1.0.0 SQLAlchemy 1.4.39 sqlparse 0.4.2
srsly 2.4.7 ssh-import-id 5.11 stack-data 0.6.2
starlette 0.27.0 statsmodels 0.13.2 tabulate 0.8.10
tangled-up-in-unicode 0.2.0 tenacity 8.1.0 tensorboard 2.11.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.11.2 tensorboard-plugin-wit 1.8.1
tensorflow 2.11.1 tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.32.0
termcolor 2.3.0 terminado 0.13.1 testpath 0.6.0
thinc 8.1.10 threadpoolctl 2.2.0 tiktoken 0.4.0
tokenize-rt 4.2.1 tokenizers 0.13.3 tomli 2.0.1
torch 1.13.1+cu117 torchvision 0.14.1+cu117 tornado 6.1
tqdm 4.64.1 traitlets 5.1.1 transformers 4.30.2
typeguard 2.13.3 typer 0.7.0 typing-inspect 0.9.0
typing_extensions 4.3.0 ujson 5.4.0 unattended-upgrades 0.1
urllib3 1.26.11 uvicorn 0.23.1 uvloop 0.17.0
virtualenv 20.16.3 visions 0.7.5 wadllib 1.3.6
wasabi 1.1.2 watchfiles 0.19.0 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.58.0 websockets 11.0.3
Werkzeug 2.0.3 whatthepatch 1.0.2 wheel 0.37.1
widgetsnbextension 3.6.1 wordcloud 1.9.2 wrapt 1.14.1
xgboost 1.7.6 xxhash 3.2.0 yapf 0.31.0
yarl 1.9.2 ydata-profiling 4.2.0 zipp 3.8.0

R 库

R 库与 Databricks Runtime 13.3 LTS 中的R 库完全相同。

Java 库和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 13.3 LTS 中的 Java 库和 Scala 库之外,Databricks Runtime 13.3 LTS ML 还包含以下 JAR:

CPU 群集

组 ID 项目 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.5.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU 群集

组 ID 项目 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.5.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0