Databricks Runtime 13.3 LTS pour le Machine Learning

Databricks Runtime 13.3 LTS for Machine Learning fournit un environnement prêt à l’emploi pour l’apprentissage automatique et la science des données basé sur Databricks Runtime 13.3 LTS. Databricks Runtime ML contient de nombreuses bibliothèques populaires de Machine Learning, notamment TensorFlow, PyTorch et XGBoost. Databricks Runtime ML comprend AutoML, un outil permettant d’effectuer l’apprentissage automatique des pipelines Machine Learning. Databricks Runtime ML prend également en charge l'apprentissage profond distribué à l'aide d'Horovod.

Pour plus d’informations, notamment les instructions relatives à la création d’un cluster Databricks Runtime ML, consultez IA et Machine Learning sur Databricks.

Améliorations et nouvelles fonctionnalités

Databricks Runtime 13.3 LTS ML est construit sur Databricks Runtime 13.3 LTS. Pour en savoir plus sur les nouveautés de Databricks Runtime 13.3 LTS, notamment Apache Spark MLlib et SparkR, consultez les notes de publication de Databricks Runtime 13.3 LTS.

Modifications apportées au magasin de caractéristiques Databricks

  • Databricks Runtime 13.3 LTS ML contient le client Feature Store v0.14.0. Avec les versions de client 0.14.0 et ultérieures, vous devez spécifier des colonnes clés de timestamp dans l’argument primary_keys. Les clés timestamp font partie des « clés primaires » qui identifient de manière unique chaque ligne de la table de fonctionnalités.
  • Vous pouvez désormais exclure des valeurs de fonctionnalité avec des timestamps avant une heure spécifiée du jeu d’apprentissage. Pour en savoir plus, consultez Définir une limite de temps pour les valeurs de fonctionnalité historiques.
  • Les fonctionnalités de Machine Learning peuvent désormais être calculées à la demande au moment de l’inférence. La logique de calcul des fonctionnalités, les modèles et les données sont toutes régies par le catalogue Unity. Cela permet aux modèles de calculer des fonctionnalités à l’aide d’entrées disponibles uniquement au moment de l’inférence, comme l’emplacement actuel d’un utilisateur’. Pour plus d’informations, voir Calculer des caractéristiques à la demande avec des fonctions Python définies par l’utilisateur.

Environnement du système

L’environnement système dans Databricks Runtime 13.3 LTS ML diffère de Databricks Runtime 13.3 LTS comme suit :

Databricks Runtime 13.3 LTS ML inclut XGBoost 1.7.3, qui ne prend pas en charge les clusters GPU avec une capacité de calcul 5.2 et inférieure.

Le package miniconda a été supprimé de Databricks Runtime 13.0 ML et versions supérieures.

Bibliothèques

Les sections suivantes répertorient les bibliothèques incluses dans Databricks Runtime 13.3 LTS ML qui diffèrent de celles incluses dans Databricks Runtime 13.3 LTS.

Dans cette section :

Bibliothèques de niveau supérieur

Databricks Runtime 13.3 LTS ML inclut les bibliothèques de niveau supérieur suivantes :

Bibliothèques Python

Databricks Runtime 13.3 LTS ML utilise Virtualenv pour la gestion des packages Python et inclut de nombreux packages ML populaires.

Outre les packages spécifiés dans les sections suivantes, Databricks Runtime 13.3 LTS ML inclut également les packages suivants :

  • hyperopt 0.2.7+db3
  • sparkdl 3.0.0_db1
  • automl 1.20.0

Pour reproduire l’environnement Databricks Runtime ML Python dans votre environnement virtuel Python local, téléchargez le fichier requirements-13.3.txt et exécutez pip install -r requirements-13.3.txt. Cette commande installe toutes les bibliothèques open source que Databricks Runtime ML utilise, mais n’installe pas les bibliothèques développées Azure Databricks, telles que databricks-automl, databricks-feature-store ou la duplication Databricks de hyperopt.

Bibliothèques Python sur les clusters UC

Bibliothèque Version Bibliothèque Version Bibliothèque Version
absl-py 1.0.0 accelerate 0.20.3 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 astor 0.8.1
asttokens 2.2.1 astunparse 1.6.3 async-timeout 4.0.2
attrs 21.4.0 audioread 3.0.0 azure-core 1.28.0
azure-cosmos 4.3.1 azure-storage-blob 12.17.0 azure-storage-file-datalake 12.12.0
backcall 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
black 22.6.0 bleach 4.1.0 blinker 1.4
blis 0.7.10 boto3 1.24.28 botocore 1.27.28
cachetools 4.2.4 catalogue 2.0.9 category-encoders 2.6.1
certifi 2022.9.14 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 click 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 confection 0.1.0 configparser 5.2.0
convertdate 2.4.0 chiffrement 37.0.1 cycler 0.11.0
cymem 2.0.7 Cython 0.29.32 dacite 1.8.1
databricks-automl-runtime 0.2.17 databricks-cli 0.17.7 databricks-feature-store 0.14.0
databricks-sdk 0.1.6 dataclasses-json 0.5.13 jeux de données 2.13.1
dbl-tempo 0.1.23 dbus-python 1.2.18 debugpy 1.6.0
decorator 5.1.1 defusedxml 0.7.1 dill 0.3.4
diskcache 5.6.1 distlib 0.3.7 docstring-to-markdown 0,12
entrypoints 0,4 ephem 4.1.4 evaluate 0.4.0
en cours d’exécution 1.2.0 facets-overview 1.0.3 fastapi 0.98.0
fastjsonschema 2.18.0 fasttext 0.9.2 filelock 3.6.0
Flask 1.1.2+db1 flatbuffers 23.5.26 fonttools 4.25.0
frozenlist 1.4.0 fsspec 2022.7.1 future 0.18.2
gast 0.4.0 gitdb 4.0.10 GitPython 3.1.27
google-api-core 2.8.2 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-cloud-core 2.3.3 google-cloud-storage 2.10.0 google-crc32c 1.5.0
google-pasta 0.2.0 google-resumable-media 2.5.0 googleapis-common-protos 1.56.4
greenlet 1.1.1 grpcio 1.48.1 grpcio-status 1.48.1
gunicorn 20.1.0 gviz-api 1.10.0 h11 0.14.0
h5py 3.7.0 holidays 0.27.1 horovod 0.28.1
htmlmin 0.1.12 httplib2 0.20.2 httptools 0.6.0
huggingface-hub 0.16.4 idna 3.3 ImageHash 4.3.1
imbalanced-learn 0.10.1 importlib-metadata 4.11.3 importlib-resources 6.0.0
ipykernel 6.17.1 ipython 8.10.0 ipython-genutils 0.2.0
ipywidgets 7.7.2 isodate 0.6.1 itsdangerous 2.0.1
jedi 0.18.1 jeepney 0.7.1 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.2.0 joblibspark 0.5.1
jsonschema 4.16.0 jupyter-client 7.3.4 jupyter_core 4.11.2
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.11.0
keyring 23.5.0 kiwisolver 1.4.2 langchain 0.0.217
langchainplus-sdk 0.0.20 langcodes 3.3.0 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 lazy_loader 0.3
libclang 15.0.6.1 librosa 0.10.0 lightgbm 3.3.5
llvmlite 0.38.0 LunarCalendar 0.0.9 Mako 1.2.0
Markdown 3.3.4 MarkupSafe 2.0.1 marshmallow 3.20.1
matplotlib 3.5.2 matplotlib-inline 0.1.6 mccabe 0.7.0
mistune 0.8.4 mleap 0.20.0 mlflow-skinny 2.5.0
more-itertools 8.10.0 msgpack 1.0.5 multidict 6.0.4
multimethod 1.9.1 multiprocess 0.70.12.2 murmurhash 1.0.9
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.5.0 nest-asyncio 1.5.5 networkx 2.8.4
ninja 1.11.1 nltk 3.7 nodeenv 1.8.0
notebook 6.4.12 numba 0.55.1 numexpr 2.8.4
numpy 1.21.5 oauthlib 3.2.0 openai 0.27.8
openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0 empaquetage 21,3
pandas 1.4.4 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 pathspec 0.9.0 pathy 0.10.2
patsy 0.5.2 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Pillow 9.2.0
pip 22.2.2 platformdirs 2.5.2 plotly 5.9.0
pluggy 1.0.0 pmdarima 2.0.3 pooch 1.7.0
preshed 3.0.8 prometheus-client 0.14.1 prompt-toolkit 3.0.36
prophet 1.1.4 protobuf 3.19.4 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.11.1 pycparser 2.21 pydantic 1.10.6
pyflakes 3.0.1 Pygments 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyMeeus 0.5.12 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing 3.0.9 pyright 1.1.294
pyrsistent 0.18.0 pytesseract 0.3.10 python-dateutil 2.8.2
python-dotenv 1.0.0 python-editor 1.0.4 python-lsp-jsonrpc 1.0.0
python-lsp-server 1.7.1 pytoolconfig 1.2.2 pytz 2022.1
PyWavelets 1.3.0 PyYAML 6.0 pyzmq 23.2.0
regex 2022.7.9 requêtes 2.28.1 requests-oauthlib 1.3.1
responses 0.18.0 rope 1.7.0 rsa 4,9
s3transfer 0.6.0 safetensors 0.3.1 scikit-learn 1.1.1
scipy 1.9.1 seaborn 0.11.2 SecretStorage 3.3.1
Send2Trash 1.8.0 sentence-transformers 2.2.2 sentencepiece 0.1.99
setuptools 63.4.1 shap 0.41.0 simplejson 3.17.6
six 1.16.0 segment 0.0.7 smart-open 5.2.1
smmap 5.0.0 sniffio 1.2.0 soundfile 0.12.1
soupsieve 2.3.1 soxr 0.3.5 spacy 3.5.3
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 srsly 2.4.7
ssh-import-id 5.11 stack-data 0.6.2 starlette 0.27.0
statsmodels 0.13.2 tabulate 0.8.10 tangled-up-in-unicode 0.2.0
tenacity 8.1.0 tensorboard 2.11.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.11.2 tensorboard-plugin-wit 1.8.1 tensorflow-cpu 2.11.1
tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.32.0 termcolor 2.3.0
terminado 0.13.1 testpath 0.6.0 thinc 8.1.10
threadpoolctl 2.2.0 tiktoken 0.4.0 tokenize-rt 4.2.1
générateurs de jetons 0.13.3 tomli 2.0.1 torch 1.13.1+cpu
torchvision 0.14.1+cpu tornado 6.1 tqdm 4.64.1
traitlets 5.1.1 transformateurs 4.30.2 typeguard 2.13.3
typer 0.7.0 typing-inspect 0.9.0 typing_extensions 4.3.0
ujson 5.4.0 unattended-upgrades 0.1 urllib3 1.26.11
uvicorn 0.23.1 uvloop 0.17.0 virtualenv 20.16.3
visions 0.7.5 wadllib 1.3.6 wasabi 1.1.2
watchfiles 0.19.0 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.58.0 websockets 11.0.3 Werkzeug 2.0.3
whatthepatch 1.0.2 wheel 0.37.1 widgetsnbextension 3.6.1
wordcloud 1.9.2 wrapt 1.14.1 xgboost 1.7.6
xxhash 3.2.0 yapf 0.31.0 yarl 1.9.2
ydata-profiling 4.2.0 zipp 3.8.0

Bibliothèques Python sur les clusters GPU

Bibliothèque Version Bibliothèque Version Bibliothèque Version
absl-py 1.0.0 accelerate 0.20.3 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 astor 0.8.1
asttokens 2.2.1 astunparse 1.6.3 async-timeout 4.0.2
attrs 21.4.0 audioread 3.0.0 azure-core 1.28.0
azure-cosmos 4.3.1 azure-storage-blob 12.17.0 azure-storage-file-datalake 12.12.0
backcall 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
black 22.6.0 bleach 4.1.0 blinker 1.4
blis 0.7.10 boto3 1.24.28 botocore 1.27.28
cachetools 4.2.4 catalogue 2.0.9 category-encoders 2.6.1
certifi 2022.9.14 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 click 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 confection 0.1.0 configparser 5.2.0
convertdate 2.4.0 chiffrement 37.0.1 cycler 0.11.0
cymem 2.0.7 Cython 0.29.32 dacite 1.8.1
databricks-automl-runtime 0.2.17 databricks-cli 0.17.7 databricks-feature-store 0.14.0
databricks-sdk 0.1.6 dataclasses-json 0.5.13 jeux de données 2.13.1
dbl-tempo 0.1.23 dbus-python 1.2.18 debugpy 1.6.0
decorator 5.1.1 defusedxml 0.7.1 dill 0.3.4
diskcache 5.6.1 distlib 0.3.7 docstring-to-markdown 0,12
einops 0.6.1 entrypoints 0,4 ephem 4.1.4
evaluate 0.4.0 en cours d’exécution 1.2.0 facets-overview 1.0.3
fastapi 0.98.0 fastjsonschema 2.18.0 fasttext 0.9.2
filelock 3.6.0 flash-attn 1.0.7 Flask 1.1.2+db1
flatbuffers 23.5.26 fonttools 4.25.0 frozenlist 1.4.0
fsspec 2022.7.1 future 0.18.2 gast 0.4.0
gitdb 4.0.10 GitPython 3.1.27 google-api-core 2.8.2
google-auth 1.33.0 google-auth-oauthlib 0.4.6 google-cloud-core 2.3.3
google-cloud-storage 2.10.0 google-crc32c 1.5.0 google-pasta 0.2.0
google-resumable-media 2.5.0 googleapis-common-protos 1.56.4 greenlet 1.1.1
grpcio 1.48.1 grpcio-status 1.48.1 gunicorn 20.1.0
gviz-api 1.10.0 h11 0.14.0 h5py 3.7.0
holidays 0.27.1 horovod 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 httptools 0.6.0 huggingface-hub 0.16.4
idna 3.3 ImageHash 4.3.1 imbalanced-learn 0.10.1
importlib-metadata 4.11.3 importlib-resources 6.0.0 ipykernel 6.17.1
ipython 8.10.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 jedi 0.18.1
jeepney 0.7.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.16.0
jupyter-client 7.3.4 jupyter_core 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 keyring 23.5.0
kiwisolver 1.4.2 langchain 0.0.217 langchainplus-sdk 0.0.20
langcodes 3.3.0 launchpadlib 1.10.16 lazr.restfulclient 0.14.4
lazr.uri 1.0.6 lazy_loader 0.3 libclang 15.0.6.1
librosa 0.10.0 lightgbm 3.3.5 llvmlite 0.38.0
LunarCalendar 0.0.9 Mako 1.2.0 Markdown 3.3.4
MarkupSafe 2.0.1 marshmallow 3.20.1 matplotlib 3.5.2
matplotlib-inline 0.1.6 mccabe 0.7.0 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 2.5.0 more-itertools 8.10.0
msgpack 1.0.5 multidict 6.0.4 multimethod 1.9.1
multiprocess 0.70.12.2 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.5.0
nest-asyncio 1.5.5 networkx 2.8.4 ninja 1.11.1
nltk 3.7 nodeenv 1.8.0 notebook 6.4.12
numba 0.55.1 numexpr 2.8.4 numpy 1.21.5
oauthlib 3.2.0 openai 0.27.8 openapi-schema-pydantic 1.2.4
opt-einsum 3.3.0 empaquetage 21,3 pandas 1.4.4
pandocfilters 1.5.0 paramiko 2.9.2 parso 0.8.3
pathspec 0.9.0 pathy 0.10.2 patsy 0.5.2
petastorm 0.12.1 pexpect 4.8.0 phik 0.12.3
pickleshare 0.7.5 Pillow 9.2.0 pip 22.2.2
platformdirs 2.5.2 plotly 5.9.0 pluggy 1.0.0
pmdarima 2.0.3 pooch 1.7.0 preshed 3.0.8
prompt-toolkit 3.0.36 prophet 1.1.4 protobuf 3.19.4
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.11.1 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 python-dotenv 1.0.0 python-editor 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1 pytoolconfig 1.2.2
pytz 2022.1 PyWavelets 1.3.0 PyYAML 6.0
pyzmq 23.2.0 regex 2022.7.9 requêtes 2.28.1
requests-oauthlib 1.3.1 responses 0.18.0 rope 1.7.0
rsa 4,9 s3transfer 0.6.0 safetensors 0.3.1
scikit-learn 1.1.1 scipy 1.9.1 seaborn 0.11.2
SecretStorage 3.3.1 Send2Trash 1.8.0 sentence-transformers 2.2.2
sentencepiece 0.1.99 setuptools 63.4.1 shap 0.41.0
simplejson 3.17.6 six 1.16.0 segment 0.0.7
smart-open 5.2.1 smmap 5.0.0 sniffio 1.2.0
soundfile 0.12.1 soupsieve 2.3.1 soxr 0.3.5
spacy 3.5.3 spacy-legacy 3.0.12 spacy-loggers 1.0.4
spark-tensorflow-distributor 1.0.0 SQLAlchemy 1.4.39 sqlparse 0.4.2
srsly 2.4.7 ssh-import-id 5.11 stack-data 0.6.2
starlette 0.27.0 statsmodels 0.13.2 tabulate 0.8.10
tangled-up-in-unicode 0.2.0 tenacity 8.1.0 tensorboard 2.11.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.11.2 tensorboard-plugin-wit 1.8.1
tensorflow 2.11.1 tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.32.0
termcolor 2.3.0 terminado 0.13.1 testpath 0.6.0
thinc 8.1.10 threadpoolctl 2.2.0 tiktoken 0.4.0
tokenize-rt 4.2.1 générateurs de jetons 0.13.3 tomli 2.0.1
torch 1.13.1+cu117 torchvision 0.14.1+cu117 tornado 6.1
tqdm 4.64.1 traitlets 5.1.1 transformateurs 4.30.2
typeguard 2.13.3 typer 0.7.0 typing-inspect 0.9.0
typing_extensions 4.3.0 ujson 5.4.0 unattended-upgrades 0.1
urllib3 1.26.11 uvicorn 0.23.1 uvloop 0.17.0
virtualenv 20.16.3 visions 0.7.5 wadllib 1.3.6
wasabi 1.1.2 watchfiles 0.19.0 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.58.0 websockets 11.0.3
Werkzeug 2.0.3 whatthepatch 1.0.2 wheel 0.37.1
widgetsnbextension 3.6.1 wordcloud 1.9.2 wrapt 1.14.1
xgboost 1.7.6 xxhash 3.2.0 yapf 0.31.0
yarl 1.9.2 ydata-profiling 4.2.0 zipp 3.8.0

Bibliothèques R

Les bibliothèques R sont identiques aux bibliothèques R dans Databricks Runtime 13.3 LTS.

Bibliothèques Java et Scala (cluster Scala 2.12)

Outre les bibliothèques Java et Scala dans Databricks Runtime 13.3 LTS, Databricks Runtime 13.3 LTS ML contient les fichiers JAR suivants :

Clusters UC

ID de groupe ID d’artefact Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.5.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clusters GPU

ID de groupe ID d’artefact Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.5.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0