Databricks Runtime 11.3 LTS pour le Machine Learning

Databricks Runtime 11.3 LTS pour le Machine Learning fournit un environnement prêt à l’emploi pour le Machine Learning et la science des données basé sur Databricks Runtime 11.3 LTS. Databricks Runtime ML contient de nombreuses bibliothèques populaires de Machine Learning, notamment TensorFlow, PyTorch et XGBoost. Databricks Runtime ML comprend AutoML, un outil permettant d’effectuer l’apprentissage automatique des pipelines Machine Learning. Databricks Runtime ML prend également en charge l'apprentissage profond distribué à l'aide d'Horovod.

Notes

LTS (Long Term Support) signifie que cette version bénéficie d’un support à long terme. Consultez Cycle de vie de la version de Databricks Runtime LTS.

Pour plus d’informations, notamment les instructions relatives à la création d’un cluster Databricks Runtime ML, consultez IA et Machine Learning sur Databricks.

Améliorations et nouvelles fonctionnalités

Databricks Runtime 11.3 LTS ML s’appuie sur Databricks Runtime 11.3 LTS. Pour plus d’informations sur les nouveautés de Databricks Runtime 11.3 LTS, y compris Apache Spark MLlib et SparkR, consultez les notes de publication de Databricks Runtime 11.3 LTS.

Améliorations apportées à Databricks AutoML

Databricks AutoML prend désormais en charge l’utilisation des tables de fonctionnalités du magasin de fonctionnalités existantes dans vos expériences AutoML. Pour plus d’informations, consultez Intégration de Feature Store.

Les blocs-notes d’évaluation générés par AutoML contiennent désormais des extraits de code qui permettent aux utilisateurs de réexécuter le réglage des hyperparamètres.

AutoML prend désormais en charge les fonctionnalités DecimalType.

Résolution des bogues

Databricks Runtime 11.3 LTS ML inclut une version mise à niveau de sparkdl.xgboost. Les versions précédentes de sparkdl.xgboost contenir des bogues qui sont corrigés dans cette version, Databricks recommande donc aux utilisateurs de la mise à niveau de la bibliothèque vers Databricks Runtime 11.3 LTS ML.

Préparez-vous pour les versions futures

Une prochaine version de Databricks Runtime ML inclut sklearn version 1.0. Pour plus d’informations sur la préparation de cette modification, consultez la sklearndocumentation.

Databricks Runtime ML contient deux packages openblas. Le package /opt/OpenBLAS est déconseillé dans Databricks Runtime 11.3 LTS ML et sera supprimé dans une prochaine version majeure.

Environnement du système

L’environnement système de Databricks Runtime 11.3 LTS ML diffère de Databricks Runtime 11.3 LTS comme suit :

Databricks Runtime 11.3 LTS ML inclut XGBoost 1.6.1, qui ne prend pas en charge les clusters GPU avec la capacité de calcul 5.2 et versions antérieures.

Bibliothèques

Les sections suivantes répertorient les bibliothèques incluses dans Databricks Runtime 11.3 LTS ML qui diffèrent de celles incluses dans Databricks Runtime 11.3 LTS.

Dans cette section :

Bibliothèques de niveau supérieur

Databricks Runtime 11.3 LTS ML comprend les bibliothèquesde niveau supérieur suivantes :

Bibliothèques Python

Databricks Runtime 11.3 LTS ML utilise Virtualenv pour la gestion des packages Python et comprend de nombreux packages de ML populaires.

En plus des packages spécifiés dans les sections suivantes, Databricks Runtime 11.3 LTS ML comprend également les packages suivants :

  • hyperopt 0.2.7.db1
  • sparkdl 2.3.0-db3
  • feature_store 0.7.0
  • automl 1.13.2

Pour reproduire l’environnement Python Databricks Runtime ML dans votre environnement virtuel Python local, téléchargez le fichier requirements-11.3.txt et exécutez pip install -r requirements-11.3.txt. Cette commande installe toutes les bibliothèques open source que Databricks Runtime ML utilise, mais n’installe pas les bibliothèques développées Azure Databricks, telles que databricks-automl, databricks-feature-store ou la duplication Databricks de hyperopt.

Bibliothèques Python sur les clusters UC

Bibliothèque Version Bibliothèque Version Bibliothèque Version
absl-py 1.0.0 argon2-cffi 20.1.0 astor 0.8.1
astunparse 1.6.3 async-generator 1,10 attrs 21.2.0
azure-core 1.22.1 azure-cosmos 4.2.0 backcall 0.2.0
backports.entry-points-selectable 1.1.1 bcrypt 4.0.0 black 22.3.0
bleach 4.0.0 blis 0.7.8 boto3 1.21.18
botocore 1.24.18 cachetools 5.2.0 catalogue 2.0.8
certifi 2021.10.8 cffi 1.14.6 chardet 4.0.0
charset-normalizer 2.0.4 click 8.0.3 cloudpickle 2.0.0
cmdstanpy 0.9.68 confection 0.0.1 configparser 5.2.0
convertdate 2.4.0 chiffrement 3.4.8 cycler 0.10.0
cymem 2.0.6 Cython 0.29.24 databricks-automl-runtime 0.2.11
databricks-cli 0.17.3 dbl-tempo 0.1.12 dbus-python 1.2.16
debugpy 1.4.1 decorator 5.1.0 defusedxml 0.7.1
dill 0.3.4 diskcache 5.4.0 distlib 0.3.6
entrypoints 0.3 ephem 4.1.3 facets-overview 1.0.0
fasttext 0.9.2 filelock 3.3.1 Flask 1.1.2
flatbuffers 1.12 fsspec 2021.8.1 future 0.18.2
gast 0.4.0 gitdb 4.0.9 GitPython 3.1.27
google-auth 2.6.0 google-auth-oauthlib 0.4.6 google-pasta 0.2.0
grpcio 1.44.0 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.3.0 hijri-converter 2.2.4 holidays 0.15
horovod 0.25.0 htmlmin 0.1.12 huggingface-hub 0.9.1
idna 3.2 ImageHash 4.3.0 imbalanced-learn 0.8.1
importlib-metadata 4.8.1 ipykernel 6.12.1 ipython 7.32.0
ipython-genutils 0.2.0 ipywidgets 7.7.0 isodate 0.6.1
itsdangerous 2.0.1 jedi 0.18.0 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.5.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.8.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.9.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 korean-lunar-calendar 0.3.1
langcodes 3.3.0 libclang 14.0.6 lightgbm 3.3.2
llvmlite 0.37.0 LunarCalendar 0.0.9 Mako 1.2.0
Markdown 3.3.6 MarkupSafe 2.0.1 matplotlib 3.4.3
matplotlib-inline 0.1.2 missingno 0.5.1 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 1.29.0 multimethod 1.9
murmurhash 1.0.8 mypy-extensions 0.4.3 nbclient 0.5.3
nbconvert 6.1.0 nbformat 5.1.3 nest-asyncio 1.5.1
networkx 2.6.3 nltk 3.6.5 notebook 6.4.5
numba 0.54.1 numpy 1.20.3 oauthlib 3.2.0
opt-einsum 3.3.0 empaquetage 21.0 pandas 1.3.4
pandas-profiling 3.1.0 pandocfilters 1.4.3 paramiko 2.9.2
parso 0.8.2 pathspec 0.9.0 pathy 0.6.2
patsy 0.5.2 petastorm 0.11.4 pexpect 4.8.0
phik 0.12.2 pickleshare 0.7.5 Pillow 8.4.0
pip 21.2.4 platformdirs 2.5.2 plotly 5.9.0
pmdarima 1.8.5 preshed 3.0.7 prometheus-client 0.11.0
prompt-toolkit 3.0.20 prophet 1.0.1 protobuf 3.19.4
psutil 5.8.0 psycopg2 2.9.3 ptyprocess 0.7.0
pyarrow 7.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.10.0 pycparser 2.20 pydantic 1.9.2
Pygments 2.10.0 PyGObject 3.36.0 PyJWT 2.5.0
PyMeeus 0.5.11 PyNaCl 1.5.0 pyodbc 4.0.31
pyparsing 3.0.4 pyrsistent 0.18.0 pystan 2.19.1.1
python-dateutil 2.8.2 python-editor 1.0.4 pytz 2021.3
PyWavelets 1.1.1 PyYAML 6.0 pyzmq 22.2.1
regex 2021.8.3 requêtes 2.26.0 requests-oauthlib 1.3.1
requests-unixsocket 0.2.0 rsa 4,9 s3transfer 0.5.2
scikit-learn 0.24.2 scipy 1.7.1 seaborn 0.11.3
Send2Trash 1.8.0 setuptools 58.0.4 setuptools-git 1.2
shap 0.41.0 simplejson 3.17.6 six 1.16.0
segment 0.0.7 smart-open 5.2.1 smmap 5.0.0
spacy 3.4.1 spacy-legacy 3.0.10 spacy-loggers 1.0.3
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.2 srsly 2.4.4
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.9
tangled-up-in-unicode 0.1.0 tenacity 8.0.1 tensorboard 2.9.1
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.8.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.9.1 tensorflow-estimator 2.9.0 tensorflow-io-gcs-filesystem 0.27.0
termcolor 2.0.1 terminado 0.9.4 testpath 0.5.0
thinc 8.1.2 threadpoolctl 2.2.0 tokenize-rt 4.2.1
générateurs de jetons 0.12.1 tomli 2.0.1 torch 1.12.1+cpu
torchvision 0.13.1+cpu tornado 6.1 tqdm 4.62.3
traitlets 5.1.0 transformateurs 4.21.2 typer 0.4.2
typing-extensions 3.10.0.2 ujson 4.0.2 unattended-upgrades 0.1
urllib3 1.26.7 virtualenv 20.8.0 visions 0.7.4
wasabi 0.10.1 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 1.3.1 Werkzeug 2.0.2 wheel 0.37.0
widgetsnbextension 3.6.0 wrapt 1.12.1 xgboost 1.6.2
zipp 3.6.0

Bibliothèques Python sur les clusters GPU

Bibliothèque Version Bibliothèque Version Bibliothèque Version
absl-py 1.0.0 argon2-cffi 20.1.0 astor 0.8.1
astunparse 1.6.3 async-generator 1,10 attrs 21.2.0
azure-core 1.22.1 azure-cosmos 4.2.0 backcall 0.2.0
backports.entry-points-selectable 1.1.1 bcrypt 4.0.0 black 22.3.0
bleach 4.0.0 blis 0.7.8 boto3 1.21.18
botocore 1.24.18 cachetools 5.2.0 catalogue 2.0.8
certifi 2021.10.8 cffi 1.14.6 chardet 4.0.0
charset-normalizer 2.0.4 click 8.0.3 cloudpickle 2.0.0
cmdstanpy 0.9.68 confection 0.0.1 configparser 5.2.0
convertdate 2.4.0 chiffrement 3.4.8 cycler 0.10.0
cymem 2.0.6 Cython 0.29.24 databricks-automl-runtime 0.2.11
databricks-cli 0.17.3 dbl-tempo 0.1.12 dbus-python 1.2.16
debugpy 1.4.1 decorator 5.1.0 defusedxml 0.7.1
dill 0.3.4 diskcache 5.4.0 distlib 0.3.6
entrypoints 0.3 ephem 4.1.3 facets-overview 1.0.0
fasttext 0.9.2 filelock 3.3.1 Flask 1.1.2
flatbuffers 1.12 fsspec 2021.8.1 future 0.18.2
gast 0.4.0 gitdb 4.0.9 GitPython 3.1.27
google-auth 2.6.0 google-auth-oauthlib 0.4.6 google-pasta 0.2.0
grpcio 1.44.0 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.3.0 hijri-converter 2.2.4 holidays 0.15
horovod 0.25.0 htmlmin 0.1.12 huggingface-hub 0.9.1
idna 3.2 ImageHash 4.3.0 imbalanced-learn 0.8.1
importlib-metadata 4.8.1 ipykernel 6.12.1 ipython 7.32.0
ipython-genutils 0.2.0 ipywidgets 7.7.0 isodate 0.6.1
itsdangerous 2.0.1 jedi 0.18.0 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.5.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.8.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.9.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 korean-lunar-calendar 0.3.1
langcodes 3.3.0 libclang 14.0.6 lightgbm 3.3.2
llvmlite 0.37.0 LunarCalendar 0.0.9 Mako 1.2.0
Markdown 3.3.6 MarkupSafe 2.0.1 matplotlib 3.4.3
matplotlib-inline 0.1.2 missingno 0.5.1 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 1.29.0 multimethod 1.9
murmurhash 1.0.8 mypy-extensions 0.4.3 nbclient 0.5.3
nbconvert 6.1.0 nbformat 5.1.3 nest-asyncio 1.5.1
networkx 2.6.3 nltk 3.6.5 notebook 6.4.5
numba 0.54.1 numpy 1.20.3 oauthlib 3.2.0
opt-einsum 3.3.0 empaquetage 21.0 pandas 1.3.4
pandas-profiling 3.1.0 pandocfilters 1.4.3 paramiko 2.9.2
parso 0.8.2 pathspec 0.9.0 pathy 0.6.2
patsy 0.5.2 petastorm 0.11.4 pexpect 4.8.0
phik 0.12.2 pickleshare 0.7.5 Pillow 8.4.0
pip 21.2.4 platformdirs 2.5.2 plotly 5.9.0
pmdarima 1.8.5 preshed 3.0.7 prompt-toolkit 3.0.20
prophet 1.0.1 protobuf 3.19.4 psutil 5.8.0
psycopg2 2.9.3 ptyprocess 0.7.0 pyarrow 7.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.10.0
pycparser 2.20 pydantic 1.9.2 Pygments 2.10.0
PyGObject 3.36.0 PyJWT 2.5.0 PyMeeus 0.5.11
PyNaCl 1.5.0 pyodbc 4.0.31 pyparsing 3.0.4
pyrsistent 0.18.0 pystan 2.19.1.1 python-dateutil 2.8.2
python-editor 1.0.4 pytz 2021.3 PyWavelets 1.1.1
PyYAML 6.0 pyzmq 22.2.1 regex 2021.8.3
requêtes 2.26.0 requests-oauthlib 1.3.1 requests-unixsocket 0.2.0
rsa 4,9 s3transfer 0.5.2 scikit-learn 0.24.2
scipy 1.7.1 seaborn 0.11.3 Send2Trash 1.8.0
setuptools 58.0.4 setuptools-git 1.2 shap 0.41.0
simplejson 3.17.6 six 1.16.0 segment 0.0.7
smart-open 5.2.1 smmap 5.0.0 spacy 3.4.1
spacy-legacy 3.0.10 spacy-loggers 1.0.3 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.2 srsly 2.4.4 ssh-import-id 5.10
statsmodels 0.12.2 tabulate 0.8.9 tangled-up-in-unicode 0.1.0
tenacity 8.0.1 tensorboard 2.9.1 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.8.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.9.1
tensorflow-estimator 2.9.0 tensorflow-io-gcs-filesystem 0.27.0 termcolor 2.0.1
terminado 0.9.4 testpath 0.5.0 thinc 8.1.2
threadpoolctl 2.2.0 tokenize-rt 4.2.1 générateurs de jetons 0.12.1
tomli 2.0.1 torch 1.12.1+cu113 torchvision 0.13.1+cu113
tornado 6.1 tqdm 4.62.3 traitlets 5.1.0
transformateurs 4.21.2 typer 0.4.2 typing-extensions 3.10.0.2
ujson 4.0.2 unattended-upgrades 0.1 urllib3 1.26.7
virtualenv 20.8.0 visions 0.7.4 wasabi 0.10.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 1.3.1
Werkzeug 2.0.2 wheel 0.37.0 widgetsnbextension 3.6.0
wrapt 1.12.1 xgboost 1.6.2 zipp 3.6.0

Bibliothèques R

Les bibliothèques R sont identiques aux bibliothèques R dans Databricks Runtime 11.3 LTS.

Bibliothèques Java et Scala (cluster Scala 2.12)

En plus des bibliothèques Java et Scala dans Databricks Runtime 11.3 LTS, Databricks Runtime 11.3 LTS ML contient les fichiers JAR suivants :

Clusters UC

ID de groupe ID d’artefact Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-spark_2.12 1.6.2
ml.dmlc xgboost4j_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.29.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clusters GPU

ID de groupe ID d’artefact Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-gpu_2.12 1.6.2
ml.dmlc xgboost4j-spark-gpu_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.29.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0