Databricks Runtime 10.5 pour Machine Learning (non pris en charge)
Databricks Runtime 10.5 for Machine Learning fournit un environnement prêt à l’emploi pour l’apprentissage automatique et la science des données basé sur Databricks Runtime 10.5 (non pris en charge). Databricks Runtime ML contient de nombreuses bibliothèques populaires de Machine Learning, notamment TensorFlow, PyTorch et XGBoost. Databricks Runtime ML comprend AutoML, un outil permettant d’effectuer l’apprentissage automatique des pipelines Machine Learning. Databricks Runtime ML prend également en charge l'apprentissage profond distribué à l'aide d'Horovod.
Pour plus d’informations, notamment les instructions relatives à la création d’un cluster Databricks Runtime ML, consultez IA et Machine Learning sur Databricks.
Améliorations et nouvelles fonctionnalités
Databricks Runtime 10.5 ML s’appuie sur Databricks Runtime 10.5. Pour obtenir plus d’informations sur les nouveautés de Databricks Runtime 10.5, y compris Apache Spark MLlib et SparkR, consultez les notes de publication de Databricks Runtime 10.5 (non pris en charge).
Améliorations apportées à Databricks AutoML
Les améliorations suivantes ont été apportées à Databricks AutoML.
- L’utilisation améliorée de la mémoire permet à AutoML d’effectuer l’apprentissage sur des jeux de données plus volumineux.
- Avec la prévision AutoML, vous pouvez désormais exporter les prédictions des meilleurs modèles vers une table à l’aide de l’API. Si
output_database
est fourni, AutoML enregistre les prédictions du meilleur modèle dans une nouvelle table de la base de données spécifiée. Les prédictions ne sont pas enregistrées sioutput_database
n’est pas spécifié.
Améliorations apportées à Databricks Feature Store
Les améliorations suivantes ont été apportées au Databricks Feature Store.
- Vous pouvez maintenant supprimer une table de caractéristiques existante avec l’API
drop_table
. Cette action supprime également la table Delta sous-jacente. - Vous pouvez maintenant utiliser l’API Python pour ajouter une étiquette à une table de caractéristiques lorsque vous la créez ou l’inscrivez, et pour ajouter, mettre à jour, supprimer ou lire des étiquettes sur des tables de caractéristiques existantes.
Environnement du système
L’environnement système de Databricks Runtime 10.5 ML diffère de Databricks Runtime 10.5 comme suit :
- DBUtils : Databricks Runtime ML n’inclut pas l’Utilitaire de bibliothèque (dbutils.library) (hérité).
Utilisez les commandes
%pip
à la place. Consultez Bibliothèques Python délimitées à un notebook. - Pour les clusters GPU, Databricks Runtime ML inclut les bibliothèques GPU NVIDIA suivantes :
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliothèques
Les sections suivantes répertorient les bibliothèques incluses dans Databricks Runtime ML 10.5 qui diffèrent de celles incluses dans Databricks Runtime 10.5.
Dans cette section :
- Bibliothèques de niveau supérieur
- Bibliothèques Python
- Bibliothèques R
- Bibliothèques Java et Scala (cluster Scala 2.12)
Bibliothèques de niveau supérieur
Databricks Runtime 10.5 ML comprend les bibliothèquesde niveau supérieur suivantes :
- GraphFrames
- Horovod et HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Bibliothèques Python
Databricks Runtime 10.5 ML utilise Virtualenv pour la gestion des packages Python et comprend de nombreux packages ML populaires.
En plus des packages spécifiés dans les sections suivantes, Databricks Runtime 10.5 ML comprend également les packages suivants :
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db6
- feature_store 0.4.1
- automl 1.8.0
Bibliothèques Python sur les clusters UC
Bibliothèque | Version | Bibliothèque | Version | Bibliothèque | Version |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.7 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogue | 2.0.7 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | click | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.4.0 | chiffrement | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.7 |
databricks-cli | 0.16.4 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.4.0 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
entrypoints | 0.3 | ephem | 4.1.3 | facets-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2 | fsspec | 0.9.0 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.3 | holidays | 0,13 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.5.1 |
idna | 2.10 | ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
korean-lunar-calendar | 0.2.1 | langcodes | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimethod | 1.8 |
murmurhash | 1.0.6 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
empaquetage | 21,3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.1 | patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.2 | pickleshare | 0.7.5 |
Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.6.0 |
pmdarima | 1.8.5 | preshed | 3.0.6 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | prophet | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.9.2 | pycparser | 2.20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.5.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
requêtes | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.8 | s3transfer | 0.3.7 | sacremoses | 0.0.49 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.40.0 | simplejson | 3.17.2 | six | 1.15.0 |
segment | 0.0.7 | smart-open | 5.2.1 | smmap | 3.0.5 |
spacy | 3.2.3 | spacy-legacy | 3.0.9 | spacy-loggers | 1.0.2 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.3 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulate | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 | tensorboard | 2.8.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.8.0 | tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
tf-estimator-nightly | 2.8.0.dev2021122109 | thinc | 8.0.15 | threadpoolctl | 2.1.0 |
générateurs de jetons | 0.12.1 | torch | 1.10.2+cpu | torchvision | 0.11.3+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
transformateurs | 4.17.0 | typer | 0.4.1 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | unattended-upgrades | 0.1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | visions | 0.7.4 | wasabi | 0.9.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | wheel | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.5.2 | zipp | 3.4.1 |
Bibliothèques Python sur les clusters GPU
Bibliothèque | Version | Bibliothèque | Version | Bibliothèque | Version |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.7 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogue | 2.0.7 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | click | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.4.0 | chiffrement | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.7 |
databricks-cli | 0.16.4 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.4.0 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
entrypoints | 0.3 | ephem | 4.1.3 | facets-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2 | fsspec | 0.9.0 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.3 | holidays | 0,13 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.5.1 |
idna | 2.10 | ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
korean-lunar-calendar | 0.2.1 | langcodes | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimethod | 1.8 |
murmurhash | 1.0.6 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
empaquetage | 21,3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.1 | patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.2 | pickleshare | 0.7.5 |
Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.6.0 |
pmdarima | 1.8.5 | preshed | 3.0.6 | prompt-toolkit | 3.0.17 |
prophet | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.2 |
pycparser | 2.20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.5.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | requêtes | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.8 |
s3transfer | 0.3.7 | sacremoses | 0.0.49 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.40.0 |
simplejson | 3.17.2 | six | 1.15.0 | segment | 0.0.7 |
smart-open | 5.2.1 | smmap | 3.0.5 | spacy | 3.2.3 |
spacy-legacy | 3.0.9 | spacy-loggers | 1.0.2 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | srsly | 2.4.3 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 |
tenacity | 6.2.0 | tensorboard | 2.8.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.8.0 |
tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
terminado | 0.9.4 | testpath | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021122109 |
thinc | 8.0.15 | threadpoolctl | 2.1.0 | générateurs de jetons | 0.12.1 |
torch | 1.10.2+cu113 | torchvision | 0.11.3+cu113 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | transformateurs | 4.17.0 |
typer | 0.4.1 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
unattended-upgrades | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
visions | 0.7.4 | wasabi | 0.9.1 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
wheel | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.5.2 | zipp | 3.4.1 |
Packages Spark contenant des modules Python
Package Spark | Module Python | Version |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
Bibliothèques R
Les bibliothèques R sont identiques aux bibliothèques R dans Databricks Runtime 10.5.
Bibliothèques Java et Scala (cluster Scala 2.12)
En plus des bibliothèques Java et Scala dans Databricks Runtime 10.5, Databricks Runtime 10.5 ML contient les fichiers jar suivants :
Clusters UC
ID de groupe | ID d’artefact | Version |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters GPU
ID de groupe | ID d’artefact | Version |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |