Databricks Runtime 10.4 LTS voor Machine Learning

Databricks Runtime 10.4 LTS voor Machine Learning biedt een kant-en-klare omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 10.4 LTS. Databricks Runtime ML bevat veel populaire machine learning-bibliotheken, waaronder TensorFlow, PyTorch en XGBoost. Databricks Runtime ML bevat AutoML, een hulpprogramma voor het automatisch trainen van machine learning-pijplijnen. Databricks Runtime ML biedt ook ondersteuning voor gedistribueerde Deep Learning-training met behulp van Horovod.

Notitie

LTS betekent dat deze versie op lange termijn wordt ondersteund. Zie de levenscyclus van de Databricks Runtime LTS-versie.

Zie AI en Machine Learning op Databricks voor meer informatie, waaronder instructies voor het maken van een Databricks Runtime ML-cluster.

Nieuwe functies en verbeteringen

Databricks Runtime 10.4 LTS ML is gebaseerd op Databricks Runtime 10.4 LTS. Zie de releaseopmerkingen voor Databricks Runtime 10.4 LTS, waaronder Apache Spark MLlib en SparkR, voor informatie over wat er nieuw is in Databricks Runtime 10.4 LTS .

Verbeteringen aan Databricks AutoML

De volgende verbeteringen zijn aangebracht in Databricks AutoML.

Databricks AutoML is algemeen beschikbaar

Vanaf Databricks Runtime 10.4 LTS ML is Databricks AutoML algemeen beschikbaar.

Imputatie van ontbrekende waarden

U kunt nu opgeven hoe null-waarden worden toegerekend. Standaard selecteert AutoML een imputatiemethode op basis van het kolomtype en de inhoud. Zie De imputatie van ontbrekende waarden.

Kolomselectie uit gebruikersinterface

Voor classificatie- en regressieproblemen kunt u nu de gebruikersinterface naast de API gebruiken om kolommen op te geven die AutoML tijdens de berekeningen moet negeren. Zie Kolomselectie voor meer informatie.

Nieuw gegevenstype

AutoML ondersteunt nu numerieke matrixtypen.

Aangepaste locatie van gegenereerde notebooks en experiment

U kunt nu een locatie opgeven in de werkruimte waarin AutoML gegenereerde notebooks en experimenten moet opslaan. Gebruik de experiment_dir parameter. Zie classificatie- en regressieparameters.

Verbeteringen in Databricks Feature Store

De volgende verbeteringen zijn aangebracht in Databricks Feature Store.

  • U kunt nu een bestaande Delta-tabel registreren als een functietabel.

Systeemomgeving

De systeemomgeving in Databricks Runtime 10.4 LTS ML verschilt als volgt van Databricks Runtime 10.4 LTS:

Bibliotheken

In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 10.4 LTS ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 10.4 LTS.

In deze sectie:

Bibliotheken met de hoogste laag

Databricks Runtime 10.4 LTS ML bevat de volgende bibliotheken met de hoogste laag:

Python-bibliotheken

Databricks Runtime 10.4 LTS ML maakt gebruik van Virtualenv voor Python-pakketbeheer en bevat veel populaire ML-pakketten.

Naast de pakketten die zijn opgegeven in de volgende secties, bevat Databricks Runtime 10.4 LTS ML ook de volgende pakketten:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

Python-bibliotheken op CPU-clusters

Als u de Databricks Runtime ML Python-omgeving in uw lokale virtuele Python-omgeving wilt reproduceren, downloadt u het requirements-10.4.txt-bestand en voert u het uitpip install -r requirements-10.4.txt. Met deze opdracht worden alle opensourcebibliotheken geïnstalleerd die door Databricks Runtime ML worden gebruikt, maar worden geen door Azure Databricks ontwikkelde bibliotheken geïnstalleerd, zoals databricks-automl, databricks-feature-storeof de Databricks-fork van hyperopt.

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 bidict 0.21.4 Bleekmiddel 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Catalogus 2.0.6 certifi 2020.12.5
Cffi 1.14.5 Chardet 4.0.0 klikken 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Cryptografie 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
Decorator 5.0.6 defusedxml 0.7.1 Dille 0.3.2
diskcache 5.2.1 distlib 0.3.4 distro-info 0.23opgegeven1
invoerpunten 0,3 kortstondige tijd 4.1.3 facets-overview 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 Toekomst 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 Vakantie 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 onevenwichtig leren 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 Ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.8.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 koala's 1.8.2
koreaans-maankalender 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimethod 1,7
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 Networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.1
Numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Verpakking 21.3 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilters 1.4.3 Paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.4
Pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Kussen 8.2.0 Pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 vooraf geslagen 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 Profeet 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.1 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 Pygobject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 Pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 Pywavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 Regex 2021.4.4
requests 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
Rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 Scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 Setuptools 52.0.0 setuptools-git 1.2
Shap 0.40.0 Simplejson 3.17.2 Zes 1.15.0
Slicer 0.0.7 slim openen 5.2.0 smmap 3.0.5
spatie 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 Tabulate 0.8.7
tangled-up-in-unicode 0.1.0 Vasthoudendheid 6.2.0 tensorboard 2.8.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.8.0 tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
tf-estimator-nightly 2.8.0.dev2021122109 thinc 8.0.12 threadpoolctl 2.1.0
tokenizers 0.10.3 Fakkel 1.10.2+cpu torchvision 0.11.3+cpu
Tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
Transformers 4.16.2 Typer 0.3.2 typen-extensies 3.7.4.3
ujson 4.0.2 upgrades zonder toezicht 0,1 urllib3 1.25.11
Virtualenv 20.4.1 Visioenen 0.7.4 Wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Wiel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.5.2 zipp 3.4.1

Python-bibliotheken op GPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 bidict 0.21.4 Bleekmiddel 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Catalogus 2.0.6 certifi 2020.12.5
Cffi 1.14.5 Chardet 4.0.0 klikken 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Cryptografie 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
Decorator 5.0.6 defusedxml 0.7.1 Dille 0.3.2
diskcache 5.2.1 distlib 0.3.4 distro-info 0.23opgegeven1
invoerpunten 0,3 kortstondige tijd 4.1.3 facets-overview 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 Toekomst 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 Vakantie 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 onevenwichtig leren 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 Ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.8.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 koala's 1.8.2
koreaans-maankalender 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimethod 1,7
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 Networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.1
Numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Verpakking 21.3 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilters 1.4.3 Paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.4
Pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Kussen 8.2.0 Pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 vooraf geslagen 3.0.5 prompt-toolkit 3.0.17
Profeet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.1
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
Pygobject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 Pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil 2.8.1
python-editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 Pywavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
Scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
Setuptools 52.0.0 setuptools-git 1.2 Shap 0.40.0
Simplejson 3.17.2 Zes 1.15.0 Slicer 0.0.7
slim openen 5.2.0 smmap 3.0.5 spatie 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 Tabulate 0.8.7 tangled-up-in-unicode 0.1.0
Vasthoudendheid 6.2.0 tensorboard 2.8.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.8.0
tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 tf-estimator-nightly 2.8.0.dev2021122109
thinc 8.0.12 threadpoolctl 2.1.0 tokenizers 0.10.3
Fakkel 1.10.2+cu111 torchvision 0.11.3+cu111 Tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 Transformers 4.16.2
Typer 0.3.2 typen-extensies 3.7.4.3 ujson 4.0.2
upgrades zonder toezicht 0,1 urllib3 1.25.11 Virtualenv 20.4.1
Visioenen 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Wiel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.2 zipp 3.4.1

Spark-pakketten met Python-modules

Spark-pakket Python-module Versie
graphframes graphframes 0.8.2-db1-spark3.2

R-bibliotheken

De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 10.4 LTS.

Java- en Scala-bibliotheken (Scala 2.12-cluster)

Naast Java- en Scala-bibliotheken in Databricks Runtime 10.4 LTS bevat Databricks Runtime 10.4 LTS ML de volgende JAR's:

CPU-clusters

Groeps-id Artefact-id Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-clusters

Groeps-id Artefact-id Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0