Share via


Databricks Runtime 10.3 voor ML (niet ondersteund)

Databricks Runtime 10.3 voor Machine Learning biedt een kant-en-klare omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 10.3 (niet ondersteund). Databricks Runtime ML bevat veel populaire machine learning-bibliotheken, waaronder TensorFlow, PyTorch en XGBoost. Databricks Runtime ML bevat AutoML, een hulpprogramma voor het automatisch trainen van machine learning-pijplijnen. Databricks Runtime ML biedt ook ondersteuning voor gedistribueerde Deep Learning-training met behulp van Horovod.

Zie AI en Machine Learning op Databricks voor meer informatie, waaronder instructies voor het maken van een Databricks Runtime ML-cluster.

Nieuwe functies en verbeteringen

Databricks Runtime 10.3 ML is gebouwd op databricks Runtime 10.3. Zie de releaseopmerkingen van Databricks Runtime 10.3, waaronder Apache Spark MLlib en SparkR, voor informatie over wat er nieuw is in Databricks Runtime 10.3 (niet-ondersteund ).

Verbeteringen aan Databricks AutoML

De volgende verbeteringen zijn aangebracht in Databricks AutoML.

AutoML ondersteunt nu het ARIMA-model voor prognose

Naast Prophet maakt en evalueert AutoML nu ARIMA-modellen voor het voorspellen van problemen.

Kolommen uitsluiten van gegevensset

Wanneer u de AutoML-API gebruikt, kunt u kolommen opgeven die AutoML tijdens de berekeningen moet negeren. Dit is alleen beschikbaar voor classificatie- en regressieproblemen. Zie classificatie- en regressieparameters voor meer informatie.

Algoritmeframeworks uitsluiten van een AutoML-uitvoering

U kunt algoritmeframeworks, zoals scikit-learn, opgeven waarmee AutoML niet rekening moet houden bij het ontwikkelen van modellen. Zie Geavanceerde configuraties en classificatie- en regressieparameters voor meer informatie.

max_trials Afgekeurd

De max_trials parameter is afgeschaft en wordt verwijderd in de volgende primaire Databricks Runtime ML-release. Gebruik timeout_minutes dit om de duur van een AutoML-uitvoering te bepalen. In Databricks Runtime 10.1 ML en hoger bevat AutoML ook vroeg stoppen; het trainen en afstemmen van modellen stopt als de metrische validatiegegevens niet meer worden verbeterd.

Verbeteringen in Databricks Feature Store

U kunt nu opzoekacties voor een bepaald tijdstip toepassen op tijdreeksfunctietabellen. Zie Functietabellen van tijdreeksen gebruiken met ondersteuning voor een bepaald tijdstip voor meer informatie.

Databricks Autologging (GA)

Databricks Autologging is nu algemeen beschikbaar in Databricks Runtime 10.3 ML. Databricks Autologging is een oplossing zonder code waarmee automatisch experimenten worden bijgehouden voor machine learning-trainingssessies in Azure Databricks. Met Autologging van Databricks worden modelparameters, metrische gegevens, bestanden en herkomstgegevens automatisch vastgelegd wanneer u modellen traint uit verschillende populaire machine learning-bibliotheken. Trainingssessies worden vastgelegd als MLflow Tracking Runs. Modelbestanden worden ook bijgehouden, zodat u ze eenvoudig kunt registreren bij het MLflow-modelregister en ze kunt implementeren voor realtime scoren met MLflow Model Serving.

Zie Autologging van Databricks voor meer informatie.

Systeemomgeving

De systeemomgeving in Databricks Runtime 10.3 ML verschilt als volgt van Databricks Runtime 10.3:

Bibliotheken

In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 10.3 ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 10.3.

In deze sectie:

Bibliotheken met de hoogste laag

Databricks Runtime 10.3 ML bevat de volgende bibliotheken met de hoogste laag:

Python-bibliotheken

Databricks Runtime 10.3 ML maakt gebruik van Virtualenv voor Python-pakketbeheer en bevat veel populaire ML-pakketten.

Naast de pakketten die zijn opgegeven in de volgende secties, bevat Databricks Runtime 10.3 ML ook de volgende pakketten:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.7
  • automl 1.6.0

Python-bibliotheken op CPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 bidict 0.21.4 Bleekmiddel 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Catalogus 2.0.6 certifi 2020.12.5
Cffi 1.14.5 Chardet 4.0.0 klikken 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Cryptografie 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.5
databricks-cli 0.16.2 dbl-tempo 0.1.2 dbus-python 1.2.16
Decorator 5.0.6 defusedxml 0.7.1 Dille 0.3.2
diskcache 5.2.1 distlib 0.3.4 distro-info 0.23opgegeven1
invoerpunten 0,3 kortstondige tijd 4.1.3 facets-overview 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 Toekomst 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.2 Vakantie 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 onevenwichtig leren 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 Ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.7.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 koala's 1.8.2
koreaans-maankalender 0.2.1 langcodes 3.3.0 libclang 12.0.0
lightgbm 3.3.1 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.23.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 Networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.0
Numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Verpakking 21.3 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilters 1.4.3 Paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.3
Pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Kussen 8.2.0 Pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 vooraf geslagen 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 Profeet 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.0 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 Pygobject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 Pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 Pywavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 Regex 2021.4.4
requests 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
Rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 Scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 Setuptools 52.0.0 setuptools-git 1.2
Shap 0.40.0 Simplejson 3.17.2 Zes 1.15.0
Slicer 0.0.7 slim openen 5.2.0 smmap 3.0.5
spatie 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 Tabulate 0.8.7
tangled-up-in-unicode 0.1.0 Vasthoudendheid 6.2.0 tensorboard 2.7.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.7.0 tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.23.1
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
thinc 8.0.12 threadpoolctl 2.1.0 tokenizers 0.10.3
Fakkel 1.10.1+cpu torchvision 0.11.2+cpu Tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 Transformers 4.15.0
Typer 0.3.2 typen-extensies 3.7.4.3 ujson 4.0.2
upgrades zonder toezicht 0,1 urllib3 1.25.11 Virtualenv 20.4.1
Visioenen 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Wiel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.1 zipp 3.4.1

Python-bibliotheken op GPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 bidict 0.21.4 Bleekmiddel 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Catalogus 2.0.6 certifi 2020.12.5
Cffi 1.14.5 Chardet 4.0.0 klikken 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Cryptografie 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.5
databricks-cli 0.16.2 dbl-tempo 0.1.2 dbus-python 1.2.16
Decorator 5.0.6 defusedxml 0.7.1 Dille 0.3.2
diskcache 5.2.1 distlib 0.3.4 distro-info 0.23opgegeven1
invoerpunten 0,3 kortstondige tijd 4.1.3 facets-overview 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 Toekomst 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.2 Vakantie 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 onevenwichtig leren 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 Ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.7.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 koala's 1.8.2
koreaans-maankalender 0.2.1 langcodes 3.3.0 libclang 12.0.0
lightgbm 3.3.1 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.23.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 Networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.0
Numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Verpakking 21.3 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilters 1.4.3 Paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.3
Pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Kussen 8.2.0 Pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 vooraf geslagen 3.0.5 prompt-toolkit 3.0.17
Profeet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.0
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
Pygobject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 Pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
python-editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 Pywavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
Scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
Setuptools 52.0.0 setuptools-git 1.2 Shap 0.40.0
Simplejson 3.17.2 Zes 1.15.0 Slicer 0.0.7
slim openen 5.2.0 smmap 3.0.5 spatie 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 Tabulate 0.8.7 tangled-up-in-unicode 0.1.0
Vasthoudendheid 6.2.0 tensorboard 2.7.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.7.0
tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.23.1 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 thinc 8.0.12
threadpoolctl 2.1.0 tokenizers 0.10.3 Fakkel 1.10.1+cu111
torchvision 0.11.2+cu111 Tornado 6.1 tqdm 4.59.0
traitlets 5.0.5 Transformers 4.15.0 Typer 0.3.2
typen-extensies 3.7.4.3 ujson 4.0.2 upgrades zonder toezicht 0,1
urllib3 1.25.11 Virtualenv 20.4.1 Visioenen 0.7.4
Wasabi 0.8.2 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.57.0 Werkzeug 1.0.1 Wiel 0.36.2
widgetsnbextension 3.5.1 wrapt 1.12.1 xgboost 1.5.1
zipp 3.4.1

Spark-pakketten met Python-modules

Spark-pakket Python-module Versie
graphframes graphframes 0.8.2-db1-spark3.2

R-bibliotheken

De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 10.3.

Java- en Scala-bibliotheken (Scala 2.12-cluster)

Naast Java- en Scala-bibliotheken in Databricks Runtime 10.3 bevat Databricks Runtime 10.3 ML de volgende JAR's:

CPU-clusters

Groeps-id Artefact-id Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.23.0
org.mlflow mlflow-spark 1.23.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-clusters

Groeps-id Artefact-id Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.23.0
org.mlflow mlflow-spark 1.23.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0