Databricks Runtime 9.1 LTS voor Machine Learning

Databricks heeft deze installatiekopieën uitgebracht en in september 2021 gedeclareerd als Long Term Support (LTS).

Databricks Runtime 9.1 LTS voor Machine Learning biedt een kant-en-klare omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 9.1 LTS. Databricks Runtime ML bevat veel populaire machine learning-bibliotheken, waaronder TensorFlow, PyTorch en XGBoost. Databricks Runtime ML bevat AutoML, een hulpprogramma voor het automatisch trainen van machine learning-pijplijnen. Databricks Runtime ML biedt ook ondersteuning voor gedistribueerde Deep Learning-training met behulp van Horovod.

Notitie

LTS betekent dat deze versie op lange termijn wordt ondersteund. Zie de levenscyclus van de Databricks Runtime LTS-versie.

Zie AI en Machine Learning op Databricks voor meer informatie, waaronder instructies voor het maken van een Databricks Runtime ML-cluster.

Nieuwe functies en verbeteringen

AutoML

De volgende verbeteringen zijn beschikbaar in Databricks Runtime 9.1 LTS ML en hoger.

AutoML ondersteunt grotere gegevenssets door steekproeven te nemen

AutoML bevat nu voorbeelden van gegevenssets die geheugenbeperkingen kunnen overschrijden, zodat deze kan worden uitgevoerd op grotere gegevenssets met minder risico op onvoldoende geheugenfouten. Zie Voorbeelden van grote gegevenssets voor meer informatie.

AutoML verwerkt kolommen vooraf op basis van semantisch type

AutoML detecteert bepaalde kolommen met een semantisch type dat verschilt van het spark- of pandas-gegevenstype. AutoML converteert en past de stappen voor de verwerking van gegevens vervolgens toe op basis van het gedetecteerde semantische type. AutoML voert met name de volgende conversies uit:

  • Tekenreeks- en gehele getallenkolommen die datum- of tijdstempelgegevens vertegenwoordigen, worden geconverteerd naar een tijdstempeltype.
  • Tekenreekskolommen die numerieke gegevens vertegenwoordigen, worden geconverteerd naar een numeriek type.

Verbeteringen aan door AutoML gegenereerde notebooks

Voorverwerkingsstappen voor datum- en tijdstempelkolommen worden nu opgenomen in het databricks-automl-runtime pakket, waardoor de notebooks die door de AutoML-training worden gegenereerd, worden vereenvoudigd. databricks-automl-runtime is opgenomen in Databricks Runtime 9.1 LTS ML en hoger en is ook beschikbaar op PyPI.

Functiearchief

De volgende verbeteringen zijn beschikbaar in Databricks Runtime 9.1 LTS ML en hoger.

  • Wanneer u een TrainingSet maakt, kunt u nu instellen label=None dat leertoepassingen zonder supervisie worden ondersteund.
  • U kunt nu meer dan één functie opgeven in één FeatureLookup.
  • U kunt nu een aangepast pad voor functietabellen opgeven. Gebruik de path parameter in create_feature_table(). De standaardwaarde is de databaselocatie.
  • Nieuwe ondersteunde PySpark-gegevenstypen: ArrayType en ShortType.

Mlflow

De volgende verbeteringen zijn beschikbaar vanaf Mlflow versie 1.20.2, die is opgenomen in Databricks Runtime 9.1 LTS ML.

  • Automatische aanmelding voor scikit-learn registreert nu metrische gegevens na training wanneer een scikit-learn-evaluatie-API, zoals sklearn.metrics.mean_squared_error, wordt aangeroepen.
  • Automatische logboekregistratie voor PySpark ML registreert nu metrische gegevens na training wanneer een modelevaluatie-API, zoals Evaluator.evaluate(), wordt aangeroepen.
  • mlflow.*.log_model en mlflow.*.save_model nu hebt pip_requirements en extra_pip_requirements argumenten zodat u rechtstreeks de pip-vereisten van het model kunt opgeven om te registreren of op te slaan.
  • mlflow.*.log_model en mlflow.*.save_model nu automatisch de pip-vereisten van het model afleiden om te registreren of op te slaan op basis van de huidige softwareomgeving.
  • stdMetrics vermeldingen worden nu geregistreerd als metrische trainingsgegevens tijdens automatische aanmelding van PySpark CrossValidator.
  • PyTorch Lightning autologging ondersteunt nu gedistribueerde uitvoering.

Autologging van Databricks (openbare preview)

De openbare preview van Databricks Autologging is uitgebreid naar nieuwe regio's. Databricks Autologging is een oplossing zonder code waarmee automatisch experimenten worden bijgehouden voor machine learning-trainingssessies in Azure Databricks. Met Autologging van Databricks worden modelparameters, metrische gegevens, bestanden en herkomstgegevens automatisch vastgelegd wanneer u modellen traint uit verschillende populaire machine learning-bibliotheken. Trainingssessies worden vastgelegd als MLflow Tracking Runs. Modelbestanden worden ook bijgehouden, zodat u ze eenvoudig kunt registreren bij het MLflow-modelregister en ze kunt implementeren voor realtime scoren met MLflow Model Serving.

Zie Databricks Autologging voor meer informatie over Autologging van Databricks.

Belangrijke wijzigingen in de Python-omgeving van Databricks Runtime ML

Python-pakketten bijgewerkt

  • automl 1.1.1 => 1.2.1
  • feature_store 0,3.3 => 0,3.4.1
  • feestdagen 0.10.5.2 => 0.11.2
  • keras 2.5.0 => 2.6.0
  • mlflow 1.19.0 => 1.20.2
  • petastorm 0.11.1 => 0.11.2
  • plotly 4.14.3 => 5.1.0
  • spark-tensorflow-distributor 0.1.0 => 1.0.0
  • sparkdl 2.2.0_db1 => 2.2.0_db3
  • tensorboard 2.5.0 => 2.6.0
  • tensorflow 2.5.0 => 2.6.0

Python-pakketten toegevoegd

  • databricks-automl-runtime 0.1.0

Systeemomgeving

De systeemomgeving in Databricks Runtime 9.1 LTS ML verschilt als volgt van Databricks Runtime 9.1 LTS:

Bibliotheken

In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 9.1 LTS ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 9.1 LTS.

In deze sectie:

Bibliotheken met de hoogste laag

Databricks Runtime 9.1 LTS ML bevat de volgende bibliotheken met de hoogste laag:

Python-bibliotheken

Databricks Runtime 9.1 LTS ML maakt gebruik van Virtualenv voor Python-pakketbeheer en bevat veel populaire ML-pakketten.

Naast de pakketten die in de volgende secties zijn opgegeven, bevat Databricks Runtime 9.1 LTS ML ook de volgende pakketten:

  • hyperopt 0.2.5.db2
  • sparkdl-2.2.0_db3
  • feature_store 0.3.4.1
  • automl 1.2.1

Python-bibliotheken op CPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 Bleekmiddel 3.3.0 boto3 1.16.7
botocore 1.19.7 Knelpunt 1.3.2 cachetools 4.2.2
certifi 2020.12.5 Cffi 1.14.5 Chardet 4.0.0
Clang 5,0 klikken 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 convertdate 2.3.2
Cryptografie 3.4.7 cycler 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
Decorator 5.0.6 defusedxml 0.7.1 Dille 0.3.2
diskcache 5.2.1 distlib 0.3.2 distro-info 0.23opgegeven1
invoerpunten 0,3 kortstondige tijd 4.0.0.2 facets-overview 1.0.0
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Toekomst 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
Vakantie 0.11.2 horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koala's 1.8.1 koreaans-maankalender 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 Networkx 2.5 nltk 3.6.1
notebook 6.3.0 numba 0.54.0 Numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Verpakking 20.9
Pandas 1.2.4 pandas-profilering 3.0.0 pandocfilters 1.4.3
Paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.2 Pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Kussen 8.2.0 Pip 21.0.1
plotly 5.1.0 prometheus-client 0.10.1 prompt-toolkit 3.0.17
Profeet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 Pygobject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
Pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 Pywavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 scikit-learn 0.24.1 Scipy 1.6.2
seaborn 0.11.1 Send2Trash 1.5.0 Setuptools 52.0.0
setuptools-git 1.2 Shap 0.39.0 Simplejson 3.17.2
Zes 1.15.0 Slicer 0.0.7 smmap 3.0.5
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 ssh-import-id 5.10
statsmodels 0.12.2 Tabulate 0.8.7 tangled-up-in-unicode 0.1.0
Vasthoudendheid 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 Fakkel 1.9.0+cpu torchvision 0.10.0+cpu
Tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
typen-extensies 3.7.4.3 ujson 4.0.2 upgrades zonder toezicht 0,1
urllib3 1.25.11 Virtualenv 20.4.1 Visioenen 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Wiel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 zipp 3.4.1

Python-bibliotheken op GPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 Bleekmiddel 3.3.0 boto3 1.16.7
botocore 1.19.7 Knelpunt 1.3.2 cachetools 4.2.2
certifi 2020.12.5 Cffi 1.14.5 Chardet 4.0.0
Clang 5,0 klikken 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 convertdate 2.3.2
Cryptografie 3.4.7 cycler 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
Decorator 5.0.6 defusedxml 0.7.1 Dille 0.3.2
diskcache 5.2.1 distlib 0.3.2 distro-info 0.23opgegeven1
invoerpunten 0,3 kortstondige tijd 4.0.0.2 facets-overview 1.0.0
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Toekomst 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
Vakantie 0.11.2 horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koala's 1.8.1 koreaans-maankalender 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 Networkx 2.5 nltk 3.6.1
notebook 6.3.0 numba 0.54.0 Numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Verpakking 20.9
Pandas 1.2.4 pandas-profilering 3.0.0 pandocfilters 1.4.3
Paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.2 Pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Kussen 8.2.0 Pip 21.0.1
plotly 5.1.0 prompt-toolkit 3.0.17 Profeet 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 Pygobject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 pyodbc 4.0.30 Pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor 1.0.4 pytz 2020.5
Pywavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
Regex 2021.4.4 requests 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 Rsa 4.7.2 s3transfer 0.3.7
scikit-learn 0.24.1 Scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 Setuptools 52.0.0 setuptools-git 1.2
Shap 0.39.0 Simplejson 3.17.2 Zes 1.15.0
Slicer 0.0.7 smmap 3.0.5 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 ssh-import-id 5.10 statsmodels 0.12.2
Tabulate 0.8.7 tangled-up-in-unicode 0.1.0 Vasthoudendheid 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-wit 1.8.0
tensorflow 2.6.0 tensorflow-estimator 2.6.0 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 threadpoolctl 2.1.0
Fakkel 1.9.0+cu111 torchvision 0.10.0+cu111 Tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 typen-extensies 3.7.4.3
ujson 4.0.2 upgrades zonder toezicht 0,1 urllib3 1.25.11
Virtualenv 20.4.1 Visioenen 0.7.1 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Wiel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 zipp 3.4.1

Spark-pakketten met Python-modules

Spark-pakket Python-module Versie
graphframes graphframes 0.8.1-db3-spark3.1

R-bibliotheken

De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 9.1 LTS.

Java- en Scala-bibliotheken (Scala 2.12-cluster)

Naast Java- en Scala-bibliotheken in Databricks Runtime 9.1 LTS bevat Databricks Runtime 9.1 LTS ML de volgende JAR's:

CPU-clusters

Groeps-id Artefact-id Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-clusters

Groeps-id Artefact-id Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0