Share via


Databricks Runtime 10.1 voor ML (niet ondersteund)

Databricks Runtime 10.1 voor Machine Learning biedt een kant-en-klare omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 10.1 (niet ondersteund). Databricks Runtime ML bevat veel populaire machine learning-bibliotheken, waaronder TensorFlow, PyTorch en XGBoost. Het biedt ook ondersteuning voor gedistribueerde deep learning-training met behulp van Horovod.

Zie AI en Machine Learning op Databricks voor meer informatie, waaronder instructies voor het maken van een Databricks Runtime ML-cluster.

Nieuwe functies en verbeteringen

Databricks Runtime 10.1 ML is gebouwd op databricks Runtime 10.1. Zie de releaseopmerkingen van Databricks Runtime 10.1, waaronder Apache Spark MLlib en SparkR, voor informatie over wat er nieuw is in Databricks Runtime 10.1 (niet-ondersteund ).

Verbeteringen aan Databricks AutoML

In Databricks Runtime 10.1 bevat Databricks AutoML verbeterde semantische typedetectie, nieuwe waarschuwingen voor mogelijke gegevensproblemen tijdens de training, nieuwe mogelijkheden om overfitting van modellen te voorkomen en de mogelijkheid om de invoergegevensset te splitsen in train-, validatie- en testsets chronologisch.

Aanvullende semantische typedetecties

AutoML ondersteunt nu aanvullende semantische typedetectie:

  • Numerieke kolommen die categorische labels bevatten, worden behandeld als een categorisch type.
  • Tekenreekskolommen die Engelse tekst bevatten, worden behandeld als een tekstfunctie.

U kunt nu ook aantekeningen toevoegen om een kolomgegevenstype op te geven. Zie Semantische typedetectie voor meer informatie.

Waarschuwingen tijdens de training voor mogelijke problemen met gegevens

AutoML detecteert en genereert nu waarschuwingen voor mogelijke problemen met de gegevensset. Voorbeelden van waarschuwingen zijn niet-ondersteunde kolomtypen en kolommen met hoge kardinaliteit. Deze waarschuwingen worden weergegeven op de experimentpagina onder het nieuwe tabblad Waarschuwingen . Aanvullende informatie over waarschuwingen wordt opgenomen in het notitieblok voor gegevensverkenning. Zie Het experiment uitvoeren en de resultaten controleren voor meer informatie.

Verminderde overfitting van model

Twee nieuwe mogelijkheden verminderen de kans op overfitting van een model bij het gebruik van AutoML:

  • AutoML rapporteert nu teststatistieken naast validatie- en trainingsgegevens.
  • AutoML maakt nu gebruik van vroegtijdig stoppen. Het stopt het trainen en afstemmen van modellen als de metrische validatiegegevens niet meer worden verbeterd.

Gegevensset splitsen in trainings-/validatie-/testsets chronologisch

Voor classificatie- en regressieproblemen kunt u de gegevensset opsplitsen in train-, validatie- en testsets chronologisch. Zie Gegevens splitsen in trainings-/validatie-/testsets voor meer informatie.

Verbeteringen in Databricks Feature Store

Databricks Feature Store ondersteunt nu aanvullende gegevenstypen voor functietabellen: BinaryType, DecimalTypeen MapType.

Mlflow

De volgende verbeteringen zijn beschikbaar vanaf Mlflow versie 1.21.0, die is opgenomen in Databricks Runtime 10.1 ML.

  • [Modellen] Upgrade de fastai modelsmaak om fastai v2 (2.4.1 en hoger) te ondersteunen.
  • [Modellen] Introduceer een mlflow.prophet-modelsmaak voor prophet-tijdreeksmodellen.
  • [Scoren] Corrigeer een schema-afdwingingsfout die onjuist datumachtige tekenreeksen naar datum/tijd-objecten cast.

Hyperopt

SparkTrials ondersteunt nu de early_stopping_fn parameter voor fmin. U kunt de functie vroeg stoppen om voorwaarden op te geven wanneer Hyperopt hyperparameterafstemming moet stoppen voordat het maximum aantal evaluaties wordt bereikt. U kunt deze parameter bijvoorbeeld gebruiken om het afstemmen te beƫindigen als de doelfunctie niet meer afneemt. Zie fmin()voor meer informatie.

Belangrijke wijzigingen in de Python-omgeving van Databricks Runtime ML

Python-pakketten bijgewerkt

  • automl 1.3.1 => 1.4.1
  • feature_store 0,3.4 => 0,3,5
  • feestdagen 0.11.2 => 0.11.3.1
  • horovod 0.22.1 => 0.23.0
  • hyperopt 0.2.5.db2 => 0.2.5.db4
  • onevenwichtige leer 0,8.0 => 0,8.1
  • lightgbm 3.1.1 => 3.3.0
  • mlflow 1.20.2 => 1.21.0
  • petastorm 0.11.2 => 0.11.3
  • plotly 5.1.0 => 5.3.0
  • pytorch 1.9.0 => 1.9.1
  • spatie 3.1.2 => 3.1.3
  • sparkdl 2.2.0_db3 => 2.2.0_db4
  • torchvision 0.10.0 => 0.10.1
  • transformatoren 4.9.2 => 4.11.3

Python-pakketten toegevoegd

  • fasttext => 0.9.2
  • tensorboard-plugin-profile => 2.5.0

Afgeschafte onderdelen

MLlib geautomatiseerde MLflow-tracering wordt afgeschaft op clusters met Databricks Runtime 10.1 ML en hoger. Gebruik in plaats daarvan MLflow PySpark ML autologging door aan te roepen mlflow.pyspark.ml.autolog(). Autologging is standaard ingeschakeld met Databricks Autologging.

Systeemomgeving

De systeemomgeving in Databricks Runtime 10.1 ML verschilt als volgt van Databricks Runtime 10.1:

Bibliotheken

In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 10.1 ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 10.1.

In deze sectie:

Bibliotheken met de hoogste laag

Databricks Runtime 10.1 ML bevat de volgende bibliotheken met de hoogste laag:

Python-bibliotheken

Databricks Runtime 10.1 ML maakt gebruik van Virtualenv voor Python-pakketbeheer en bevat veel populaire ML-pakketten.

Naast de pakketten die in de volgende secties zijn opgegeven, bevat Databricks Runtime 10.1 ML ook de volgende pakketten:

  • hyperopt 0.2.5.db4
  • sparkdl 2.2.0-db4
  • feature_store 0.3.5
  • automl 1.4.0

Notitie

Databricks Runtime 10.1 ML bevat scikit-learn versie 0.24 in plaats van versie 1.0 vanwege incompatibiliteitsproblemen. Het scikit-learn-pakket communiceert met veel andere pakketten in Databricks Runtime 10.1 ML.

U kunt upgraden naar scikit-learn versie 1.0; Databricks biedt echter geen ondersteuning voor deze versie.

Als u een upgrade wilt uitvoeren, gebruikt u bibliotheken met notebookbereik. Voer vanuit een notebook de opdracht uit %pip install --upgrade "scikit-learn>=1.0,<1.1".

Een alternatief is het gebruik van dit init-clusterscript:

#!/bin/bash

set -e

pip install --upgrade "scikit-learn>=1.0,<1.1"

Python-bibliotheken op CPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 Bleekmiddel 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
Catalogus 2.0.6 certifi 2020.12.5 Cffi 1.14.5
Chardet 4.0.0 Clang 5,0 klikken 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Cryptografie 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 Decorator 5.0.6
defusedxml 0.7.1 Dille 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23opgegeven1 invoerpunten 0,3
kortstondige tijd 4.1 facets-overview 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Toekomst 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 Vakantie 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 onevenwichtig leren 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koala's 1.8.2 koreaans-maankalender 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 Networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.54.1
Numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
Verpakking 20.9 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilters 1.4.3 Paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.3
Pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Kussen 8.2.0 Pip 21.0.1 plotly 5.3.0
vooraf geslagen 3.0.5 prometheus-client 0.10.1 prompt-toolkit 3.0.17
Profeet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.8.0
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
Pygobject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 Pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
python-editor 1.0.4 pytz 2020.5 Pywavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 Regex 2021.4.4
requests 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
Rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 Scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 Setuptools 52.0.0 setuptools-git 1.2
Shap 0.39.0 Simplejson 3.17.2 Zes 1.15.0
Slicer 0.0.7 slim openen 5.2.0 smmap 3.0.5
spatie 3.1.3 spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 Tabulate 0.8.7 tangled-up-in-unicode 0.1.0
Vasthoudendheid 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0
tensorflow-estimator 2.6.0 termcolor 1.1.0 terminado 0.9.4
testpath 0.4.4 thinc 8.0.9 threadpoolctl 2.1.0
tokenizers 0.10.3 Fakkel 1.9.1+cpu torchvision 0.10.1+cpu
Tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
Transformers 4.11.3 Typer 0.3.2 typen-extensies 3.7.4.3
ujson 4.0.2 upgrades zonder toezicht 0,1 urllib3 1.25.11
Virtualenv 20.4.1 Visioenen 0.7.4 Wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Wiel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 zipp 3.4.1

Python-bibliotheken op GPU-clusters

Bibliotheek Versie Bibliotheek Versie Bibliotheek Versie
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 Bleekmiddel 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
Catalogus 2.0.6 certifi 2020.12.5 Cffi 1.14.5
Chardet 4.0.0 Clang 5,0 klikken 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Cryptografie 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 Decorator 5.0.6
defusedxml 0.7.1 Dille 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23opgegeven1 invoerpunten 0,3
kortstondige tijd 4.1 facets-overview 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Toekomst 0.18.2 gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 Vakantie 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 onevenwichtig leren 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koala's 1.8.2 koreaans-maankalender 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 Networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.54.1
Numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
Verpakking 20.9 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilters 1.4.3 Paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.3
Pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Kussen 8.2.0 Pip 21.0.1 plotly 5.3.0
vooraf geslagen 3.0.5 prompt-toolkit 3.0.17 Profeet 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 Pygobject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
Pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 Pywavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
Scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
Setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
Simplejson 3.17.2 Zes 1.15.0 Slicer 0.0.7
slim openen 5.2.0 smmap 3.0.5 spatie 3.1.3
spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
Tabulate 0.8.7 tangled-up-in-unicode 0.1.0 Vasthoudendheid 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
thinc 8.0.9 threadpoolctl 2.1.0 tokenizers 0.10.3
Fakkel 1.9.1+cu111 torchvision 0.10.1+cu111 Tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 Transformers 4.11.3
Typer 0.3.2 typen-extensies 3.7.4.3 ujson 4.0.2
upgrades zonder toezicht 0,1 urllib3 1.25.11 Virtualenv 20.4.1
Visioenen 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Wiel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 zipp 3.4.1

Spark-pakketten met Python-modules

Spark-pakket Python-module Versie
graphframes graphframes 0.8.2-db1-spark3.2

R-bibliotheken

De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 10.1.

Java- en Scala-bibliotheken (Scala 2.12-cluster)

Naast Java- en Scala-bibliotheken in Databricks Runtime 10.1 bevat Databricks Runtime 10.1 ML de volgende JAR's:

CPU-clusters

Groeps-id Artefact-id Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-clusters

Groeps-id Artefact-id Versie
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1-spark3.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.21.0
org.mlflow mlflow-spark 1.21.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0