Databricks Runtime 10.3 för ML (stöds inte)

Databricks Runtime 10.3 för Machine Learning ger en färdig miljö för maskininlärning och datavetenskap baserat på Databricks Runtime 10.3 (stöds inte). Databricks Runtime ML innehåller många populära maskininlärningsbibliotek, inklusive TensorFlow, PyTorch och XGBoost. Databricks Runtime ML innehåller AutoML, ett verktyg för att automatiskt träna maskininlärningspipelines. Databricks Runtime ML stöder även distribuerad djupinlärningsträning med Horovod.

Mer information, inklusive instruktioner för att skapa ett Databricks Runtime ML-kluster, finns i AI och Machine Learning på Databricks.

Nya funktioner och förbättringar

Databricks Runtime 10.3 ML bygger på Databricks Runtime 10.3. Information om nyheter i Databricks Runtime 10.3, inklusive Apache Spark MLlib och SparkR, finns i viktig information om Databricks Runtime 10.3 (stöds inte).

Förbättringar av Databricks AutoML

Följande förbättringar har gjorts i Databricks AutoML.

AutoML har nu stöd för ARIMA-modell för prognostisering

Förutom Prophet skapar och utvärderar AutoML nu ARIMA-modeller för prognostiseringsproblem.

Exkludera kolumner från datauppsättning

När du använder AutoML-API:et kan du ange kolumner som AutoML ska ignorera under dess beräkningar. Detta är endast tillgängligt för klassificerings- och regressionsproblem. Mer information finns i Parametrar för klassificering och regression .

Undanta algoritmramverk från en AutoML-körning

Du kan ange algoritmramverk, till exempel scikit-learn, som AutoML inte bör tänka på när det utvecklar modeller. Mer information finns i Avancerade konfigurationer och parametrar för klassificering och regression.

max_trials Deprecated

Parametern max_trials är inaktuell och tas bort i nästa större Databricks Runtime ML-version. Använd timeout_minutes för att styra varaktigheten för en AutoML-körning. I Databricks Runtime 10.1 ML och senare innehåller AutoML även tidig stoppning. det stoppar tränings- och justeringsmodeller om valideringsmåttet inte längre förbättras.

Förbättringar av Databricks-funktionsarkivet

Nu kan du använda punkt-i-tid-sökningar för funktionstabeller för tidsserier. Mer information finns i Använda tidsseriefunktionstabeller med stöd för tidpunkter.

Automatisk loggning av Databricks (GA)

Databricks Autologging är nu allmänt tillgänglig i Databricks Runtime 10.3 ML. Databricks Autologging är en lösning utan kod som tillhandahåller automatisk experimentspårning för maskininlärningsträningssessioner i Azure Databricks. Med Databricks Autologging registreras modellparametrar, mått, filer och härkomstinformation automatiskt när du tränar modeller från en mängd populära maskininlärningsbibliotek. Utbildningssessioner registreras som MLflow Tracking Runs. Modellfiler spåras också så att du enkelt kan logga dem till MLflow Model Registry och distribuera dem för realtidsbedömning med MLflow Model Serving.

Mer information finns i Automatisk loggning av Databricks.

Systemmiljö

Systemmiljön i Databricks Runtime 10.3 ML skiljer sig från Databricks Runtime 10.3 på följande sätt:

Bibliotek

I följande avsnitt visas de bibliotek som ingår i Databricks Runtime 10.3 ML som skiljer sig från de som ingår i Databricks Runtime 10.3.

I detta avsnitt:

Bibliotek på den översta nivån

Databricks Runtime 10.3 ML innehåller följande bibliotek på den översta nivån:

Python-bibliotek

Databricks Runtime 10.3 ML använder Virtualenv för Python-pakethantering och innehåller många populära ML-paket.

Förutom de paket som anges i följande avsnitt innehåller Databricks Runtime 10.3 ML även följande paket:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.7
  • automl 1.6.0

Python-bibliotek i CPU-kluster

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rullande) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 bidict 0.21.4 Blekmedel 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Katalog 2.0.6 Certifi 2020.12.5
Cffi 1.14.5 Chardet 4.0.0 klicka 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konvertera 2.3.2 Kryptografi 3.4.7 Apparat 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.5
databricks-cli 0.16.2 dbl-tempo 0.1.2 dbus-python 1.2.16
Dekoratör 5.0.6 defusedxml 0.7.1 Dill 0.3.2
diskcache 5.2.1 distlib 0.3.4 distro-info 0.23ubuntu1
entrypoints 0,3 efem 4.1.3 facets-overview 1.0.0
snabbtext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 Framtiden 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.2 Semester 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 obalanserad inlärning 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 Ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.7.0
Keras-förbearbetning 1.1.2 kiwisolver 1.3.1 Koalas 1.8.2
korean-lunar-calendar 0.2.1 langcodes 3.3.0 libclang 12.0.0
lightgbm 3.3.1 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 Markering Valv 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.23.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 Networkx 2.5
nltk 3.6.1 notebook-fil 6.3.0 numba 0.55.0
Numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Förpackning 21,3 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilter 1.4.3 Paramiko 2.7.2 parso 0.7.0
Pati 0.6.0 Patsy 0.5.1 petastorm 0.11.3
Pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Kudde 8.2.0 Pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 fördefinierad 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 Profeten 1.0.1 protobuf 3.17.2
Psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.0 pycparser 2,20 pydantisk 1.8.2
Pygments 2.8.1 Pygobject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 Pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 Regex 2021.4.4
begäranden 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
Rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 Scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 Setuptools 52.0.0 setuptools-git 1.2
Shap 0.40.0 Simplejson 3.17.2 Sex 1.15.0
Slicer 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5,10 statsmodels 0.12.2 Tabellform 0.8.7
trasslig upp-i-unicode 0.1.0 Uthållighet 6.2.0 tensorboard 2.7.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.7.0 tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.23.1
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
thinc 8.0.12 threadpoolctl 2.1.0 tokenizers 0.10.3
Fackla 1.10.1+cpu torchvision 0.11.2+cpu Tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 Transformatorer 4.15.0
typer 0.3.2 skriva tillägg 3.7.4.3 ujson 4.0.2
obevakade uppgraderingar 0,1 urllib3 1.25.11 Virtualenv 20.4.1
Visioner 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Hjul 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.1 Zipp 3.4.1

Python-bibliotek i GPU-kluster

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rullande) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 bidict 0.21.4 Blekmedel 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Katalog 2.0.6 Certifi 2020.12.5
Cffi 1.14.5 Chardet 4.0.0 klicka 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konvertera 2.3.2 Kryptografi 3.4.7 Apparat 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.5
databricks-cli 0.16.2 dbl-tempo 0.1.2 dbus-python 1.2.16
Dekoratör 5.0.6 defusedxml 0.7.1 Dill 0.3.2
diskcache 5.2.1 distlib 0.3.4 distro-info 0.23ubuntu1
entrypoints 0,3 efem 4.1.3 facets-overview 1.0.0
snabbtext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 Framtiden 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.2 Semester 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 obalanserad inlärning 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 Ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.7.0
Keras-förbearbetning 1.1.2 kiwisolver 1.3.1 Koalas 1.8.2
korean-lunar-calendar 0.2.1 langcodes 3.3.0 libclang 12.0.0
lightgbm 3.3.1 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 Markering Valv 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.23.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 Networkx 2.5
nltk 3.6.1 notebook-fil 6.3.0 numba 0.55.0
Numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Förpackning 21,3 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilter 1.4.3 Paramiko 2.7.2 parso 0.7.0
Pati 0.6.0 Patsy 0.5.1 petastorm 0.11.3
Pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Kudde 8.2.0 Pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 fördefinierad 3.0.5 prompt-toolkit 3.0.17
Profeten 1.0.1 protobuf 3.17.2 Psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.0
pycparser 2,20 pydantisk 1.8.2 Pygments 2.8.1
Pygobject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 Pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
python-editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 begäranden 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
Scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
Setuptools 52.0.0 setuptools-git 1.2 Shap 0.40.0
Simplejson 3.17.2 Sex 1.15.0 Slicer 0.0.7
smart-open 5.2.0 smmap 3.0.5 spacy 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5,10
statsmodels 0.12.2 Tabellform 0.8.7 trasslig upp-i-unicode 0.1.0
Uthållighet 6.2.0 tensorboard 2.7.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.7.0
tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.23.1 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 thinc 8.0.12
threadpoolctl 2.1.0 tokenizers 0.10.3 Fackla 1.10.1+cu111
torchvision 0.11.2+cu111 Tornado 6.1 tqdm 4.59.0
traitlets 5.0.5 Transformatorer 4.15.0 typer 0.3.2
skriva tillägg 3.7.4.3 ujson 4.0.2 obevakade uppgraderingar 0,1
urllib3 1.25.11 Virtualenv 20.4.1 Visioner 0.7.4
Wasabi 0.8.2 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.57.0 Werkzeug 1.0.1 Hjul 0.36.2
widgetsnbextension 3.5.1 wrapt 1.12.1 xgboost 1.5.1
Zipp 3.4.1

Spark-paket som innehåller Python-moduler

Spark-paket Python-modul Version
graphframes graphframes 0.8.2-db1-spark3.2

R-bibliotek

R-biblioteken är identiska med R-biblioteken i Databricks Runtime 10.3.

Java- och Scala-bibliotek (Scala 2.12-kluster)

Förutom Java- och Scala-bibliotek i Databricks Runtime 10.3 innehåller Databricks Runtime 10.3 ML följande JAR:er:

CPU-kluster

Grupp-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.23.0
org.mlflow mlflow-spark 1.23.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-kluster

Grupp-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.23.0
org.mlflow mlflow-spark 1.23.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0