Databricks Runtime 10.1 för Machine Learning (stöds inte)

Databricks Runtime 10.1 för Machine Learning ger en färdig miljö för maskininlärning och datavetenskap baserat på Databricks Runtime 10.1 (stöds inte). Databricks Runtime ML innehåller många populära maskininlärningsbibliotek, inklusive TensorFlow, PyTorch och XGBoost. Det stöder även distribuerad djupinlärningsträning med Horovod.

Mer information, inklusive instruktioner för att skapa ett Databricks Runtime ML-kluster, finns i Databricks Runtime for Machine Learning.

Nya funktioner och förbättringar

Databricks Runtime 10.1 ML bygger på Databricks Runtime 10.1. Information om nyheter i Databricks Runtime 10.1, inklusive Apache Spark MLlib och SparkR, finns i viktig information om Databricks Runtime 10.1 (stöds inte).

Förbättringar av Databricks AutoML

I Databricks Runtime 10.1 innehåller Databricks AutoML förbättrad identifiering av semantisk typ, nya aviseringar för potentiella dataproblem under träning, nya funktioner för att förhindra överanpassning av modeller och möjligheten att dela upp indatamängden i tränings-, validerings- och testuppsättningar kronologiskt.

Ytterligare identifieringar av semantiktyp

AutoML stöder nu ytterligare semantisk typidentifiering:

  • Numeriska kolumner som innehåller kategoriska etiketter behandlas som en kategorisk typ.
  • Strängkolumner som innehåller engelsk text behandlas som en textfunktion.

Nu kan du också lägga till anteckningar för att ange en kolumndatatyp. Mer information finns i Semantisk typidentifiering.

Aviseringar under träning för potentiella dataproblem

AutoML identifierar och genererar nu aviseringar för potentiella problem med datauppsättningen. Exempelaviseringar omfattar kolumntyper som inte stöds och kolumner med hög kardinalitet. Dessa aviseringar visas på experimentsidan under den nya fliken Aviseringar . Ytterligare information om aviseringar ingår i notebook-filen för datautforskning. Mer information finns i Köra experimentet och övervaka resultaten.

Minskad modellöveranpassning

Två nya funktioner minskar risken för överanpassning av en modell när du använder AutoML:

  • AutoML rapporterar nu testmått utöver validerings- och träningsmått.
  • AutoML använder nu tidigt stopp. Det stoppar träning och justering av modeller om valideringsmåttet inte längre förbättras.

Dela upp datamängden i tränings-/validerings-/testuppsättningar kronologiskt

För klassificerings- och regressionsproblem kan du dela upp datamängden i tränings-, validerings- och testuppsättningar kronologiskt. Mer information finns i Dela upp data i tränings-/validerings-/testuppsättningar .

Förbättringar av Databricks-funktionsarkivet

Databricks Feature Store stöder nu ytterligare datatyper för funktionstabeller: BinaryType, DecimalTypeoch MapType. Mer information finns i Datatyper som stöds.

Mlflow

Följande förbättringar är tillgängliga från och med Mlflow version 1.21.0, som ingår i Databricks Runtime 10.1 ML.

  • [Modeller] Uppgradera modellsmaken fastai för att stödja fastai v2 (2.4.1 och senare).
  • [Modeller] Introducera en mlflow.prophet-modellsmak för profettidsseriemodeller.
  • [Bedömning] Åtgärda ett schematillämpningsfel som felaktigt genererar datumliknande strängar till datetime-objekt.

Hyperopt

SparkTrials stöder nu parametern early_stopping_fn för fmin. Du kan använda funktionen för tidigt stopp för att ange villkor när Hyperopt ska stoppa hyperparameterjusteringen innan det maximala antalet utvärderingar nås. Du kan till exempel använda den här parametern för att avsluta justeringen om målfunktionen inte längre minskar. Mer information finns i fmin().

Större ändringar i Databricks Runtime ML Python-miljön

Python-paket har uppgraderats

  • automl 1.3.1 => 1.4.1
  • feature_store 0.3.4 => 0.3.5
  • helgdagar 0.11.2 => 0.11.3.1
  • horovod 0.22.1 => 0.23.0
  • hyperopt 0.2.5.db2 => 0.2.5.db4
  • imbalanced-learn 0.8.0 => 0.8.1
  • lightgbm 3.1.1 => 3.3.0
  • mlflow 1.20.2 => 1.21.0
  • petastorm 0.11.2 => 0.11.3
  • plotly 5.1.0 => 5.3.0
  • pytorch 1.9.0 => 1.9.1
  • spacy 3.1.2 => 3.1.3
  • sparkdl 2.2.0_db3 => 2.2.0_db4
  • torchvision 0.10.0 => 0.10.1
  • transformatorer 4.9.2 => 4.11.3

Python-paket har lagts till

  • fasttext => 0.9.2
  • tensorboard-plugin-profile => 2.5.0

Föråldringar

MLlib automatiserad MLflow-spårning är inaktuell i kluster som kör Databricks Runtime 10.1 ML och senare. Använd i stället MLflow PySpark ML-automatisk loggning genom att anropa mlflow.pyspark.ml.autolog(). Automatisk loggning är aktiverat som standard med Databricks Autologging.

Systemmiljö

Systemmiljön i Databricks Runtime 10.1 ML skiljer sig från Databricks Runtime 10.1 på följande sätt:

Bibliotek

I följande avsnitt visas de bibliotek som ingår i Databricks Runtime 10.1 ML som skiljer sig från de som ingår i Databricks Runtime 10.1.

I det här avsnittet:

Bibliotek på den översta nivån

Databricks Runtime 10.1 ML innehåller följande bibliotek på den översta nivån:

Python-bibliotek

Databricks Runtime 10.1 ML använder Virtualenv för Python-pakethantering och innehåller många populära ML-paket.

Förutom de paket som anges i följande avsnitt innehåller Databricks Runtime 10.1 ML även följande paket:

  • hyperopt 0.2.5.db4
  • sparkdl 2.2.0-db4
  • feature_store 0.3.5
  • automl 1.4.0

Anteckning

Databricks Runtime 10.1 ML innehåller scikit-learn version 0.24 i stället för version 1.0 på grund av inkompatibilitetsproblem. Scikit-learn-paketet interagerar med många andra paket i Databricks Runtime 10.1 ML.

Du kan uppgradera till scikit-learn version 1.0; Databricks stöder dock inte den här versionen.

Om du vill uppgradera använder du bibliotek med notebook-omfång. Kör från en notebook-fil %pip install --upgrade "scikit-learn>=1.0,<1.1".

Ett alternativ är att använda det här init-skriptet för kluster:

#!/bin/bash

set -e

pip install --upgrade "scikit-learn>=1.0,<1.1"

Python-bibliotek i CPU-kluster

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rullande) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 Blekmedel 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
Katalog 2.0.6 Certifi 2020.12.5 Cffi 1.14.5
Chardet 4.0.0 Klang 5.0 klickar du på 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konvertera 2.3.2 Kryptografi 3.4.7 Apparat 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 Dekoratör 5.0.6
defusedxml 0.7.1 Dill 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 entrypoints 0.3
efem 4.1 aspektöversikt 1.0.0 snabbtext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Framtiden 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 Semester 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2,10
ImageHash 4.2.1 obalanserad inlärning 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalas 1.8.2 korean-lunar-calendar 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 Networkx 2.5
nltk 3.6.1 notebook-fil 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
Förpackning 20.9 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilters 1.4.3 Paramiko 2.7.2 parso 0.7.0
Pati 0.6.0 Patsy 0.5.1 petastorm 0.11.3
Pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Kudde 8.2.0 Pip 21.0.1 plotly 5.3.0
fördefinierad 3.0.5 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 Psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.8.0
pycparser 2.20 pydantisk 1.8.2 Pygments 2.8.1
Pygobject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 Pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
python-editor 1.0.4 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 Regex 2021.4.4
Begäranden 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
Rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 sjöburen 0.11.1
Send2Trash 1.5.0 Setuptools 52.0.0 setuptools-git 1.2
Shap 0.39.0 Simplejson 3.17.2 Sex 1.15.0
utsnitt 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.1.3 spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 Tabellform 0.8.7 trasslig upp-i-unicode 0.1.0
Uthållighet 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0
tensorflow-estimator 2.6.0 termcolor 1.1.0 terminado 0.9.4
testpath 0.4.4 thinc 8.0.9 threadpoolctl 2.1.0
tokenizers 0.10.3 Fackla 1.9.1+cpu torchvision 0.10.1+cpu
Tornado 6.1 tqdm 4.59.0 traitleter 5.0.5
Transformatorer 4.11.3 typer 0.3.2 skriva tillägg 3.7.4.3
ujson 4.0.2 obevakade uppgraderingar 0.1 urllib3 1.25.11
Virtualenv 20.4.1 Visioner 0.7.4 Wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 hjul 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 Zipp 3.4.1

Python-bibliotek i GPU-kluster

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-rullande) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 Blekmedel 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
Katalog 2.0.6 Certifi 2020.12.5 Cffi 1.14.5
Chardet 4.0.0 Klang 5.0 klickar du på 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Kryptografi 3.4.7 Apparat 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
databricks-cli 0.14.3 dbus-python 1.2.16 Dekoratör 5.0.6
defusedxml 0.7.1 Dill 0.3.2 diskcache 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 entrypoints 0.3
efem 4.1 fasetter – översikt 1.0.0 snabbtext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Framtiden 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-konverterare 2.2.2 Semester 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2,10
ImageHash 4.2.1 obalanserad inlärning 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalas 1.8.2 korean-lunar-calendar 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 Networkx 2.5
nltk 3.6.1 notebook-fil 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
Förpackning 20.9 Pandas 1.2.4 pandas-profilering 3.1.0
pandocfilters 1.4.3 Paramiko 2.7.2 parso 0.7.0
Pati 0.6.0 Patsy 0.5.1 petastorm 0.11.3
Pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Kudde 8.2.0 Pip 21.0.1 plotly 5.3.0
fördefinierad 3.0.5 prompt-toolkit 3.0.17 prophet 1.0.1
protobuf 3.17.2 Psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2.20
pydantisk 1.8.2 Pygments 2.8.1 Pygobject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
Pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 Begäranden 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
Setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
Simplejson 3.17.2 Sex 1.15.0 utsnitt 0.0.7
smart-open 5.2.0 smmap 3.0.5 spacy 3.1.3
spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
Tabellform 0.8.7 trasslig upp-i-unicode 0.1.0 Uthållighet 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
thinc 8.0.9 threadpoolctl 2.1.0 tokenizers 0.10.3
Fackla 1.9.1+cu111 torchvision 0.10.1+cu111 Tornado 6.1
tqdm 4.59.0 traitleter 5.0.5 Transformatorer 4.11.3
typer 0.3.2 skriva tillägg 3.7.4.3 ujson 4.0.2
obevakade uppgraderingar 0.1 urllib3 1.25.11 Virtualenv 20.4.1
Visioner 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
hjul 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 Zipp 3.4.1

Spark-paket som innehåller Python-moduler

Spark-paket Python-modul Version
graphframes graphframes 0.8.2-db1-spark3.2

R-bibliotek

R-biblioteken är identiska med R-biblioteken i Databricks Runtime 10.1.

Java- och Scala-bibliotek (Scala 2.12-kluster)

Förutom Java- och Scala-bibliotek i Databricks Runtime 10.1 innehåller Databricks Runtime 10.1 ML följande JAR:er:

CPU-kluster

Grupp-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-kluster

Grupp-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1-spark3.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.21.0
org.mlflow mlflow-spark 1.21.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0