Sdílet prostřednictvím


Databricks Runtime 10.3 pro ML (EoS)

Poznámka:

Podpora této verze Databricks Runtime skončila. Datum ukončení podpory najdete v tématu Historie ukončení podpory. Všechny podporované verze databricks Runtime najdete v poznámkách k verzi Databricks Runtime a kompatibilitu.

Databricks Runtime 10.3 pro Machine Learning poskytuje připravené prostředí pro strojové učení a datové vědy založené na databricks Runtime 10.3 (EoS). Databricks Runtime ML obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch a XGBoost. Databricks Runtime ML zahrnuje AutoML, nástroj pro automatické trénování kanálů strojového učení. Databricks Runtime ML také podporuje distribuované trénování hlubokého učení pomocí Horovodu.

Další informace, včetně pokynů k vytvoření clusteru Databricks Runtime ML, najdete v tématu AI a strojové učení v Databricks.

Nové funkce a vylepšení

Databricks Runtime 10.3 ML je postaven na Databricks Runtime 10.3. Informace o novinkách v Databricks Runtime 10.3, včetně Apache Spark MLlib a SparkR, najdete ve zprávě k vydání verze Databricks Runtime 10.3 (EoS).

Vylepšení aplikace Mosaic AutoML

V systému Mosaic AutoML byly provedeny následující vylepšení.

Mosaic AutoML teď podporuje model ARIMA pro prognózování.

Kromě Proroka teď AutoML vytváří a vyhodnocuje modely ARIMA pro prognózování problémů.

Vyloučení sloupců z datové sady

Když použijete rozhraní API Systému puzzle AutoML, můžete určit sloupce, které by AutoML měl během výpočtů ignorovat. Tato možnost je k dispozici pouze pro problémy klasifikace a regrese. Podrobné informace najdete v referenčních informacích k rozhraní Python API systému Mosaic AutoML.

Vyloučení architektur algoritmů ze spuštění systému Mosaic AutoML

Můžete zadat architektury algoritmů, jako je scikit-learn, že AutoML by nemělo brát v úvahu při vývoji modelů. Podrobnosti najdete v referenčních informacích k pokročilým konfiguracím a rozhraní Api Pythonu v prostředí Mosaic AutoML.

max_trials zavrhovaný

Parametr max_trials je zastaralý a bude odebrán v další hlavní verzi Databricks Runtime ML. Slouží timeout_minutes k řízení doby trvání spuštění systému Mosaic AutoML. AutoML také ve službě Databricks Runtime 10.1 ML a novější zahrnuje předčasné zastavení; zastaví trénování a ladění modelů, pokud se metrika ověřování už nelepší.

Vylepšení úložiště funkcí Databricks

Teď můžete u tabulek funkcí časových řad použít vyhledávání k určitému bodu v čase. Podrobnosti najdete v tématu Podpora k určitému bodu v čase pomocí tabulek funkcí časových řad.

Automatické protokolování Databricks (GA)

Automatické protokolování Databricks je teď obecně dostupné v Databricks Runtime 10.3 ML. Autologování Databricks je řešení bez kódu, které poskytuje automatické sledování experimentů pro trénovací relace strojového učení v Azure Databricks. Díky automatickému protokolování Datbricks, parametrům modelu, metrikám, souborům a informacím rodokmenu se automaticky zaznamenávají při trénování modelů z různých oblíbených knihoven strojového učení. Trénovací relace se zaznamenávají jako běhy sledování MLflow. Soubory modelů jsou také sledovány, takže je můžete snadno protokolovat do registru modelů MLflow a nasadit je pro bodování v reálném čase pomocí MLflow Model Serving.

Další informace najdete v tématu Automatické protokolování Databricks.

Prostředí systému

Systémové prostředí v Databricks Runtime 10.3 ML se liší od Databricks Runtime 10.3 následujícím způsobem:

Knihovny

Následující části obsahují seznam knihoven zahrnutých v Databricks Runtime 10.3 ML, které se liší od knihoven zahrnutých v Databricks Runtime 10.3.

V této části:

Knihovny nejvyšší úrovně

Databricks Runtime 10.3 ML obsahuje následující knihovny nejvyšší úrovně:

Knihovny Pythonu

Databricks Runtime 10.3 ML používá Virtualenv pro správu balíčků Pythonu a obsahuje mnoho oblíbených balíčků ML.

Kromě balíčků uvedených v následujících částech obsahuje Databricks Runtime 10.3 ML také následující balíčky:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.7
  • automl 1.6.0

Knihovny Pythonu v clusterech procesorů

Knihovna Verze Knihovna Verze Knihovna Verze
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
šifra 3.2.0 bidict 0.21.4 bělit 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 katalog 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknutí 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 kryptografie 3.4.7 cyklista 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.5
Databricks-cli 0.16.2 dbl-tempo 0.1.2 dbus-python 1.2.16
dekoratér 5.0.6 defusedxml 0.7.1 kopr 0.3.2
diskcache 5.2.1 distlib 0.3.4 informace o distribuci 0.23ubuntu1
vstupní body 0.3 ephem 4.1.3 přehled omezujících vlastností 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 budoucnost 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.2 prázdniny 0.12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 nevyvážené učení 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jehodangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgety 1.0.0 keras 2.7.0
Předběžné zpracování Kerasu 1.1.2 verizonsolver 1.3.1 Koaly 1.8.2
korejský lunární kalendář 0.2.1 langcodes 3.3.0 libclang 12.0.0
lightgbm 3.3.1 llvmlite 0.38.0 LunárníCalendar 0.0.9
Druh žraloka 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 špatně zamyšlení 0.8.4
mleap 0.18.1 mlflow-hubená 1.23.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 poznámkový blok 6.3.0 numba 0.55.0
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
balení 21.3 pandas 1.2.4 profilace pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 bábovka 0.5.1 petastorm 0.11.3
pexpect 4.8.0 Phik 0.12.0 pickleshare 0.7.5
Polštář 8.2.0 jádro 21.0.1 plotly 5.5.0
pmdarima 1.8.4 předběžně připravený 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 prorok 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.0 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
žádosti 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
Shap 0.40.0 simplejson 3.17.2 Šest 1.15.0
kráječ 0.0.7 inteligentní otevření 5.2.0 smmap 3.0.5
spacy 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 sestavit v tabulku 0.8.7
tangled-up-in-unicode 0.1.0 houževnatost 6.2.0 tensorboard 2.7.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.7.0 tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.23.1
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
tenká 8.0.12 threadpoolctl 2.1.0 tokenizátory 0.10.3
pochodeň 1.10.1+cpu torchvision 0.11.2+cpu tornádo 6.1
tqdm 4.59.0 vlastnosti 5.0.5 Transformátory 4.15.0
Typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
bezobslužné upgrady 0,1 urllib3 1.25.11 virtualenv 20.4.1
vize 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
kolo 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.1 zipp 3.4.1

Knihovny Pythonu v clusterech GPU

Knihovna Verze Knihovna Verze Knihovna Verze
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
šifra 3.2.0 bidict 0.21.4 bělit 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 katalog 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknutí 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 kryptografie 3.4.7 cyklista 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.5
Databricks-cli 0.16.2 dbl-tempo 0.1.2 dbus-python 1.2.16
dekoratér 5.0.6 defusedxml 0.7.1 kopr 0.3.2
diskcache 5.2.1 distlib 0.3.4 informace o distribuci 0.23ubuntu1
vstupní body 0.3 ephem 4.1.3 přehled omezujících vlastností 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 budoucnost 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.2 prázdniny 0.12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 nevyvážené učení 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jehodangerous 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgety 1.0.0 keras 2.7.0
Předběžné zpracování Kerasu 1.1.2 verizonsolver 1.3.1 Koaly 1.8.2
korejský lunární kalendář 0.2.1 langcodes 3.3.0 libclang 12.0.0
lightgbm 3.3.1 llvmlite 0.38.0 LunárníCalendar 0.0.9
Druh žraloka 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 špatně zamyšlení 0.8.4
mleap 0.18.1 mlflow-hubená 1.23.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 poznámkový blok 6.3.0 numba 0.55.0
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
balení 21.3 pandas 1.2.4 profilace pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 bábovka 0.5.1 petastorm 0.11.3
pexpect 4.8.0 Phik 0.12.0 pickleshare 0.7.5
Polštář 8.2.0 jádro 21.0.1 plotly 5.5.0
pmdarima 1.8.4 předběžně připravený 3.0.5 prompt-toolkit 3.0.17
prorok 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.0
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
python-editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 žádosti 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.40.0
simplejson 3.17.2 Šest 1.15.0 kráječ 0.0.7
inteligentní otevření 5.2.0 smmap 3.0.5 spacy 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 sestavit v tabulku 0.8.7 tangled-up-in-unicode 0.1.0
houževnatost 6.2.0 tensorboard 2.7.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.7.0
tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.23.1 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 tenká 8.0.12
threadpoolctl 2.1.0 tokenizátory 0.10.3 pochodeň 1.10.1+cu111
torchvision 0.11.2+cu111 tornádo 6.1 tqdm 4.59.0
vlastnosti 5.0.5 Transformátory 4.15.0 Typer 0.3.2
typing-extensions 3.7.4.3 ujson 4.0.2 bezobslužné upgrady 0,1
urllib3 1.25.11 virtualenv 20.4.1 vize 0.7.4
wasabi 0.8.2 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.57.0 Werkzeug 1.0.1 kolo 0.36.2
widgetsnbextension 3.5.1 wrapt 1.12.1 xgboost 1.5.1
zipp 3.4.1

Balíčky Spark obsahující moduly Pythonu

Balíček Spark Modul Pythonu Verze
graphframes graphframes 0.8.2-db1-spark3.2

Knihovny jazyka R

Knihovny jazyka R jsou stejné jako knihovny R v Databricks Runtime 10.3.

Knihovny Java a Scala (cluster Scala 2.12)

Kromě knihoven Java a Scala v Databricks Runtime 10.3 obsahuje Databricks Runtime 10.3 ML následující jary:

Clustery procesoru

ID skupiny ID artefaktu Verze
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.23.0
org.mlflow mlflow-spark 1.23.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clustery GPU

ID skupiny ID artefaktu Verze
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.23.0
org.mlflow mlflow-spark 1.23.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0