Databricks Runtime 9.1 LTS för Machine Learning

Databricks släppte den här bilden och förklarade den som långsiktig support (LTS) i september 2021.

Databricks Runtime 9.1 LTS for Machine Learning tillhandahåller en färdig miljö för maskininlärning och datavetenskap baserat på Databricks Runtime 9.1 LTS. Databricks Runtime ML innehåller många populära maskininlärningsbibliotek, inklusive TensorFlow, PyTorch och XGBoost. Databricks Runtime ML innehåller AutoML, ett verktyg för att automatiskt träna maskininlärningspipelines. Databricks Runtime ML stöder även distribuerad djupinlärningsträning med Horovod.

Kommentar

LTS innebär att den här versionen stöds på lång sikt. Se Livscykeln för Databricks Runtime LTS-versionen.

Mer information, inklusive instruktioner för att skapa ett Databricks Runtime ML-kluster, finns i AI och Machine Learning på Databricks.

Nya funktioner och förbättringar

AutoML

Följande förbättringar är tillgängliga i Databricks Runtime 9.1 LTS ML och senare.

AutoML stöder större datamängder genom sampling

AutoML tar nu exempel på datauppsättningar som kan överskrida minnesbegränsningar, vilket gör att den kan köras på större datauppsättningar med mindre risk för minnesfel. Mer information finns i Sampling av stora datamängder.

AutoML förbearbetar kolumner baserat på semantisk typ

AutoML identifierar vissa kolumner som har en semantisk typ som skiljer sig från deras Spark- eller Pandas-datatyp. AutoML konverterar och tillämpar sedan förbearbetningssteg för data baserat på den identifierade semantiska typen. Mer specifikt utför AutoML följande konverteringar:

  • Sträng- och heltalskolumner som representerar datum- eller tidsstämpeldata konverteras till en tidsstämpeltyp.
  • Strängkolumner som representerar numeriska data konverteras till en numerisk typ.

Förbättringar av AutoML-genererade notebook-filer

Förbearbetningssteg för datum- och tidsstämpelkolumner ingår nu i databricks-automl-runtime paketet, vilket förenklar de notebook-filer som genereras av AutoML-träning. databricks-automl-runtime ingår i Databricks Runtime 9.1 LTS ML och senare och är även tillgängligt på PyPI.

Funktionsarkiv

Följande förbättringar är tillgängliga i Databricks Runtime 9.1 LTS ML och senare.

  • När du skapar en TrainingSet kan du nu ställa in label=None för att stödja oövervakade inlärningsprogram.
  • Nu kan du ange mer än en funktion i en enda FeatureLookup.
  • Nu kan du ange en anpassad sökväg för funktionstabeller. Använd parametern path i create_feature_table(). Standardvärdet är databasplatsen.
  • Nya PySpark-datatyper som stöds: ArrayType och ShortType.

Mlflow

Följande förbättringar är tillgängliga från och med Mlflow version 1.20.2, som ingår i Databricks Runtime 9.1 LTS ML.

  • Automatisk loggning för scikit-learn registrerar nu mått efter träning när ett scikit-learn-utvärderings-API, till exempel sklearn.metrics.mean_squared_error, anropas.
  • Automatisk loggning för PySpark ML registrerar nu mått efter träning när ett API för modellutvärdering, till exempel Evaluator.evaluate(), anropas.
  • mlflow.*.log_model och mlflow.*.save_model nu har pip_requirements och extra_pip_requirements argument så att du direkt kan ange pip-kraven för modellen för att logga eller spara.
  • mlflow.*.log_model och mlflow.*.save_model härled nu automatiskt pip-kraven för modellen för att logga eller spara baserat på den aktuella programvarumiljön.
  • stdMetrics poster registreras nu som träningsmått under automatisk loggning av PySpark CrossValidator.
  • PyTorch Lightning-automatisk loggning stöder nu distribuerad körning.

Automatisk loggning av Databricks (offentlig förhandsversion)

Den offentliga förhandsversionen av Databricks-automatisk loggning har utökats till nya regioner. Databricks Autologging är en lösning utan kod som tillhandahåller automatisk experimentspårning för maskininlärningsträningssessioner i Azure Databricks. Med Databricks Autologging registreras modellparametrar, mått, filer och härkomstinformation automatiskt när du tränar modeller från en mängd populära maskininlärningsbibliotek. Utbildningssessioner registreras som MLflow Tracking Runs. Modellfiler spåras också så att du enkelt kan logga dem till MLflow Model Registry och distribuera dem för realtidsbedömning med MLflow Model Serving.

Mer information om Automatisk loggning av Databricks finns i Automatisk loggning av Databricks.

Större ändringar i Databricks Runtime ML Python-miljön

Uppgraderade Python-paket

  • automl 1.1.1 => 1.2.1
  • feature_store 0.3.3 => 0.3.4.1
  • helgdagar 0.10.5.2 => 0.11.2
  • keras 2.5.0 => 2.6.0
  • mlflow 1.19.0 => 1.20.2
  • petastorm 0.11.1 => 0.11.2
  • plotly 4.14.3 => 5.1.0
  • spark-tensorflow-distributor 0.1.0 => 1.0.0
  • sparkdl 2.2.0_db1 => 2.2.0_db3
  • tensorboard 2.5.0 => 2.6.0
  • tensorflow 2.5.0 => 2.6.0

Python-paket har lagts till

  • databricks-automl-runtime 0.1.0

Systemmiljö

Systemmiljön i Databricks Runtime 9.1 LTS ML skiljer sig från Databricks Runtime 9.1 LTS på följande sätt:

Bibliotek

I följande avsnitt visas de bibliotek som ingår i Databricks Runtime 9.1 LTS ML som skiljer sig från de som ingår i Databricks Runtime 9.1 LTS.

I detta avsnitt:

Bibliotek på den översta nivån

Databricks Runtime 9.1 LTS ML innehåller följande bibliotek på den översta nivån:

Python-bibliotek

Databricks Runtime 9.1 LTS ML använder Virtualenv för Python-pakethantering och innehåller många populära ML-paket.

Förutom de paket som anges i följande avsnitt innehåller Även Databricks Runtime 9.1 LTS ML följande paket:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db3
  • feature_store 0.3.4.1
  • automl 1.2.1

Python-bibliotek i CPU-kluster

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rullande) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 Blekmedel 3.3.0 boto3 1.16.7
botocore 1.19.7 Flaskhals 1.3.2 cachetools 4.2.2
Certifi 2020.12.5 Cffi 1.14.5 Chardet 4.0.0
Klang 5,0 klicka 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 konvertera 2.3.2
Kryptografi 3.4.7 Apparat 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
Dekoratör 5.0.6 defusedxml 0.7.1 Dill 0.3.2
diskcache 5.2.1 distlib 0.3.2 distro-info 0.23ubuntu1
entrypoints 0,3 efem 4.0.0.2 facets-overview 1.0.0
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Framtiden 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
Semester 0.11.2 horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-förbearbetning 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 korean-lunar-calendar 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 Markering Valv 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 Networkx 2.5 nltk 3.6.1
notebook-fil 6.3.0 numba 0.54.0 Numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Förpackning 20.9
Pandas 1.2.4 pandas-profilering 3.0.0 pandocfilter 1.4.3
Paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.2 Pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Kudde 8.2.0 Pip 21.0.1
plotly 5.1.0 prometheus-client 0.10.1 prompt-toolkit 3.0.17
Profeten 1.0.1 protobuf 3.17.2 Psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantisk 1.8.2 Pygments 2.8.1 Pygobject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
Pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 begäranden 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Rsa 4.7.2
s3transfer 0.3.7 scikit-learn 0.24.1 Scipy 1.6.2
seaborn 0.11.1 Send2Trash 1.5.0 Setuptools 52.0.0
setuptools-git 1.2 Shap 0.39.0 Simplejson 3.17.2
Sex 1.15.0 Slicer 0.0.7 smmap 3.0.5
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 ssh-import-id 5,10
statsmodels 0.12.2 Tabellform 0.8.7 trasslig upp-i-unicode 0.1.0
Uthållighet 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 Fackla 1.9.0+cpu torchvision 0.10.0+cpu
Tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
skriva tillägg 3.7.4.3 ujson 4.0.2 obevakade uppgraderingar 0,1
urllib3 1.25.11 Virtualenv 20.4.1 Visioner 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 Hjul 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 Zipp 3.4.1

Python-bibliotek i GPU-kluster

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rullande) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
Bcrypt 3.2.0 Blekmedel 3.3.0 boto3 1.16.7
botocore 1.19.7 Flaskhals 1.3.2 cachetools 4.2.2
Certifi 2020.12.5 Cffi 1.14.5 Chardet 4.0.0
Klang 5,0 klicka 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 konvertera 2.3.2
Kryptografi 3.4.7 Apparat 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
Dekoratör 5.0.6 defusedxml 0.7.1 Dill 0.3.2
diskcache 5.2.1 distlib 0.3.2 distro-info 0.23ubuntu1
entrypoints 0,3 efem 4.0.0.2 facets-overview 1.0.0
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 Framtiden 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
Semester 0.11.2 horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 Ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-förbearbetning 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 korean-lunar-calendar 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 Markering Valv 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 Networkx 2.5 nltk 3.6.1
notebook-fil 6.3.0 numba 0.54.0 Numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Förpackning 20.9
Pandas 1.2.4 pandas-profilering 3.0.0 pandocfilter 1.4.3
Paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.2 Pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Kudde 8.2.0 Pip 21.0.1
plotly 5.1.0 prompt-toolkit 3.0.17 Profeten 1.0.1
protobuf 3.17.2 Psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pycparser 2,20 pydantisk 1.8.2
Pygments 2.8.1 Pygobject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 pyodbc 4.0.30 Pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor 1.0.4 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
Regex 2021.4.4 begäranden 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 Rsa 4.7.2 s3transfer 0.3.7
scikit-learn 0.24.1 Scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 Setuptools 52.0.0 setuptools-git 1.2
Shap 0.39.0 Simplejson 3.17.2 Sex 1.15.0
Slicer 0.0.7 smmap 3.0.5 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 ssh-import-id 5,10 statsmodels 0.12.2
Tabellform 0.8.7 trasslig upp-i-unicode 0.1.0 Uthållighet 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-wit 1.8.0
tensorflow 2.6.0 tensorflow-estimator 2.6.0 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 threadpoolctl 2.1.0
Fackla 1.9.0+cu111 torchvision 0.10.0+cu111 Tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 skriva tillägg 3.7.4.3
ujson 4.0.2 obevakade uppgraderingar 0,1 urllib3 1.25.11
Virtualenv 20.4.1 Visioner 0.7.1 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
Hjul 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 Zipp 3.4.1

Spark-paket som innehåller Python-moduler

Spark-paket Python-modul Version
graphframes graphframes 0.8.1-db3-spark3.1

R-bibliotek

R-biblioteken är identiska med R-biblioteken i Databricks Runtime 9.1 LTS.

Java- och Scala-bibliotek (Scala 2.12-kluster)

Förutom Java- och Scala-bibliotek i Databricks Runtime 9.1 LTS innehåller Databricks Runtime 9.1 LTS ML följande JAR:er:

CPU-kluster

Grupp-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-kluster

Grupp-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0