Databricks Runtime 10.2 för ML (stöds inte)
Databricks släppte den här bilden i december 2021.
Databricks Runtime 10.2 för Machine Learning ger en färdig miljö för maskininlärning och datavetenskap baserat på Databricks Runtime 10.2 (stöds inte). Databricks Runtime ML innehåller många populära maskininlärningsbibliotek, inklusive TensorFlow, PyTorch och XGBoost. Databricks Runtime ML innehåller AutoML, ett verktyg för att automatiskt träna maskininlärningspipelines. Databricks Runtime ML stöder även distribuerad djupinlärningsträning med Horovod.
Mer information, inklusive instruktioner för att skapa ett Databricks Runtime ML-kluster, finns i AI och Machine Learning på Databricks.
Nya funktioner och förbättringar
Databricks Runtime 10.2 ML bygger på Databricks Runtime 10.2. Information om nyheter i Databricks Runtime 10.2, inklusive Apache Spark MLlib och SparkR, finns i viktig information om Databricks Runtime 10.2 (stöds inte).
Automatisk loggning av Databricks (offentlig förhandsversion)
Databricks Autologging finns nu i offentlig förhandsversion i alla regioner. Databricks Autologging är en lösning utan kod som tillhandahåller automatisk experimentspårning för maskininlärningsträningssessioner i Azure Databricks. Med Databricks Autologging registreras modellparametrar, mått, filer och härkomstinformation automatiskt när du tränar modeller från en mängd populära maskininlärningsbibliotek. Utbildningssessioner registreras som MLflow Tracking Runs. Modellfiler spåras också så att du enkelt kan logga dem till MLflow Model Registry och distribuera dem för realtidsbedömning med MLflow Model Serving.
Mer information om Automatisk loggning av Databricks finns i Automatisk loggning av Databricks.
Förbättringar av Databricks AutoML
Följande förbättringar har gjorts i Databricks AutoML.
- AutoML ignorerar kolumner som bara har ett enda värde.
- För klassificerings- och regressionsproblem kan den tidskolumn som används för att dela upp datamängden i tränings-, validerings- och testuppsättningar kronologiskt nu vara strängtyp. Tidigare stöds endast tidsstämpel och heltal. Mer information finns i Dela upp data i tränings-/validerings-/testuppsättningar .
Förbättringar av Databricks-funktionsarkivet
Följande förbättringar har gjorts i Databricks Feature Store.
Förenklat FeatureStoreClient
gränssnitt
FeatureStoreClient-gränssnittet har förenklats.
FeatureStoreClient.create_feature_table()
har blivit inaktuell. AnvändFeatureStoreClient.create_table()
i stället .FeatureStoreClient.get_feature_table()
har blivit inaktuell. AnvändFeatureStoreClient.get_table()
i stället .- Alla argument till
FeatureStoreClient.publish_table()
andra änname
ochonline_store
måste skickas som nyckelordsargument.
Publicera endast markerade kolumner i onlinebutiker
Databricks Feature Store stöder nu endast publicering av valda kolumner till en onlinebutik. Mer information finns i Publicera valda funktioner i en onlinebutik.
Större ändringar i Databricks Runtime ML Python-miljön
Den automatiserade MLflow Tracking-integreringen för Apache Spark MLlib, som inaktuella i Databricks Runtime 10.1 ML, är nu inaktiverad som standard i Databricks Runtime 10.2 ML. Den har ersatts av MLflows PySpark ML Autologging-integrering, som är aktiverad som standard med Databricks Autologging. Automatisk loggning registrerar ytterligare information utöver vad automatiserad MLflow-spårning för MLlib har samlat in, inklusive parametrar, mått och artefakter som är associerade med den bästa modellen.
Uppgraderade Python-paket
- databricks-cli 0.14.3 => 0.16.2
- keras 2.6.0 => 2.7.0
- lightgbm 3.3.0 => 3.3.1
- mlflow 1.21.0 => 1.22.0
- plotly 5.3.0 => 5.3.1
- shap 0.39.0 => 0.40.0
- spacy 3.1.3 => 3.2.0
- tensorboard 2.6.0 => 2.7.0
- tensorflow 2.6.0 => 2.7.0
- fackla 1.9.1 => 1.10.0
- torchvision 0.10.1 => 0.11.1
- transformatorer 4.11.3 => 4.12.3
- xgboost 1.4.2 => 1.5.0
Systemmiljö
Systemmiljön i Databricks Runtime 10.2 ML skiljer sig från Databricks Runtime 10.2 på följande sätt:
- DBUtils: Databricks Runtime ML innehåller inte biblioteksverktyget (dbutils.library) (äldre).
Använd
%pip
kommandon i stället. Se Python-bibliotek med notebook-omfång. - För GPU-kluster innehåller Databricks Runtime ML följande NVIDIA GPU-bibliotek:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotek
I följande avsnitt visas de bibliotek som ingår i Databricks Runtime 10.2 ML som skiljer sig från de som ingår i Databricks Runtime 10.2.
I detta avsnitt:
- Bibliotek på den översta nivån
- Python-bibliotek
- R-bibliotek
- Java- och Scala-bibliotek (Scala 2.12-kluster)
Bibliotek på den översta nivån
Databricks Runtime 10.2 ML innehåller följande bibliotek på den översta nivån:
- GraphFrames
- Horovod och HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python-bibliotek
Databricks Runtime 10.2 ML använder Virtualenv för Python-pakethantering och innehåller många populära ML-paket.
Förutom de paket som anges i följande avsnitt innehåller Även Databricks Runtime 10.2 ML följande paket:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.6
- automl 1.5.0
Python-bibliotek i CPU-kluster
Bibliotek | Version | Bibliotek | Version | Bibliotek | Version |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rullande) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
Bcrypt | 3.2.0 | bidict | 0.21.4 | Blekmedel | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | Katalog | 2.0.6 | Certifi | 2020.12.5 |
Cffi | 1.14.5 | Chardet | 4.0.0 | klicka | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
konvertera | 2.3.2 | Kryptografi | 3.4.7 | Apparat | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | Dekoratör | 5.0.6 |
defusedxml | 0.7.1 | Dill | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | entrypoints | 0,3 |
efem | 4.1.1 | facets-overview | 1.0.0 | snabbtext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | Framtiden | 0.18.2 | Gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | Semester | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
ImageHash | 4.2.1 | obalanserad inlärning | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | Ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | Keras-förbearbetning | 1.1.2 |
kiwisolver | 1.3.1 | Koalas | 1.8.2 | korean-lunar-calendar | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm | 3.3.1 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | Markering Valv | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimethod | 1.6 | murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | Networkx | 2.5 | nltk | 3.6.1 |
notebook-fil | 6.3.0 | numba | 0.54.1 | Numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | Förpackning | 21,3 |
Pandas | 1.2.4 | pandas-profilering | 3.1.0 | pandocfilter | 1.4.3 |
Paramiko | 2.7.2 | parso | 0.7.0 | Pati | 0.6.0 |
Patsy | 0.5.1 | petastorm | 0.11.3 | Pexpect | 4.8.0 |
phik | 0.12.0 | pickleshare | 0.7.5 | Kudde | 8.2.0 |
Pip | 21.0.1 | plotly | 5.3.1 | fördefinierad | 3.0.5 |
prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 | Profeten | 1.0.1 |
protobuf | 3.17.2 | Psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pybind11 | 2.8.1 | pycparser | 2,20 |
pydantisk | 1.8.2 | Pygments | 2.8.1 | Pygobject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.4.0 | pyodbc | 4.0.30 |
Pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
python-engineio | 4.3.0 | python-socketio | 5.4.1 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | pyzmq | 20.0.0 |
Regex | 2021.4.4 | begäranden | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | Rsa | 4.7.2 | s3transfer | 0.3.7 |
sacremoses | 0.0.46 | scikit-learn | 0.24.1 | Scipy | 1.6.2 |
seaborn | 0.11.1 | Send2Trash | 1.5.0 | Setuptools | 52.0.0 |
setuptools-git | 1.2 | Shap | 0.40.0 | Simplejson | 3.17.2 |
Sex | 1.15.0 | Slicer | 0.0.7 | smart-open | 5.2.0 |
smmap | 3.0.5 | spacy | 3.2.0 | spacy-legacy | 3.0.8 |
spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 |
srsly | 2.4.1 | ssh-import-id | 5,10 | statsmodels | 0.12.2 |
Tabellform | 0.8.7 | trasslig upp-i-unicode | 0.1.0 | Uthållighet | 6.2.0 |
tensorboard | 2.7.0 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.7.0 | tensorflow-estimator | 2.7.0 |
tensorflow-io-gcs-filesystem | 0.22.0 | termcolor | 1.1.0 | terminado | 0.9.4 |
testpath | 0.4.4 | thinc | 8.0.12 | threadpoolctl | 2.1.0 |
tokenizers | 0.10.3 | Fackla | 1.10.0+cpu | torchvision | 0.11.1+cpu |
Tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
Transformatorer | 4.12.3 | typer | 0.3.2 | skriva tillägg | 3.7.4.3 |
ujson | 4.0.2 | obevakade uppgraderingar | 0,1 | urllib3 | 1.25.11 |
Virtualenv | 20.4.1 | Visioner | 0.7.4 | Wasabi | 0.8.2 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | Hjul | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.5.0 | Zipp | 3.4.1 |
Python-bibliotek i GPU-kluster
Bibliotek | Version | Bibliotek | Version | Bibliotek | Version |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rullande) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
Bcrypt | 3.2.0 | bidict | 0.21.4 | Blekmedel | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | Katalog | 2.0.6 | Certifi | 2020.12.5 |
Cffi | 1.14.5 | Chardet | 4.0.0 | klicka | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
konvertera | 2.3.2 | Kryptografi | 3.4.7 | Apparat | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | Dekoratör | 5.0.6 |
defusedxml | 0.7.1 | Dill | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | entrypoints | 0,3 |
efem | 4.1.1 | facets-overview | 1.0.0 | snabbtext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | Framtiden | 0.18.2 | Gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | Semester | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
ImageHash | 4.2.1 | obalanserad inlärning | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | Ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | Keras-förbearbetning | 1.1.2 |
kiwisolver | 1.3.1 | Koalas | 1.8.2 | korean-lunar-calendar | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm | 3.3.1 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | Markering Valv | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimethod | 1.6 | murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | Networkx | 2.5 | nltk | 3.6.1 |
notebook-fil | 6.3.0 | numba | 0.54.1 | Numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | Förpackning | 21,3 |
Pandas | 1.2.4 | pandas-profilering | 3.1.0 | pandocfilter | 1.4.3 |
Paramiko | 2.7.2 | parso | 0.7.0 | Pati | 0.6.0 |
Patsy | 0.5.1 | petastorm | 0.11.3 | Pexpect | 4.8.0 |
phik | 0.12.0 | pickleshare | 0.7.5 | Kudde | 8.2.0 |
Pip | 21.0.1 | plotly | 5.3.1 | fördefinierad | 3.0.5 |
prompt-toolkit | 3.0.17 | Profeten | 1.0.1 | protobuf | 3.17.2 |
Psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.8.1 | pycparser | 2,20 | pydantisk | 1.8.2 |
Pygments | 2.8.1 | Pygobject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | Pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | Regex | 2021.4.4 |
begäranden | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
Rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | Scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | Setuptools | 52.0.0 | setuptools-git | 1.2 |
Shap | 0.40.0 | Simplejson | 3.17.2 | Sex | 1.15.0 |
Slicer | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
spacy | 3.2.0 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
ssh-import-id | 5,10 | statsmodels | 0.12.2 | Tabellform | 0.8.7 |
trasslig upp-i-unicode | 0.1.0 | Uthållighet | 6.2.0 | tensorboard | 2.7.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.0 |
tensorflow | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.22.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | tokenizers | 0.10.3 |
Fackla | 1.10.0+cu111 | torchvision | 0.11.1+cu111 | Tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | Transformatorer | 4.12.3 |
typer | 0.3.2 | skriva tillägg | 3.7.4.3 | ujson | 4.0.2 |
obevakade uppgraderingar | 0,1 | urllib3 | 1.25.11 | Virtualenv | 20.4.1 |
Visioner | 0.7.4 | Wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
Hjul | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.5.0 | Zipp | 3.4.1 |
Spark-paket som innehåller Python-moduler
Spark-paket | Python-modul | Version |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
R-bibliotek
R-biblioteken är identiska med R-biblioteken i Databricks Runtime 10.2.
Java- och Scala-bibliotek (Scala 2.12-kluster)
Förutom Java- och Scala-bibliotek i Databricks Runtime 10.2 innehåller Databricks Runtime 10.2 ML följande JAR:er:
CPU-kluster
Grupp-ID | Artefakt-ID | Version |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU-kluster
Grupp-ID | Artefakt-ID | Version |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |