Databricks不支援的 機器學習 (Runtime 9.0)

Databricks于 2021 年 8 月發行此映射。

Databricks Runtime 9.0 for 機器學習 根據Databricks Runtime 9.0 (不支援的) ,提供機器學習和資料科學的現成環境。 Databricks Runtime ML包含許多熱門的機器學習程式庫,包括 TensorFlow、PyTorch 和 XGBoost。 它也支援使用 Horovod 的分散式深度學習訓練。

如需詳細資訊,包括建立 Databricks Runtime ML 叢集的指示,請參閱Databricks Runtime for 機器學習

連線

舊版的版本資訊指出在 Databricks Runtime 9.0 ML GPU 中已停用監視叢集 GPU 計量的支援。 這適用于 Databricks Runtime 9.0 ML Beta 版,但已修正 Databricks Runtime 9.0 ML GA 的問題。 語句已移除。

新功能和改進

Databricks Runtime 9.0 ML建置在 Databricks Runtime 9.0 之上。 如需 Databricks Runtime 9.0 新功能的相關資訊,包括 Apache Spark MLlib 和 SparkR,請參閱Databricks Runtime 9.0 (不支援) 的版本資訊。

Databricks自動記錄 (公開預覽版)

Databricks自動記錄現在適用于選取區域中的 Databricks Runtime 9.0 機器學習。 Databricks自動記錄是無程式碼的解決方案,可為 Azure Databricks 上的機器學習訓練課程提供自動實驗追蹤。 當您從各種熱門機器學習程式庫定型模型時,會自動擷取Databricks自動記錄、模型參數、計量、檔案和譜系資訊。 訓練會話會記錄為 MLflow 追蹤執行。 模型檔案也會受到追蹤,因此您可以輕鬆地將其記錄到 MLflow 模型登錄 ,並使用 MLflow 模型服務進行即時評分。

如需Databricks自動記錄的詳細資訊,請參閱Databricks自動記錄

Databricks功能Microsoft Store的改善

建立定型集時的效能已透過將來源功能資料表之間的聯結數目降至最低來改善。

XGBoost 與 PySpark 整合現在支援分散式定型和 GPU 叢集

如需詳細資訊,請參閱 與 Spark MLlib (Python) 整合

Databricks Runtime ML Python 環境的主要變更

已移除 Conda 環境以及 %conda 命令。 Databricks Runtime 9.0 ML是使用 pipvirtualenv 來建置。 仍支援使用 Conda 型環境搭配Databricks容器服務的自訂映射,但不會有筆記本範圍的程式庫功能。 Databricks建議針對所有筆記本範圍的程式庫,搭配使用虛擬型環境與Databricks容器服務 %pip

如需 Databricks Runtime Python 環境的主要變更,請參閱Databricks Runtime 9.0 (不支援的) 。 如需已安裝 Python 套件及其版本的完整清單,請參閱 Python 程式庫

Python 套件已升級

  • mlflow 1.18.0 - > 1.19.0
  • nltk 3.5 - > 3.6.1

新增的 Python 套件

  • 擷取者 1.0.1

已移除 Python 套件

  • MKL
  • azure-core
  • azure-storage-blob
  • msrest
  • docker
  • querystring-parser
  • intel-openmp

取代和不支援的功能

  • 在 Databricks Runtime 9.0 ML 中,HorovodRunner 不支援設定 np=0 ,其中 np 是用於 Horovod 作業的平行進程數目。
  • Databricks Runtime 9.0 ML包含 R 圖形引擎 14 版的 r-base 4.1.0。 RStudio Server 1.2.x 版不支援此功能。
  • nvprofDatabricks Runtime 9.0 ML GPU 中移除。

系統環境

Databricks Runtime 9.0 中的系統內容ML與 Databricks Runtime 9.0 不同,如下所示:

程式庫

下列各節列出Databricks Runtime 9.0 ML中包含的程式庫,這些程式庫與 Databricks Runtime 9.0 中包含的程式庫不同。

本節內容:

最上層程式庫

Databricks Runtime 9.0 ML包含下列最上層連結

Python 程式庫

Databricks Runtime 9.0 ML使用 Virtualenv 進行 Python 套件管理,並包含許多熱門ML套件。

除了下列各節中指定的套件之外,Databricks Runtime 9.0 ML也包含下列套件:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

CPU 叢集上的 Python 程式庫

媒體櫃 版本 媒體櫃 版本 媒體櫃 版本
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 阿斯特 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 漂白劑 3.3.0 boto3 1.16.7
botocore 1.19.7 瓶頸 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
按一下 7.1.2 clouDPIckle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 密碼編譯 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 裝飾 5.0.6 defusedxml 0.7.1
蒔 蘿 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0.23ubuntu1 entrypoints 0.3 ep 4.0.0.2
facets-overview 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 假日 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
絕地 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 考拉 1.8.1 韓曆月曆 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
notebook 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 封裝 20.9
pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 佩西 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 枕頭 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 一元 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 RegEx 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 重試 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 sea 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 十八 0.39.0
simplejson 3.17.2 六次 1.15.0 slicer 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 火炬 1.9.0+cpu torchvision 0.10.0+cpu
龍捲風 6.1 tqdm 4.59.0 特徵 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 自動升級 0.1
urllib3 1.25.11 virtualenv 20.4.1 願景 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

GPU 叢集上的 Python 程式庫

媒體櫃 版本 媒體櫃 版本 媒體櫃 版本
absl-py 0.11.0 Antergos Linux 2015.10 (ISO 滾動) appdirs 1.4.4
argon2-cffi 20.1.0 阿斯特 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 漂白劑 3.3.0 boto3 1.16.7
botocore 1.19.7 瓶頸 1.3.2 cachetools 4.2.2
認證 2020.12.5 cffi 1.14.5 chardet 4.0.0
按一下 7.1.2 clouDPIckle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 密碼編譯 3.4.7
cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 裝飾 5.0.6 defusedxml 0.7.1
蒔 蘿 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0.23ubuntu1 entrypoints 0.3 ep要 4.0.0.2
facets-overview 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 future 0.18.2
加油 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 假日 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
絕地 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 考拉 1.8.1 韓曆月曆 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
notebook 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 封裝 20.9
pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 佩西 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 枕頭 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 擷耙 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 RegEx 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 重試 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 十八 0.39.0
simplejson 3.17.2 六次 1.15.0 slicer 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 火炬 1.9.0+cu111 torchvision 0.10.0+cu111
龍捲風 6.1 tqdm 4.59.0 特徵 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 自動升級 0.1
urllib3 1.25.11 virtualenv 20.4.1 願景 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

包含 Python 模組的 Spark 套件

Spark 套件 Python 模組 版本
graphframes graphframes 0.8.1-db3-spark3.1

R 程式庫

R 程式庫與 Databricks Runtime 9.0 中的R 程式庫相同。

JAVA 和 Scala 程式庫 (Scala 2.12 叢集)

除了 Databricks Runtime 9.0 中的 JAVA 和 Scala 程式庫,Databricks Runtime 9.0 ML包含下列 JAR:

CPU 叢集

群組識別碼 成品識別碼 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU 叢集

群組識別碼 成品識別碼 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0