共用方式為


Databricks Runtime 5.3 ML (EoS)

注意

針對此 Databricks Runtime 版本的支援已結束。 如需瞭解終止支援日期,請參閱終止支援歷程記錄。 如需所有支援的 Databricks Runtime 版本,請參閱 Databricks Runtime 版本資訊版本和相容性 (機器翻譯)。

Databricks 於 2019 年 4 月發行此版本。

Databricks Runtime 5.3 ML 提供以 Databricks Runtime 5.3 (EoS) 為基礎的機器學習及資料科學現成環境。 適用於 ML 的 Databricks Runtime 包含許多熱門的機器學習程式庫,包括 TensorFlow、PyTorch、Keras 及 XGBoost。 其也支援使用 Horovod 的分散式深度學習訓練。

如需詳細資訊,包括建立 Databricks Runtime ML 叢集的指示,請參閱 Databricks 上的 AI 和機器學習

新功能

Databricks Runtime 5.3 ML 是以 Databricks Runtime 5.3 為基礎而建置。 如需 Databricks Runtime 5.3 新增功能的相關資訊,請參閱 Databricks Runtime 5.3 (EoS) 版本資訊。 除了程式庫更新之外,Databricks Runtime 5.3 ML 還引進了下列新功能:

  • MLflow + Apache Spark MLlib 整合:Databricks Runtime 5.3 ML 支援使用 PySpark 微調演算法 CrossValidatorTrainValidationSplit 自動記錄適合模型的 MLflow 執行

    重要

    這項功能處於個人預覽版狀態。 請聯絡 Azure Databricks 業務代表以瞭解如何啟用它。

  • 將下列程式庫升級至最新版本:

    • PyArrow 從 0.8.0 到 0.12.1:BinaryType 由 Arrow 型轉換支援,而且可用於 PandasUDF
    • Horovod 從 0.15.2 到 0.16.0。
    • TensorboardX 從 1.4 到 1.6。

Databricks ML 模型匯出 API 已被取代。 Azure Databricks 建議改用 MLeap,以提供 MLlib 模型類型更廣泛的涵蓋範圍。 深入瞭解 MLeap ML 模型匯出

注意

此外,Databricks Runtime 5.3 包含新的 FUSE 掛接,針對資料載入、模型檢查點以及從每個工作執行緒記錄到共用儲存位置file:/dbfs/ml進行了最佳化,為深度學習工作負載提供高效能 I/O。 請參閱載入資料以進行機器學習與深度學習

維護更新

請參閱 Databricks Runtime 5.4 ML 維護更新

系統環境

如下所示,Databricks Runtime 5.3 ML 中的系統環境與 Databricks Runtime 5.3 有所不同:

  • Python :2.7.15 用於 Python 2 叢集,3.6.5 用於 Python 3 叢集。
  • DBUtils:Databricks Runtime 5.3 ML 不包含程式庫公用程式 (dbutils.library) (舊版)
  • 針對 GPU 叢集,包含下列 NVIDIA GPU 程式庫:
    • Tesla 驅動程式 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

程式庫

下列各節列出 Databricks Runtime 5.3 ML 中,與 Databricks Runtime 5.3 所包含程式庫有所不同的程式庫。

頂層程式庫

Databricks Runtime 5.3 ML 包含下列頂層程式庫

Python 程式庫

Databricks Runtime 5.3 ML 使用 Conda 進行 Python 套件管理。 因此,與 Databricks Runtime 相比,預先安裝的 Python 程式庫存在重大差異。 以下是使用 Conda 套件管理員所安裝的 Python 套件和及本的完整清單。

程式庫 版本 程式庫 版本 程式庫 版本
absl-py 0.7.0 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
密碼編譯 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 futures 3.2.0
gast 0.2.2 grpcio 1.12.1 h5py 2.8.0
horovod 0.16.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2.10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psutil 5.6.0
psycopg2 2.7.5 ptyprocess 0.5.2 pyarrow 0.12.1
pyasn1 0.4.5 pycparser 2.18 Pygments 2.2.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 3.12 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
六次 1.11.0 statsmodels 0.9.0 subprocess32 3.5.3
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 traceback2 1.4.0
traitlets 4.3.2 unittest2 1.1.0 urllib3 1.22
virtualenv 16.0.0 wcwidth 0.1.7 webencodings 0.5.1
Werkzeug 0.14.1 wheel 0.31.1 wrapt 1.10.11
wsgiref 0.1.2

此外,下列 Spark 套件包含 Python 模組:

Spark 套件 Python 模組 版本
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db1-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R 程式庫

R 程式庫與 Databricks Runtime 5.3 中的 R 程式庫相同。

Java 和 Scala 程式庫 (Scala 2.11 叢集)

除了 Databricks Runtime 5.3 中的 Java 和 Scala 程式庫之外,Databricks Runtime 5.3 ML 還包含下列 JAR:

群組識別碼 工藝品 ID 版本
com.databricks spark-deep-learning 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11