次の方法で共有


Databricks Runtime 5.4 for ML (サポート対象外)

Databricks は、2019 年 6 月にこのイメージをリリースしました。

Databricks Runtime 5.4 for Machine Learning では、Databricks Runtime 5.4 (サポート対象外) に基づいて、機械学習とデータ サイエンス用にすぐに利用できる環境が用意されています。 Databricks Runtime ML には、TensorFlow、PyTorch、Keras、XGBoost など、多くの一般的な機械学習ライブラリが含まれています。 また、Horovod を使用した分散型ディープ ラーニング トレーニングもサポートされています。

Databricks Runtime ML クラスターの作成手順を含む詳細については、「Databricks 上の AI と Machine Learning」を参照してください。

新機能

Databricks Runtime 5.4 ML は Databricks Runtime 5.4 の上に構築されています。 Databricks Runtime 5.4 の新機能については、Databricks Runtime 5.4 (サポート対象外) リリース ノートを参照してください。

Databricks Runtime 5.4 ML では、ライブラリの更新プログラムに加えて、次の新機能が導入されています。

分散 Hyperopt と自動 MLflow 追跡

Databricks Runtime 5.4 ML では、ハイパーパラメーターの調整をスケーリングおよび簡略化するために、Apache Spark を利用した Hyperopt の新しい実装が導入されています。 新しいTrialsクラスSparkTrialsが実装され、Apache Spark を使用する複数のコンピューターとノード間で Hyperopt 試用版の実行が分散されます。・ さらに、チューニングされたハイパーパラメーターとターゲット メトリックと共に、すべてのチューニング実験が MLflow の実行ログに自動的に記録されます。 「scikit-learn と MLflow を使用したハイパーパラメーター チューニングの並列化」を参照してください。

重要

この機能はパブリック プレビュー段階にあります。

Apache Spark MLlib と自動 MLflow 追跡

Databricks Runtime 5.4 ML は、PySpark チューニング アルゴリズムの CrossValidatorTrainValidationSplit を使用して適合するモデルに対する MLflow 実行の自動ログ記録をサポートしています。 「Apache Spark MLlib と自動 MLflow 追跡」を参照してください。 この機能は、Databricks Runtime 5.4 ML では既定でオンになっていますが、Databricks Runtime 5.3 ML では既定でオフになっています。

重要

この機能はパブリック プレビュー段階にあります。

HorovodRunner の改善

Horovod から Spark ドライバー ノードに送信された出力がノートブック セルに表示されるようになりました。

XGBoost Python パッケージの更新

XGBoost Python パッケージ 0.80 がインストールされています。

システム環境

Databricks Runtime 5.4 ML のシステム環境は、Databricks Runtime 5.4 とは次のように異なります。

  • Python: Python 2 クラスターの場合は 2.7.15、Python 3 クラスターの場合は 3.6.5。
  • DBUtils: Databricks Runtime 5.4 ML には、ライブラリ ユーティリティ (dbutils.library) (レガシ) が含まれていません。
  • GPU クラスターの場合、NVIDIA GPU ライブラリは次のとおりです。
    • Tesla ドライバー 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

ライブラリ

以降のセクションでは、Databricks Runtime 5.4 に含まれているものとは異なる、Databricks Runtime 5.4 ML に含まれるライブラリの一覧を示します。

最上位層ライブラリ

Databricks Runtime 5.4 ML には、次の最上位層ライブラリが含まれています。

Python ライブラリ

Databricks Runtime 5.4 ML では Python パッケージ管理に Conda を使用します。 そのため、インストールされている Python ライブラリと Databricks Runtime に大きな違いはありません。 Conda パッケージ マネージャーを使用してインストールされる、用意された Python パッケージとバージョンの全一覧を次に示します。

ライブラリ Version ライブラリ Version ライブラリ Version
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
cryptography 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 future 0.17.1
futures 3.2.0 gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 idna 2.6 ipaddress 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2.10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
mistune 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 mock 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 networkx 2.2
nose 1.3.7 nose-exclude 0.5.0 numba 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 patsy 0.5.0 pbr 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Pillow 5.1.0
pip 10.0.1 ply 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5.1 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
6 1.11.0 statsmodels 0.9.0 subprocess32 3.5.4
TensorBoard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 tqdm 4.32.1
traceback2 1.4.0 traitlets 4.3.2 unittest2 1.1.0
urllib3 1.22 virtualenv 16.0.0 wcwidth 0.1.7
webencodings 0.5.1 Werkzeug 0.14.1 wheel 0.31.1
wrapt 1.10.11 wsgiref 0.1.2

さらに、次の Spark パッケージには Python モジュールが含まれています。

Spark パッケージ Python モジュール Version
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R ライブラリ

この R ライブラリは、Databricks Runtime 5.4 の R ライブラリと同じです。

Java と Scala のライブラリ (Scala 2.11 クラスター)

Databricks Runtime 5.4 ML には、Databricks Runtime 5.4 の Java および Scala ライブラリに加え、次の JAR が含まれています。

グループ ID 成果物 ID Version
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11