Machine Learning için Databricks Çalışma Zamanı 5.4 (Desteklenmiyor)

Databricks bu görüntüyü Haziran 2019'da yayımladı.

Machine Learning için Databricks Runtime 5.4, Databricks Runtime 5.4'e (Desteklenmeyen) dayalı makine öğrenmesi ve veri bilimi için kullanıma hazır bir ortam sağlar. Databricks Runtime ML TensorFlow, PyTorch, Keras ve XGBoost gibi birçok popüler makine öğrenmesi kitaplığı içerir. Horovod kullanarak dağıtılmış derin öğrenme eğitimini de destekler.

Databricks Çalışma Zamanı ML kümesi oluşturma yönergeleri de dahil olmak üzere daha fazla bilgi için bkz. Machine Learning için Databricks Çalışma Zamanı.

Yeni özellikler

Databricks Runtime 5.4 ML, Databricks Runtime 5.4'ün üzerine kurulmuştur. Databricks Runtime 5.4'teki yenilikler hakkında bilgi için Databricks Runtime 5.4 (Desteklenmeyen) sürüm notlarına bakın.

kitaplık güncelleştirmelerine ek olarak, Databricks Runtime 5.4 ML aşağıdaki yeni özellikleri sunar:

Dağıtılmış Hyperopt + otomatik MLflow izleme

Databricks Runtime 5.4 ML, hiper parametre ayarlamasını ölçeklendirmek ve basitleştirmek için Apache Spark tarafından desteklenen yeni bir Hyperopt uygulaması sunar. Hyperopt deneme çalıştırmalarını Apache Spark kullanarak birden çok makine ve düğüm arasında dağıtmak için yeni Trials bir sınıf SparkTrials uygulanır. Buna ek olarak, ayarlanmış hiper parametreler ve hedeflenen ölçümlerle birlikte tüm ayarlama denemeleri otomatik olarak MLflow çalıştırmalarına kaydedilir. Bkz. scikit-learn ve MLflow ile hiper parametre ayarlamasını paralelleştirme.

Önemli

Bu özellik Genel Önizlemededir.

Apache Spark MLlib + otomatik MLflow izleme

Databricks Runtime 5.4 ML, PySpark ayarlama algoritmaları ve TrainValidationSplitkullanılarak uygun modeller için MLflow çalıştırmalarınınCrossValidator otomatik olarak günlüğe kaydedilmesini destekler. Bkz. Apache Spark MLlib ve otomatik MLflow izleme. Bu özellik Databricks Çalışma Zamanı 5.4 ML varsayılan olarak açıktır ancak Databricks Runtime 5.3 ML'da varsayılan olarak kapalıdır.

Önemli

Bu özellik Genel Önizlemededir.

HorovodRunner geliştirmesi

Horovod'dan Spark sürücü düğümüne gönderilen çıkış artık not defteri hücrelerinde görünür.

XGBoost Python paket güncelleştirmesi

XGBoost Python paketi 0.80 yüklenir.

Sistem ortamı

Databricks Runtime 5.4 ML sistem ortamı, aşağıdaki gibi Databricks Çalışma Zamanı 5.4'ten farklıdır:

  • Python: Python 2 kümeleri için 2.7.15 ve Python 3 kümeleri için 3.6.5.
  • DBUtils: Databricks Runtime 5.4 ML Kitaplık yardımcı programını (dbutils.library) içermez.
  • GPU kümeleri için aşağıdaki NVIDIA GPU kitaplıkları:
    • Tesla sürücüsü 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Kitaplık

Aşağıdaki bölümlerde, Databricks Runtime 5.4 ML Databricks Runtime 5.4'te bulunanlardan farklı kitaplıklar listelenmiştir.

Üst katman kitaplıkları

Databricks Runtime 5.4 ML aşağıdaki üst katman kitaplıklarını içerir:

Python kitaplıkları

Databricks Runtime 5.4 ML, Python paket yönetimi için Conda kullanır. Sonuç olarak, yüklü Python kitaplıklarında Databricks Çalışma Zamanı ile karşılaştırıldığında önemli farklılıklar vardır. Conda paket yöneticisi kullanılarak yüklenen sağlanan Python paketlerinin ve sürümlerinin tam listesi aşağıda verilmiştir.

Kitaplık Sürüm Kitaplık Sürüm Kitaplık Sürüm
absl-py 0.7.1 argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0,5 backports.functools-lru-cache 1,5
backports.weakref 1.0.post1 bcrypt 3.1.6 Çamaşır suyu 2.1.3
Boto 2.48.0 boto3 1.7.62 botocore 1.10.62
sertifika 2018.04.16 cffi 1.11.5 karakter 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
Şifreleme 2.2.2 Cycler 0.10.0 Cython 0.28.2
Dekoratör 4.3.0 docutils 0.14 Entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Gelecek 0.17.1
Vadeli 3.2.0 Gast 0.2.2 grpcio 1.12.1
h5py 2.8.0 horovod 0.16.0 html5lib 1.0.1
hyperopt 0.1.2.db4 ıdna 2,6 ıpaddress 1.0.22
ipython 5.7.0 ipython_genutils 0.2.0 jdcal 1.4
Jinja2 2,10 jmespath 0.9.4 jsonschema 2.6.0
jupyter-client 5.2.3 jupyter-core 4.4.0 Keras 2.2.4
Keras-Applications 1.0.7 Keras-Preprocessing 1.0.9 kiwisolver 1.1.0
linecache2 1.0.0 llvmlite 0.23.1 lxml 4.2.1
Markdown 3.1.1 MarkupSafe 1.0 matplotlib 2.2.2
mistune 0.8.3 mkl-fft 1.0.0 mkl-random 1.0.1
mleap 0.8.1 Sahte 2.0.0 msgpack 0.5.6
nbconvert 5.3.1 nbformat 4.4.0 networkx 2,2
Burun 1.3.7 burun dışlama 0.5.0 uyuşuk 0.38.0+0.g2a2b772fc.dirty
numpy 1.14.3 olefile 0.45.1 openpyxl 2.5.3
pandas 0.23.0 pandocfilters 1.4.2 paramiko 2.4.1
pathlib2 2.3.2 Patsy 0.5.0 pbr 5.1.3
pexpect 4.5.0 pickleshare 0.7.4 Yastık 5.1.0
Pip 10.0.1 Kat 3.11 prompt-toolkit 1.0.15
protobuf 3.7.1 psutil 5.6.2 psycopg2 2.7.5
ptyprocess 0.5.2 serçe 0.12.1 pyasn1 0.4.5
pycparser 2.18 Pygments 2.2.0 pymongo 3.8.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 5.1 pyzmq 17.0.0
Istek 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 Sinan 0.8.1
kurulum araçları 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
Altı 1.11.0 statsmodels 0.9.0 altişlem32 3.5.4
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 test yolu 0.3.1 Meşale 0.4.1
torchvision 0.2.1 Kasırga 5.0.2 tqdm 4.32.1
traceback2 1.4.0 traitlet'ler 4.3.2 unittest2 1.1.0
urllib3 1.22 virtualenv 16.0.0 wcwidth 0.1.7
web kodlamaları 0.5.1 Werkzeug 0.14.1 tekerlek 0.31.1
kaydırma işareti 1.10.11 wsgiref 0.1.2

Ayrıca, aşağıdaki Spark paketleri Python modüllerini içerir:

Spark Paketi Python Modülü Sürüm
graf çerçeveleri graf çerçeveleri 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db3-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R kitaplıkları

R kitaplıkları, Databricks Çalışma Zamanı 5.4'teki R Kitaplıkları ile aynıdır.

Java ve Scala kitaplıkları (Scala 2.11 kümesi)

Databricks Runtime 5.4'teki Java ve Scala kitaplıklarına ek olarak, Databricks Runtime 5.4 ML aşağıdaki JAR'leri içerir:

Grup Kimliği Yapıt Kimliği Sürüm
com.databricks spark-deep-learning 1.5.0-db3-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11