Aracılığıyla paylaş


Machine Learning için Databricks Runtime 9.1 LTS

Databricks bu görüntüyü yayınladı ve Eylül 2021'de Uzun Vadeli Destek (LTS) olarak açıkladı.

Machine Learning için Databricks Runtime 9.1 LTS, Databricks Runtime 9.1 LTS'yi temel alan makine öğrenmesi ve veri bilimi için kullanıma hazır bir ortam sağlar. Databricks Runtime ML, TensorFlow, PyTorch ve XGBoost gibi birçok popüler makine öğrenmesi kitaplığı içerir. Databricks Runtime ML, makine öğrenmesi işlem hatlarını otomatik olarak eğitmeye yönelik bir araç olan AutoML'yi içerir. Databricks Runtime ML, Horovod kullanarak dağıtılmış derin öğrenme eğitimini de destekler.

Not

LTS, bu sürümün uzun vadeli destek altında olduğu anlamına gelir. Bkz. Databricks Runtime LTS sürüm yaşam döngüsü.

Databricks Runtime ML kümesi oluşturma yönergeleri de dahil olmak üzere daha fazla bilgi için bkz . Databricks'te yapay zeka ve makine öğrenmesi.

İpucu

Destek sonuna (EoS) ulaşmış Databricks Runtime sürümlerinin sürüm notlarını görmek için bkz . Destek sonu Databricks Runtime sürüm notları. EoS Databricks Runtime sürümleri kullanımdan kaldırılmıştır ve güncelleştirilmemiş olabilir.

Yeni özellikler ve geliştirmeler

AutoML

Aşağıdaki geliştirmeler Databricks Runtime 9.1 LTS ML ve üzerinde kullanılabilir.

AutoML, örnekleme yaparak daha büyük veri kümelerini destekler

AutoML artık bellek kısıtlamalarını aşabilecek veri kümelerini örnekleyerek bellek yetersiz hatası riski daha az olan daha büyük veri kümelerinde çalışmasını sağlıyor. Ayrıntılar için bkz . Büyük veri kümelerini örnekleme.

AutoML, sütunları semantik türe göre önceden işler

AutoML, Spark veya pandas veri türlerinden farklı bir anlam türüne sahip olan belirli sütunları algılar. AutoML daha sonra algılanan anlam türüne göre veri ön işleme adımlarını dönüştürür ve uygular. AutoML özellikle aşağıdaki dönüştürmeleri gerçekleştirir:

  • Tarih veya zaman damgası verilerini temsil eden dize ve tamsayı sütunları zaman damgası türüne dönüştürülür.
  • Sayısal verileri temsil eden dize sütunları sayısal bir türe dönüştürülür.

AutoML tarafından oluşturulan not defterlerinde geliştirmeler

Tarih ve zaman damgası sütunları için ön işleme adımları artık pakete databricks-automl-runtime eklenerek AutoML eğitimi tarafından oluşturulan not defterlerini basitleştirir. databricks-automl-runtimeDatabricks Runtime 9.1 LTS ML ve üzeri sürümlerine dahildir ve PyPI üzerinde de kullanılabilir.

Özellik deposu

Aşağıdaki geliştirmeler Databricks Runtime 9.1 LTS ML ve üzerinde kullanılabilir.

  • Bir TrainingSet oluşturduğunuzda artık denetimsiz öğrenme uygulamalarını destekleyecek şekilde ayarlayabilirsiniz label=None .
  • Artık tek FeatureLookupbir içinde birden fazla özellik belirtebilirsiniz.
  • Artık özellik tabloları için özel bir yol belirtebilirsiniz. parametresini path create_feature_table()kullanın. Varsayılan değer veritabanı konumudur.
  • Desteklenen yeni PySpark veri türleri: ArrayType ve ShortType.

Mlflow

Aşağıdaki geliştirmeler Databricks Runtime 9.1 LTS ML'de bulunan Mlflow sürüm 1.20.2'den itibaren kullanılabilir.

  • scikit-learn için otomatik kaydetme artık gibi sklearn.metrics.mean_squared_errorbir scikit-learn değerlendirme API'si çağrıldığında eğitim sonrası ölçümleri kaydeder.
  • PySpark ML için otomatik kaydetme artık gibi Evaluator.evaluate()bir model değerlendirme API'si çağrıldığında eğitim sonrası ölçümleri kaydeder.
  • mlflow.*.log_modelve mlflow.*.save_model şimdi günlüğe kaydedilecek veya kaydedilecek modelin pip gereksinimlerini doğrudan belirtebilmeniz için ve extra_pip_requirements bağımsız değişkenlerine sahip pip_requirements olun.
  • mlflow.*.log_model ve mlflow.*.save_model şimdi geçerli yazılım ortamına göre günlüğe kaydetmek veya kaydetmek için modelin pip gereksinimlerini otomatik olarak çıkarsayın.
  • stdMetrics girdileri artık PySpark CrossValidator otomatik kaydetme sırasında eğitim ölçümleri olarak kaydedilir.
  • PyTorch Lightning otomatik kaydetme artık dağıtılmış yürütmeyi destekliyor.

Databricks Otomatik Kaydetme (Genel Önizleme)

Databricks Otomatik Kaydetme Genel Önizlemesi yeni bölgelere genişletildi. Databricks Autologging, Azure Databricks'te makine öğrenmesi eğitim oturumları için otomatik deneme izleme sağlayan kod içermeyen bir çözümdür. Databricks Autologging ile model parametreleri, ölçümler, dosyalar ve köken bilgileri, çeşitli popüler makine öğrenmesi kitaplıklarından modelleri eğittiğiniz zaman otomatik olarak yakalanır. Eğitim oturumları MLflow İzleme Çalıştırmaları olarak kaydedilir. Model dosyaları da izlenir, böylece bunları kolayca MLflow Model Kayıt Defteri'nde günlüğe kaydedebilir ve MLflow Model Sunma ile gerçek zamanlı puanlama için dağıtabilirsiniz.

Databricks Otomatik Kaydetme hakkında daha fazla bilgi için bkz . Databricks Autologging.

Databricks Runtime ML Python ortamında önemli değişiklikler

Yükseltilen Python paketleri

  • automl 1.1.1 => 1.2.1
  • feature_store 0.3.3 => 0.3.4.1
  • tatiller 0.10.5.2 => 0.11.2
  • keras 2.5.0 => 2.6.0
  • mlflow 1.19.0 => 1.20.2
  • petastorm 0.11.1 => 0.11.2
  • çizim 4.14.3 => 5.1.0
  • spark-tensorflow-distributor 0.1.0 => 1.0.0
  • sparkdl 2.2.0_db1 => 2.2.0_db3
  • tensorboard 2.5.0 => 2.6.0
  • tensorflow 2.5.0 => 2.6.0

Python paketleri eklendi

  • databricks-automl-runtime 0.1.0

Sistem ortamı

Databricks Runtime 9.1 LTS ML'deki sistem ortamı, Databricks Runtime 9.1 LTS'den aşağıdaki gibi farklıdır:

  • DBUtils: Databricks Runtime ML, Kitaplık yardımcı programını (dbutils.library) (eski) içermez. Bunun yerine komutları kullanın %pip . Bkz. Not defteri kapsamlı Python kitaplıkları.
  • GPU kümeleri için Databricks Runtime ML aşağıdaki NVIDIA GPU kitaplıklarını içerir:
    • CUDA 11.0
    • cuDNN 8.1.0.77
    • NCCL 2.10.3
    • TensorRT 7.2.2

Kitaplıklar

Aşağıdaki bölümlerde Databricks Runtime 9.1 LTS ML'de bulunan ve Databricks Runtime 9.1 LTS'de bulunan kitaplıklardan farklı kitaplıklar listelenmiştir.

Bu bölümde:

Üst katman kitaplıkları

Databricks Runtime 9.1 LTS ML aşağıdaki üst katman kitaplıklarını içerir:

Python kitaplıkları

Databricks Runtime 9.1 LTS ML, Python paket yönetimi için Virtualenv kullanır ve birçok popüler ML paketi içerir.

Aşağıdaki bölümlerde belirtilen paketlere ek olarak Databricks Runtime 9.1 LTS ML aşağıdaki paketleri de içerir:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db3
  • feature_store 0.3.4.1
  • automl 1.2.1

CPU kümelerinde Python kitaplıkları

Kitaplık Sürüm Kitaplık Sürüm Kitaplık Sürüm
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 geri arama 0.2.0
bcrypt 3.2.0 çamaşır suyu 3.3.0 boto3 1.16.7
botocore 1.19.7 Darboğaz 1.3.2 önbellek araçları 4.2.2
sertifikalı 2020.12.5 cffi 1.14.5 chardet 4.0.0
clang 5.0 tıklama 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 yapılandırmaparser 5.0.1 dönüştürme tarihi 2.3.2
şifreleme 3.4.7 bisikletçi 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
dekoratör 5.0.6 defusedxml 0.7.1 dereotu 0.3.2
diskcache 5.2.1 daistlib 0.3.2 distro-info 0.23ubuntu1
giriş noktaları 0.3 ephem 4.0.0.2 modellere genel bakış 1.0.0
dosya kilidi 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 gelecek 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
Tatil 0.11.2 horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 izodat 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab pencere öğeleri 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koala 1.8.1 korece-ay takvimi 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 yanlış 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
not defteri 6.3.0 numba 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Ambalaj 20.9
pandas 1.2.4 pandas profili oluşturma 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.2 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Yastık 8.2.0 Pip 21.0.1
çizim 5.1.0 prometheus-client 0.10.1 prompt-toolkit 3.0.17
peygamber 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 serçe 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pirsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python düzenleyicisi 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 istekler 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 scikit-learn 0.24.1 scipy 1.6.2
seaborn 0.11.1 Send2Trash 1.5.0 kurulum araçları 52.0.0
setuptools-git 1.2 Shap 0.39.0 simplejson 3.17.2
Altı 1.15.0 Dilimleyici 0.0.7 smmap 3.0.5
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 ssh-import-id 5.10
statsmodeller 0.12.2 sekmeli 0.8.7 unicode'da karışık 0.1.0
Azim 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 test yolu 0.4.4
threadpoolctl 2.1.0 meşale 1.9.0+cpu torchvision 0.10.0+cpu
hortum 6.1 tqdm 4.59.0 traitlets 5.0.5
yazma uzantıları 3.7.4.3 ujson 4.0.2 katılımsız yükseltmeler 0,1
urllib3 1.25.11 virtualenv 20.4.1 Vizyon 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 tekerlek 0.36.2 widgetsnbextension 3.5.1
kaydırma 1.12.1 xgboost 1.4.2 zipp 3.4.1

GPU kümelerinde Python kitaplıkları

Kitaplık Sürüm Kitaplık Sürüm Kitaplık Sürüm
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 geri arama 0.2.0
bcrypt 3.2.0 çamaşır suyu 3.3.0 boto3 1.16.7
botocore 1.19.7 Darboğaz 1.3.2 önbellek araçları 4.2.2
sertifikalı 2020.12.5 cffi 1.14.5 chardet 4.0.0
clang 5.0 tıklama 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 yapılandırmaparser 5.0.1 dönüştürme tarihi 2.3.2
şifreleme 3.4.7 bisikletçi 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
dekoratör 5.0.6 defusedxml 0.7.1 dereotu 0.3.2
diskcache 5.2.1 daistlib 0.3.2 distro-info 0.23ubuntu1
giriş noktaları 0.3 ephem 4.0.0.2 modellere genel bakış 1.0.0
dosya kilidi 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 gelecek 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
Tatil 0.11.2 horovod 0.22.1 htmlmin 0.1.12
idna 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 izodat 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab pencere öğeleri 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koala 1.8.1 korece-ay takvimi 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 yanlış 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
not defteri 6.3.0 numba 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Ambalaj 20.9
pandas 1.2.4 pandas profili oluşturma 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.2 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Yastık 8.2.0 Pip 21.0.1
çizim 5.1.0 prompt-toolkit 3.0.17 peygamber 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 serçe 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pycparser 2.20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 pyodbc 4.0.30 pyparsing 2.4.7
pirsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python düzenleyicisi 1.0.4 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
regex 2021.4.4 istekler 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 rsa 4.7.2 s3transfer 0.3.7
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 kurulum araçları 52.0.0 setuptools-git 1.2
Shap 0.39.0 simplejson 3.17.2 Altı 1.15.0
Dilimleyici 0.0.7 smmap 3.0.5 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 ssh-import-id 5.10 statsmodeller 0.12.2
sekmeli 0.8.7 unicode'da karışık 0.1.0 Azim 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-wit 1.8.0
tensorflow 2.6.0 tensorflow-estimator 2.6.0 termcolor 1.1.0
terminado 0.9.4 test yolu 0.4.4 threadpoolctl 2.1.0
meşale 1.9.0+cu111 torchvision 0.10.0+cu111 hortum 6.1
tqdm 4.59.0 traitlets 5.0.5 yazma uzantıları 3.7.4.3
ujson 4.0.2 katılımsız yükseltmeler 0,1 urllib3 1.25.11
virtualenv 20.4.1 Vizyon 0.7.1 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
tekerlek 0.36.2 widgetsnbextension 3.5.1 kaydırma 1.12.1
xgboost 1.4.2 zipp 3.4.1

Python modülleri içeren Spark paketleri

Spark Paketi Python Modülü Sürüm
graf çerçeveleri graf çerçeveleri 0.8.1-db3-spark3.1

R kitaplıkları

R kitaplıkları Databricks Runtime 9.1 LTS'deki R Kitaplıklarıyla aynıdır.

Java ve Scala kitaplıkları (Scala 2.12 kümesi)

Databricks Runtime 9.1 LTS'deki Java ve Scala kitaplıklarına ek olarak, Databricks Runtime 9.1 LTS ML aşağıdaki JAR'leri içerir:

CPU kümeleri

Grup Kimliği Yapıt Kimliği Sürüm
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU kümeleri

Grup Kimliği Yapıt Kimliği Sürüm
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0