Databricks Runtime 10.4 LTS für Machine Learning (EoS)

Hinweis

Die Unterstützung für diese Databricks-Runtime-Version wurde beendet. Informationen zum Enddatum des Supports finden Sie unter "Ende des Supports" und "Ende des Lebenszyklus". Eine Übersicht aller unterstützten Databricks Runtime-Versionen finden Sie unter Versionshinweise und Kompatibilität von Databricks Runtime.

Databricks Runtime 10.4 LTS für Machine Learning bietet eine ready-to-go Umgebung für machine learning und Data Science basierend auf Databricks Runtime 10.4 LTS (EoS). Databricks Runtime ML enthält viele beliebte Machine Learning-Bibliotheken, einschließlich TensorFlow, PyTorch und XGBoost. Databricks Runtime ML enthält AutoML, ein Tool zum automatischen Trainieren von Machine Learning-Pipelines. Databricks Runtime ML unterstützt auch verteiltes Deep Learning-Training mit Horovod.

Weitere Informationen, einschließlich Anweisungen zum Erstellen eines Databricks Runtime ML-Clusters, finden Sie unter KI und Machine Learning in Databricks.

Neue Features und Verbesserungen

Databricks Runtime 10.4 ML basiert auf Databricks Runtime 10.4 LTS. Informationen zu den Neuerungen in Databricks Runtime 10.4 LTS, einschließlich Apache Spark MLlib und SparkR, finden Sie in den Versionshinweisen zu Databricks Runtime 10.4 LTS (EoS).

Verbesserungen an AutoML

Die folgenden Verbesserungen wurden an AutoML vorgenommen.

AutoML ist allgemein verfügbar

Ab Databricks Runtime 10.4 LTS ML ist AutoML allgemein verfügbar.

Imputation fehlender Werte

Sie können nun angeben, wie Null-Werte imputiert werden. AutoML wählt als Standard eine Imputationsmethode auf der Grundlage des Spaltentyps und des Inhalts aus. Weitere Informationen finden Sie unter Imputieren fehlender Werte.).

Spaltenauswahl über die Benutzeroberfläche

Bei Klassifizierungs- und Regressionsproblemen können Sie nun die Benutzeroberfläche zusätzlich zur API verwenden, um Spalten anzugeben, die AutoML während der Berechnungen ignorieren soll. Weitere Informationen finden Sie unter Spaltenauswahl.

Neuer Datentyp

AutoML unterstützt jetzt numerische Arraytypen.

Benutzerdefinierter Speicherort für generierte Notebooks und Experimente

Sie können jetzt einen Speicherort im Arbeitsbereich angeben, an dem AutoML generierte Notebooks und Experimente speichern soll. Verwenden Sie den Parameter experiment_dir. Siehe AutoML Python API-Referenz.

Verbesserungen am Feature Store von Databricks

Die folgenden Verbesserungen wurden an Databricks Feature Store vorgenommen.

  • Sie können jetzt eine vorhandene Delta-Tabelle als Featuretabelle registrieren.

Systemumgebung

Die Systemumgebung in Databricks Runtime 10.4 LTS ML unterscheidet sich wie folgt von Databricks Runtime 10.4 LTS:

Bibliotheken

In den folgenden Abschnitten sind die Bibliotheken aufgelistet, die in Databricks Runtime 10.4 LTS ML enthalten sind und sich von den in Databricks Runtime 10.4 LTS enthaltenen Bibliotheken unterscheiden.

Inhalt dieses Abschnitts:

Bibliotheken der obersten Ebene

Databricks Runtime 10.4 LTS ML enthält die folgenden Bibliotheken der obersten Ebene:

Python-Bibliotheken

Databricks Runtime 10.4 LTS ML verwendet Virtualenv für Python Paketverwaltung und enthält viele beliebte ML-Pakete.

Zusätzlich zu den Paketen, die in den folgenden Abschnitten aufgeführt sind, umfasst Databricks Runtime 10.4 LTS ML auch die folgenden Pakete:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

Python-Bibliotheken auf CPU-Clustern

Um die Databricks Runtime ML-Python-Umgebung in Ihrer lokalen Python virtuellen Umgebung zu reproduzieren, laden Sie die Datei requirements-10.4.txt herunter, und führen Sie pip install -r requirements-10.4.txt aus. Dieser Befehl installiert alle open source Bibliotheken, die Databricks Runtime ML verwendet, installiert jedoch keine Azure Databricks entwickelten Bibliotheken, z. B. databricks-automl, databricks-feature-store oder die Databricks-Verzweigung von hyperopt.

Bibliothek Version Bibliothek Version Bibliothek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) Appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 Astunparse 1.6.3
asynchroner Generator 1.10 Attrs 20.3.0 Backcall 0.2.0
bcrypt 3.2.0 bidict (eine Python-Bibliothek zur Erstellung von bidirektionalen Wörterbüchern) 0.21.4 Bleichmittel 3.3.0
blis 0.7.4 Boto3 1.16.7 Botocore 1.19.7
CacheWerkzeuge 4.2.4 Katalog 2.0.6 Zertifizieren 2020.12.5
CFFI 1.14.5 Chardet 4.0.0 Klicken 7.1.2
Wolkengurke 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
Convertdate 2.3.2 Kryptographie 3.4.7 Fahrradfahrer 0.10.0
Cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
Dekorateur 5.0.6 defusedxml 0.7.1 Dill 0.3.2
Festplatten-Cache 5.2.1 Distlib 0.3.4 Distro-Informationen 0.23ubuntu1
Einstiegspunkte 0,3 Kurzlebig 4.1.3 Übersicht der Facetten 1.0.0
fasttext 0.9.2 Dateisperrung 3.0.12 Flasche 1.1.2
FlatBuffers 2.0 fsspec 0.9.0 Zukunft 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
Google-Authentifizierung 1.22.1 google-auth-oauthlib 0.4.2 Google-Pasta 0.2.0
GRPCIO 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 Hijri-Konverter 2.2.3 Ferien 0,12
Horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 Ungleichgewichte lernen 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 Isodate 0.6.0
es ist gefährlich 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 Jupyter-Client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 Keras 2.8.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 Koalas 1.8.2
koreanischer Lunarkalender 0.2.1 Sprachcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Mondkalender 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 fehltNein 0.5.1 verstimmen 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 Multimethod 1.7
Murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
Natural Language Toolkit (nltk) 3.6.1 Notebook 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Packen 21,3 Pandas 1.2.4 Pandas-Profiling 3.1.0
Pandocfilter 1.4.3 paramiko 2.7.2 Parso 0.7.0
pathie 0.6.0 Sündenbock 0.5.1 Petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 Pickleshare 0.7.5
Kissen 8.2.0 pip 21.0.1 Handlung 5.5.0
pmdarima 1.8.4 vorgehäckselt 3.0.5 prometheus-client 0.10.1
Prompt-Toolkit 3.0.17 Prophet 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
Pyarrow 4.0.0 Pyasn1 0.4.8 Pyasn1-Module 0.2.8
Pybind11 2.9.1 Pycparser 2,20 Pydantisch 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
Pyristent 0.17.3 Pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
Python-dateutil 2.8.1 Python-Editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 Pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 Regex 2021.4.4
Anforderungen 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-lernen 0.24.1 SciPy 1.6.2 Seegeboren 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
Schattierung 0.40.0 simplejson 3.17.2 sechs 1.15.0
Schneidemaschine 0.0.7 smart-open 5.2.0 smmap 3.0.5
Geräumig 3.2.1 Spacy-Legacy 3.0.8 Spacy-Logger 1.0.1
Spark-Tensorflow-Distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 StatistikModelle 0.12.2 tabellarisieren 0.8.7
Durcheinander-in-Unicode 0.1.0 Hartnäckigkeit 6.2.0 TensorBoard 2.8.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.8.0 TensorFlow-Estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
Termcolor 1.1.0 beendet 0.9.4 Testpfad 0.4.4
tf-estimator-nightly 2.8.0.dev2021122109 thinc 8.0.12 Threadpoolctl 2.1.0
Tokenizer 0.10.3 Fackel 1.10.2+cpu Fackelvision 0.11.3+CPU
Tornado 6.1 tqdm 4.59.0 Traitlets 5.0.5
Transformatoren 4.16.2 Typer 0.3.2 Erweiterungen für Typisierung 3.7.4.3
ujson 4.0.2 unbeaufsichtigte Aktualisierungen 0,1 urllib3 1.25.11
virtualenv 20.4.1 Visionen 0.7.4 Wasabi 0.8.2
wcwidth 0.2.5 Webkodierungen 0.5.1 WebSocket-Client 0.57.0
Werkzeug 1.0.1 Rad 0.36.2 widgetsnbextension 3.5.1
Eingehüllt 1.12.1 xgboost 1.5.2 ZIPP 3.4.1

Python Bibliotheken auf GPU-Clustern

Bibliothek Version Bibliothek Version Bibliothek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) Appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 Astunparse 1.6.3
asynchroner Generator 1.10 Attrs 20.3.0 Backcall 0.2.0
bcrypt 3.2.0 bidict (eine Python-Bibliothek zur Erstellung von bidirektionalen Wörterbüchern) 0.21.4 Bleichmittel 3.3.0
blis 0.7.4 Boto3 1.16.7 Botocore 1.19.7
CacheWerkzeuge 4.2.4 Katalog 2.0.6 Zertifizieren 2020.12.5
CFFI 1.14.5 Chardet 4.0.0 Klicken 7.1.2
Wolkengurke 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
Convertdate 2.3.2 Kryptographie 3.4.7 Fahrradfahrer 0.10.0
Cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
Dekorateur 5.0.6 defusedxml 0.7.1 Dill 0.3.2
Festplatten-Cache 5.2.1 Distlib 0.3.4 Distro-Informationen 0.23ubuntu1
Einstiegspunkte 0,3 Kurzlebig 4.1.3 Übersicht der Facetten 1.0.0
fasttext 0.9.2 Dateisperrung 3.0.12 Flasche 1.1.2
FlatBuffers 2.0 fsspec 0.9.0 Zukunft 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
Google-Authentifizierung 1.22.1 google-auth-oauthlib 0.4.2 Google-Pasta 0.2.0
GRPCIO 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 Hijri-Konverter 2.2.3 Ferien 0,12
Horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 Ungleichgewichte lernen 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 Isodate 0.6.0
es ist gefährlich 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 Jupyter-Client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 Keras 2.8.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 Koalas 1.8.2
koreanischer Lunarkalender 0.2.1 Sprachcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Mondkalender 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 fehltNein 0.5.1 verstimmen 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 Multimethod 1.7
Murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
Natural Language Toolkit (nltk) 3.6.1 Notebook 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
Packen 21,3 Pandas 1.2.4 Pandas-Profiling 3.1.0
Pandocfilter 1.4.3 paramiko 2.7.2 Parso 0.7.0
pathie 0.6.0 Sündenbock 0.5.1 Petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 Pickleshare 0.7.5
Kissen 8.2.0 pip 21.0.1 Handlung 5.5.0
pmdarima 1.8.4 vorgehäckselt 3.0.5 Prompt-Toolkit 3.0.17
Prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 Pyarrow 4.0.0
Pyasn1 0.4.8 Pyasn1-Module 0.2.8 Pybind11 2.9.1
Pycparser 2,20 Pydantisch 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 Pyristent 0.17.3
Pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 Python-dateutil 2.8.1
Python-Editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
Pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 Anforderungen 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-lernen 0.24.1
SciPy 1.6.2 Seegeboren 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Schattierung 0.40.0
simplejson 3.17.2 sechs 1.15.0 Schneidemaschine 0.0.7
smart-open 5.2.0 smmap 3.0.5 Geräumig 3.2.1
Spacy-Legacy 3.0.8 Spacy-Logger 1.0.1 Spark-Tensorflow-Distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
StatistikModelle 0.12.2 tabellarisieren 0.8.7 Durcheinander-in-Unicode 0.1.0
Hartnäckigkeit 6.2.0 TensorBoard 2.8.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 TensorFlow 2.8.0
TensorFlow-Estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 Termcolor 1.1.0
beendet 0.9.4 Testpfad 0.4.4 tf-estimator-nightly 2.8.0.dev2021122109
thinc 8.0.12 Threadpoolctl 2.1.0 Tokenizer 0.10.3
Fackel 1.10.2+cu111 Fackelvision 0.11.3+cu111 Tornado 6.1
tqdm 4.59.0 Traitlets 5.0.5 Transformatoren 4.16.2
Typer 0.3.2 Erweiterungen für Typisierung 3.7.4.3 ujson 4.0.2
unbeaufsichtigte Aktualisierungen 0,1 urllib3 1.25.11 virtualenv 20.4.1
Visionen 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
Webkodierungen 0.5.1 WebSocket-Client 0.57.0 Werkzeug 1.0.1
Rad 0.36.2 widgetsnbextension 3.5.1 Eingehüllt 1.12.1
xgboost 1.5.2 ZIPP 3.4.1

Spark-Pakete mit Python Modulen

Spark-Paket modul Python Version
Graphframes Graphframes 0.8.2-db1-spark3.2

R-Bibliotheken

Die R-Bibliotheken sind mit den R-Bibliotheken in Databricks Runtime 10.4 LTS identisch.

Java- und Scala-Bibliotheken (Scala 2.12-Cluster)

Zusätzlich zu Java- und Scala-Bibliotheken in Databricks Runtime 10.4 LTS enthält Databricks Runtime 10.4 LTS ML die folgenden JARs:

CPU-Cluster

Gruppen-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-Cluster

Gruppen-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0