Databricks Runtime 9.0 per Machine Learning (non supportato)

Databricks rilasciato questa immagine nel mese di agosto 2021.

Databricks Runtime 9.0 per Machine Learning offre un ambiente pronto per l'apprendimento automatico e la data science basato su Databricks Runtime 9.0 (Non supportato). Databricks Runtime ML contiene molte librerie di Machine Learning popolari, tra cui TensorFlow, PyTorch e XGBoost. Supporta anche il training di Deep Learning distribuito usando Horovod.

Per altre informazioni, incluse le istruzioni per la creazione di un cluster di Databricks runtime ML, vedere runtime Databricks per Machine Learning.

Correzione

Una versione precedente di queste note sulla versione ha dichiarato che il supporto per il monitoraggio delle metriche GPU del cluster con Ganglia è stato disabilitato in Databricks Runtime 9.0 ML GPU. Ciò è vero per Databricks Runtime 9.0 ML Beta, ma il problema è stato risolto con Databricks Runtime 9.0 ML GA. L'istruzione è stata rimossa.

Miglioramenti e nuove funzionalità

Databricks Runtime 9.0 ML è basato su Databricks Runtime 9.0. Per informazioni sulle novità di Databricks Runtime 9.0, tra cui Apache Spark MLlib e SparkR, vedere le note sulla versione Databricks Runtime 9.0 (Non supportato).

Databricks l'assegnazione automatica (anteprima pubblica)

Databricks l'assegnazione automatica è ora disponibile per Databricks Runtime 9.0 per Machine Learning nelle aree selezionate. Databricks l'assegnazione automatica è una soluzione senza codice che fornisce il rilevamento automatico degli esperimenti per le sessioni di training di Machine Learning in Azure Databricks. Con Databricks l'assegnazione automatica, i parametri del modello, le metriche, i file e le informazioni di derivazione vengono acquisiti automaticamente quando si esegue il training dei modelli da una vasta gamma di librerie di Machine Learning popolari. Le sessioni di training vengono registrate come esecuzioni di rilevamento di MLflow. I file di modello vengono inoltre rilevati in modo da poter registrarli facilmente nel Registro modelli MLflow e distribuirli per l'assegnazione dei punteggi in tempo reale con MLflow Model Serving.

Per altre informazioni sull'assegnazione automatica Databricks, vedere Databricks l'assegnazione automatica.

Miglioramenti per Databricks Feature Store

Le prestazioni durante la creazione di un set di training sono state migliorate riducendo al minimo il numero di join tra le tabelle delle funzionalità di origine.

L'integrazione di XGBoost con PySpark supporta ora cluster di training e GPU distribuiti

Per informazioni dettagliate, vedere Integrazione con Spark MLlib (Python).

Modifiche principali all'ambiente Python ML Databricks runtime

Gli ambienti Conda, insieme al comando %conda, vengono rimossi. Databricks Runtime 9.0 ML viene compilato con pip e virtualenv. Le immagini personalizzate che usano ambienti basati su Conda con Databricks Servizi contenitori saranno comunque supportate, ma non avranno funzionalità di libreria con ambito notebook. Databricks consiglia di usare ambienti basati su virtualenv con servizi contenitori Databricks e %pip per tutte le librerie con ambito notebook.

Vedere Databricks Runtime 9.0 (Non supportato) per le modifiche principali all'ambiente Python di runtime Databricks. Per un elenco completo dei pacchetti Python installati e delle relative versioni, vedere Librerie Python.

Pacchetti Python aggiornati

  • mlflow 1.18.0 -> 1.19.0
  • nltk 3.5 -> 3.6.1

Pacchetti Python aggiunti

  • profeta 1.0.1

Pacchetti Python rimossi

  • MKL
  • azure-core
  • azure-storage-blob
  • msrest
  • docker
  • querystring-parser
  • intel-openmp

Deprecazione e funzionalità non supportate

  • In Databricks Runtime 9.0 ML, HorovodRunner non supporta l'impostazione np=0, dove np è il numero di processi paralleli da usare per il processo Horovod.
  • Databricks Runtime 9.0 ML include r-base 4.1.0 con motore grafico R versione 14. Questa funzionalità non è supportata da RStudio Server versione 1.2.x.
  • nvprofviene rimosso in Databricks RUNTIME 9.0 ML GPU.

Ambiente di sistema

L'ambiente di sistema in Databricks Runtime 9.0 ML differisce da Databricks Runtime 9.0 come indicato di seguito:

Librerie

Le sezioni seguenti elencano le librerie incluse in Databricks Runtime 9.0 ML che differiscono da quelle incluse in Databricks Runtime 9.0.

Contenuto della sezione:

Librerie di livello superiore

Databricks Runtime 9.0 ML include le librerie di livello superiore seguenti:

Librerie Python

Databricks Runtime 9.0 ML usa Virtualenv per la gestione dei pacchetti Python e include molti pacchetti di ML popolari.

Oltre ai pacchetti specificati nelle sezioni seguenti, Databricks Runtime 9.0 ML include anche i pacchetti seguenti:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

Librerie Python nei cluster CPU

Libreria Versione Libreria Versione Libreria Versione
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 Candeggina 3.3.0 boto3 1.16.7
botocore 1.19.7 Bottiglia 1.3.2 cachetools 4.2.2
Certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
clic 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 crittografia 3.4.7
Cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 Decoratore 5.0.6 defusedxml 0.7.1
Aneto 0.3.2 diskcache 5.2.1 distlib 0.3.2
informazioni sulla distribuzione 0.23ubuntu1 punti di ingresso 0,3 ephem 4.0.0.2
Panoramica dei facet 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 Futuro 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-convertitore 2.1.3 Vacanze 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 Idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koala 1.8.1 coreano-lunare-calendario 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 Nltk 3.6.1
notebook 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 creazione del pacchetto 20.9
pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Cuscino 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pirsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 requests 2.25.1
request-oauthlib 1.3.0 requests-unixsocket 0.2.0 Riprovare 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1,2 Shap 0.39.0
simplejson 3.17.2 Sei 1.15.0 filtro dei dati 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulazioni 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plug-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 Torcia 1.9.0+CPU torchvision 0.10.0+CPU
Tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
Tipizzazione di estensioni 3.7.4.3 ujson 4.0.2 aggiornamenti automatici 0,1
URLlib3 1.25.11 virtualenv 20.4.1 Visioni 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapping 1.12.1 xgboost 1.4.2

Librerie Python nei cluster GPU

Libreria Versione Libreria Versione Libreria Versione
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 Candeggina 3.3.0 boto3 1.16.7
botocore 1.19.7 Bottiglia 1.3.2 cachetools 4.2.2
Certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
clic 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 crittografia 3.4.7
Cycler 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 Decoratore 5.0.6 defusedxml 0.7.1
Aneto 0.3.2 diskcache 5.2.1 distlib 0.3.2
informazioni sulla distribuzione 0.23ubuntu1 punti di ingresso 0,3 ephem 4.0.0.2
Facets-overview 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 Futuro 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 Vacanze 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 Idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-notte 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koala 1.8.1 coreano-lunare-calendario 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 Nltk 3.6.1
notebook 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 creazione del pacchetto 20.9
pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Cuscino 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pirsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 requests 2.25.1
request-oauthlib 1.3.0 requests-unixsocket 0.2.0 Riprovare 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1,2 Shap 0.39.0
simplejson 3.17.2 Sei 1.15.0 filtro dei dati 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulazioni 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 Torcia 1.9.0+cu111 torchvision 0.10.0+cu111
Tornado 6.1 tqdm 4.59.0 trattini 5.0.5
tipizzazione delle estensioni 3.7.4.3 ujson 4.0.2 aggiornamenti automatici 0,1
urllib3 1.25.11 virtualenv 20.4.1 Visioni 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
ritorno a capo 1.12.1 xgboost 1.4.2

Pacchetti Spark contenenti moduli Python

Pacchetto Spark Modulo Python Versione
grafoframe grafoframe 0.8.1-db3-spark3.1

Librerie R

Le librerie R sono identiche alle librerie R in Databricks Runtime 9.0.

Librerie Java e Scala (cluster Scala 2.12)

Oltre alle librerie Java e Scala in Databricks Runtime 9.0, Databricks Runtime 9.0 ML contiene i file JAR seguenti:

Cluster CPU

ID gruppo ID artefatto Versione
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Cluster GPU

ID gruppo ID artefatto Versione
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0