Condividi tramite


Databricks Runtime 9.1 LTS per Machine Learning

Databricks ha rilasciato questa immagine e l'ha dichiarata Long Term Support (LTS) nel settembre 2021.

Databricks Runtime 9.1 LTS per Machine Learning offre un ambiente pronto per l'to-go per l'apprendimento automatico e l'analisi scientifica dei dati basata su Databricks Runtime 9.1 LTS. Databricks Runtime ML contiene molte librerie di Machine Learning più diffuse, tra cui TensorFlow, PyTorch e XGBoost. Databricks Runtime ML include AutoML, uno strumento per eseguire automaticamente il training delle pipeline di Machine Learning. Databricks Runtime ML supporta anche il training di deep learning distribuito utilizzando Horovod.

Annotazioni

LTS indica che questa versione è supportata a lungo termine. Vedere Ciclo di vita della versione LTS di Databricks Runtime.

Per altre informazioni, incluse le istruzioni per la creazione di un cluster di Machine Learning di Databricks Runtime, vedere Intelligenza artificiale e Machine Learning in Databricks.

Nuove funzionalità e miglioramenti

AutoML (Automazione dell'apprendimento automatico)

I miglioramenti seguenti sono disponibili in Databricks Runtime 9.1 LTS ML e versioni successive.

AutoML supporta set di dati di dimensioni maggiori eseguendo il campionamento

AutoML ora campiona set di dati che potrebbero superare i vincoli di memoria, consentendo l'esecuzione su set di dati di dimensioni maggiori con un minor rischio di errori di memoria insufficiente. Per informazioni dettagliate, vedere Campionamento di set di dati di grandi dimensioni.

AutoML preprocessa le colonne in base al tipo semantico

AutoML rileva determinate colonne con un tipo semantico diverso dal tipo di dati Spark o pandas. AutoML converte e applica quindi i passaggi di pre-elaborazione dei dati in base al tipo semantico rilevato. In particolare, AutoML esegue le conversioni seguenti:

  • Le colonne di tipo stringa e intero che rappresentano dati di data o timestamp vengono convertite in un tipo timestamp.
  • Le colonne stringa che rappresentano dati numerici vengono convertite in un tipo numerico.

Miglioramenti ai notebook generati da AutoML

I passaggi di pre-elaborazione per le colonne di data e timestamp sono ora incorporati nel pacchetto databricks-automl-runtime, semplificando i notebook generati dal training AutoML. databricks-automl-runtime è incluso in Databricks Runtime 9.1 LTS ML e versioni successive ed è disponibile anche in PyPI.

Archivio delle funzionalità

I miglioramenti seguenti sono disponibili in Databricks Runtime 9.1 LTS ML e versioni successive.

  • Quando si crea un oggetto TrainingSet, è ora possibile impostare label=None per supportare applicazioni di apprendimento non supervisionate.
  • È ora possibile specificare più di una funzionalità in un singolo oggetto FeatureLookup.
  • È ora possibile specificare un percorso personalizzato per le tabelle delle funzionalità. Usare il parametro path in create_feature_table(). Il valore predefinito è il percorso del database.
  • Nuovi tipi di dati PySpark supportati: ArrayType e ShortType.

MLflow

I miglioramenti seguenti sono disponibili a partire da MLflow versione 1.20.2, inclusa in Databricks Runtime 9.1 LTS ML.

  • L'assegnazione automatica per scikit-learn registra ora le metriche post-training ogni volta che viene chiamata un'API di valutazione scikit-learn, ad esempio sklearn.metrics.mean_squared_error.
  • L'assegnazione automatica per PySpark ML registra ora le metriche post-training ogni volta che viene chiamata un'API di valutazione del modello, ad esempio Evaluator.evaluate().
  • mlflow.*.log_model e mlflow.*.save_model ora hanno pip_requirements argomenti e extra_pip_requirements in modo che sia possibile specificare direttamente i requisiti pip del modello per registrare o salvare.
  • mlflow.*.log_model e mlflow.*.save_model ora deducono automaticamente i requisiti pip del modello per registrare o salvare in base all'ambiente software corrente.
  • Le voci stdMetrics vengono ora registrate come metriche di training durante l'assegnazione automatica di CrossValidator di PySpark.
  • PyTorch Lightning supporta ora l'esecuzione distribuita.

Databricks Autologging (anteprima pubblica)

Databricks Autologging Public Preview è stato espanso in nuove aree. Databricks Autologging è una soluzione senza codice che fornisce il rilevamento automatico degli esperimenti per le sessioni di training di Machine Learning in Azure Databricks. Con Databricks Autologging, i parametri del modello, le metriche, i file e le informazioni di derivazione vengono acquisiti automaticamente quando si esegue il training dei modelli da una varietà di librerie di machine learning popolari. Le sessioni di allenamento vengono registrate come MLflow Tracking Runs. I file di modello vengono inoltre rilevati in modo da poterli registrare facilmente nel Registro modelli MLflow e distribuirli per l'assegnazione dei punteggi in tempo reale con MLflow Model Serving.

Per ulteriori informazioni su Databricks Autologging, vedere Databricks Autologging.

Modifiche principali all'ambiente Python di Databricks Runtime ML

Pacchetti Python aggiornati

  • AutoML 1.1.1 => 1.2.1
  • feature_store 0,3,3 => 0,3,4,1
  • festività 0.10.5.2 => 0.11.2
  • Keras 2.5.0 => 2.6.0
  • MLFock 1.19.0 => 1.20.2
  • Petastorm 0.11.1 => 0.11.2
  • plotly 4.14.3 => 5.1.0
  • Distributore di flusso 0.1.0 => 1.0.0
  • sparkdl 2.2.0_db1 => 2.2.0_db3
  • Tensorboard 2.5.0 => 2.6.0
  • TensorFlow 2.5.0 => 2.6.0

Pacchetti Python aggiunti

  • databricks-automl-runtime 0.1.0

Ambiente di sistema

L'ambiente di sistema in Databricks Runtime 9.1 LTS ML differisce da Databricks Runtime 9.1 LTS come indicato di seguito:

  • DBUtils: Databricks Runtime ML non include l'utilità di libreria (dbutils.library) (legacy). Usa i comandi %pip invece. Vedere Librerie Python per notebook.
  • Per i cluster GPU, Databricks Runtime ML include le librerie GPU NVIDIA seguenti:
    • CUDA 11.0
    • cuDNN 8.1.0.77
    • NCCL 2.10.3
    • TensorRT 7.2.2

Librerie

Le sezioni seguenti elencano le librerie incluse in Databricks Runtime 9.1 LTS ML che differiscono da quelle incluse in Databricks Runtime 9.1 LTS.

In questa sezione:

Librerie di livello superiore

Databricks Runtime 9.1 LTS ML include le librerie di livello superiore seguenti:

Librerie Python

Databricks Runtime 9.1 LTS ML usa Virtualenv per la gestione dei pacchetti Python e include molti dei pacchetti ML più diffusi.

Oltre ai pacchetti specificati nelle sezioni seguenti, Databricks Runtime 9.1 LTS ML include anche i pacchetti seguenti:

  • hyperopt 0.2.5.db2
  • 2.2.0_db3 sparkdl
  • feature_store 0.3.4.1
  • AutoML 1.2.1

Librerie Python sui cluster CPU

Libreria Versione Libreria Versione Libreria Versione
absl-py 0.11.0 Antergos Linux 10/2015 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
generatore asincrono 1.10 att. 20.3.0 chiamata di ritorno 0.2.0
bcrypt 3.2.0 candeggiare 3.3.0 boto3 1.16.7
botocore 1.19.7 Collo di bottiglia 1.3.2 cachetools (strumento per la gestione della cache) 4.2.2
certificato 2020.12.5 cffi 1.14.5 chardet 4.0.0
Clang 5.0 fai clic 7.1.2 cloudpickle (libreria Python per la serializzazione degli oggetti) 1.6.0
cmdstanpy 0.9.68 configparser (analizzatore di configurazione) 5.0.1 convertdate 2.3.2
criptografia 3.4.7 ciclista 0.10.0 Cython, un linguaggio di programmazione 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
Decoratore 5.0.6 defusedxml (una libreria per migliorare la sicurezza nell'elaborazione di XML) 0.7.1 aneto 0.3.2
cache del disco 5.2.1 distlib 0.3.2 informazioni sulla distribuzione 0.23ubuntu1
punti di ingresso 0,3 ephem 4.0.0.2 panoramica delle facette 1.0.0
blocco dei file 3.0.12 Fiaschetta 1.1.2 FlatBuffers 1.12
fsspec 0.9.0 futuro 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth (autenticazione Google) 1.22.1
google-auth-oauthlib 0.4.2 Google-Pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
vacanze 0.11.2 Horovod 0.22.1 htmlmin (strumento per la minimizzazione del codice HTML) 0.1.12
IDNA 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets (una libreria Python per widget interattivi) 7.6.3 isodate 0.6.0 it’s dangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 Keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koala 1.8.1 calendario lunare coreano 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 Calendario Lunare 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 Mistune 0.8.4
mleap 0.17.0 mlflow versione leggera 1.20.2 multimetodo 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 nltk (Natural Language Toolkit) 3.6.1
taccuino 6.3.0 nmbalo 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 imballaggio 20.9
Panda 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 vittima 0.5.1
Petastorm 0.11.2 pexpect 4.8.0 phik 0.12.0
pickleshare (libreria di software Python) 0.7.5 Cuscino 8.2.0 seme 21.0.1
plotly (software di visualizzazione dati) 5.1.0 prometheus-client 0.10.1 prompt-toolkit 3.0.17
profeta 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser (un parser scritto in Python) 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pirsistente 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil (libreria Python per la gestione delle date) 2.8.1 Editor di Python 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 richieste 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 RSA 4.7.2
s3transfer 0.3.7 scikit-learn 0.24.1 scipy 1.6.2
Seaborn 0.11.1 Send2Trash 1.5.0 setuptools (pacchetto Python per gestire la configurazione e la distribuzione) 52.0.0
setuptools-git 1,2 forma 0.39.0 simplejson 3.17.2
sei 1.15.0 strumento di taglio 0.0.7 smmap 3.0.5
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 ssh-import-id (comando per l'importazione di chiavi SSH) 5.10
statsmodels 0.12.2 tabellare 0.8.7 aggrovigliato-up-in-unicode 0.1.0
tenacità 6.2.0 TensorBoard 2.6.0 server di dati di TensorBoard 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0 Stima di tensore tensorflow 2.6.0
termcolor 1.1.0 finito 0.9.4 percorso di prova 0.4.4
threadpoolctl 2.1.0 torcia 1.9.0+CPU visione della torcia 0.10.0+CPU
tornado 6.1 tqdm 4.59.0 traitlets (una libreria per la configurazione dei parametri nei programmi Python) 5.0.5
tipizzazione di estensioni 3.7.4.3 ujson (una libreria per la gestione di JSON in Python) 4.0.2 aggiornamenti non supervisionati 0,1
urllib3 1.25.11 virtualenv 20.4.1 Visioni 0.7.1
wcwidth (funzione per determinare la larghezza dei caratteri) 0.2.5 codifiche web 0.5.1 cliente WebSocket 0.57.0
Attrezzo 1.0.1 ruota 0.36.2 widgetsnbextension 3.5.1
rapito 1.12.1 xgboost 1.4.2 Zipp 3.4.1

Librerie Python sui cluster GPU

Libreria Versione Libreria Versione Libreria Versione
absl-py 0.11.0 Antergos Linux 10/2015 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
generatore asincrono 1.10 att. 20.3.0 chiamata di ritorno 0.2.0
bcrypt 3.2.0 candeggiare 3.3.0 boto3 1.16.7
botocore 1.19.7 Collo di bottiglia 1.3.2 cachetools (strumento per la gestione della cache) 4.2.2
certificato 2020.12.5 cffi 1.14.5 chardet 4.0.0
Clang 5.0 fai clic 7.1.2 cloudpickle (libreria Python per la serializzazione degli oggetti) 1.6.0
cmdstanpy 0.9.68 configparser (analizzatore di configurazione) 5.0.1 convertdate 2.3.2
criptografia 3.4.7 ciclista 0.10.0 Cython, un linguaggio di programmazione 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
Decoratore 5.0.6 defusedxml (una libreria per migliorare la sicurezza nell'elaborazione di XML) 0.7.1 aneto 0.3.2
cache del disco 5.2.1 distlib 0.3.2 informazioni sulla distribuzione 0.23ubuntu1
punti di ingresso 0,3 ephem 4.0.0.2 panoramica delle facette 1.0.0
blocco dei file 3.0.12 Fiaschetta 1.1.2 FlatBuffers 1.12
fsspec 0.9.0 futuro 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth (autenticazione Google) 1.22.1
google-auth-oauthlib 0.4.2 Google-Pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
vacanze 0.11.2 Horovod 0.22.1 htmlmin (strumento per la minimizzazione del codice HTML) 0.1.12
IDNA 2.10 ImageHash 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets (una libreria Python per widget interattivi) 7.6.3 isodate 0.6.0 it’s dangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 Keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koala 1.8.1 calendario lunare coreano 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 Calendario Lunare 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 Mistune 0.8.4
mleap 0.17.0 mlflow versione leggera 1.20.2 multimetodo 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 nltk (Natural Language Toolkit) 3.6.1
taccuino 6.3.0 nmbalo 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 imballaggio 20.9
Panda 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 vittima 0.5.1
Petastorm 0.11.2 pexpect 4.8.0 phik 0.12.0
pickleshare (libreria di software Python) 0.7.5 Cuscino 8.2.0 seme 21.0.1
plotly (software di visualizzazione dati) 5.1.0 prompt-toolkit 3.0.17 profeta 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pycparser (un parser scritto in Python) 2.20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 pyodbc 4.0.30 pyparsing 2.4.7
pirsistente 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil (libreria Python per la gestione delle date) 2.8.1 Editor di Python 1.0.4 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
regex 2021.4.4 richieste 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 RSA 4.7.2 s3transfer 0.3.7
scikit-learn 0.24.1 scipy 1.6.2 Seaborn 0.11.1
Send2Trash 1.5.0 setuptools (pacchetto Python per gestire la configurazione e la distribuzione) 52.0.0 setuptools-git 1,2
forma 0.39.0 simplejson 3.17.2 sei 1.15.0
strumento di taglio 0.0.7 smmap 3.0.5 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 ssh-import-id (comando per l'importazione di chiavi SSH) 5.10 statsmodels 0.12.2
tabellare 0.8.7 aggrovigliato-up-in-unicode 0.1.0 tenacità 6.2.0
TensorBoard 2.6.0 server di dati di TensorBoard 0.6.1 tensorboard-plugin-wit 1.8.0
TensorFlow 2.6.0 Stima di tensore tensorflow 2.6.0 termcolor 1.1.0
finito 0.9.4 percorso di prova 0.4.4 threadpoolctl 2.1.0
torcia 1.9.0+cu111 visione della torcia 0.10.0+cu111 tornado 6.1
tqdm 4.59.0 traitlets (una libreria per la configurazione dei parametri nei programmi Python) 5.0.5 tipizzazione di estensioni 3.7.4.3
ujson (una libreria per la gestione di JSON in Python) 4.0.2 aggiornamenti non supervisionati 0,1 urllib3 1.25.11
virtualenv 20.4.1 Visioni 0.7.1 wcwidth (funzione per determinare la larghezza dei caratteri) 0.2.5
codifiche web 0.5.1 cliente WebSocket 0.57.0 Attrezzo 1.0.1
ruota 0.36.2 widgetsnbextension 3.5.1 rapito 1.12.1
xgboost 1.4.2 Zipp 3.4.1

Pacchetti Spark contenenti moduli Python

Pacchetto Spark Modulo Python Versione
GraphFrames GraphFrames 0.8.1-db3-spark3.1

Librerie R

Le librerie R sono identiche alle librerie R in Databricks Runtime 9.1 LTS.

Librerie Java e Scala (cluster Scala 2.12)

Oltre alle librerie Java e Scala in Databricks Runtime 9.1 LTS, Databricks Runtime 9.1 LTS ML contiene i file JAR seguenti:

Cluster di CPU

ID del Gruppo ID dell'artefatto Versione
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Cluster di GPU

ID del Gruppo ID dell'artefatto Versione
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0