Condividi tramite


Databricks Runtime 10.4 LTS per Machine Learning (EoS)

Annotazioni

Il supporto per questa versione di Databricks Runtime è terminato. Per la data di fine del supporto, vedere Cronologia di fine del supporto. Per tutte le versioni supportate di Databricks Runtime, vedere note di rilascio di Databricks Runtime: versioni e compatibilità.

Databricks Runtime 10.4 LTS per Machine Learning offre un ambiente pronto perto-go per l'apprendimento automatico e l'analisi scientifica dei dati basata su Databricks Runtime 10.4 LTS (EoS). Databricks Runtime ML contiene molte librerie di Machine Learning più diffuse, tra cui TensorFlow, PyTorch e XGBoost. Databricks Runtime ML include AutoML, uno strumento per eseguire automaticamente il training delle pipeline di Machine Learning. Databricks Runtime ML supporta anche il training di deep learning distribuito utilizzando Horovod.

Per altre informazioni, incluse le istruzioni per la creazione di un cluster di Databricks Runtime ML, vedere IA e Machine Learning in Databricks.

Nuove funzionalità e miglioramenti

Databricks Runtime 10.4 LTS ML è basato su Databricks Runtime 10.4 LTS. Per informazioni sulle novità di Databricks Runtime 10.4 LTS, tra cui Apache Spark MLlib e SparkR, vedere le note sulla versione di Databricks Runtime 10.4 LTS (EoS).

Miglioramenti a AutoML

Sono stati apportati i miglioramenti seguenti a AutoML.

AutoML è disponibile a livello generale

A partire da Databricks Runtime 10.4 LTS ML, AutoML è disponibile a livello generale.

Attribuzione di valori mancanti

È ora possibile specificare la modalità di attribuzione dei valori null. Per impostazione predefinita, AutoML seleziona un metodo di imputazione in base al tipo di colonna e al contenuto. Per informazioni dettagliate, vedere Attribuire i valori mancanti.

Selezione di colonne dall'interfaccia utente

Per problemi di classificazione e regressione, è ora possibile usare l'interfaccia utente oltre all'API per specificare le colonne che AutoML deve ignorare durante i calcoli. Vedere Selezione di colonne.

Nuovo tipo di dati

AutoML supporta ora i tipi di matrice numerica.

Percorso personalizzato dei notebook generati e dell'esperimento

È ora possibile specificare un percorso nell'area di lavoro in cui AutoML deve salvare i notebook e gli esperimenti generati. Usare il parametro experiment_dir. Vedere Informazioni di riferimento sulle API Python di AutoML.

Miglioramenti al Feature Store di Databricks

Sono stati apportati i miglioramenti seguenti al Feature Store di Databricks.

  • È ora possibile registrare una tabella Delta esistente come tabella delle funzionalità.

Ambiente di sistema

L'ambiente di sistema in Databricks Runtime 10.4 LTS ML differisce da Databricks Runtime 10.4 LTS come indicato di seguito:

Librerie

Le sezioni seguenti elencano le librerie incluse in Databricks Runtime 10.4 LTS ML che differiscono da quelle incluse in Databricks Runtime 10.4 LTS.

In questa sezione:

Librerie di livello superiore

Databricks Runtime 10.4 LTS ML include le librerie di livello superiore seguenti:

Librerie Python

Databricks Runtime 10.4 LTS ML usa Virtualenv per la gestione dei pacchetti Python e include molti dei pacchetti ML più diffusi.

Oltre ai pacchetti specificati nelle sezioni seguenti, Databricks Runtime 10.4 LTS ML include anche i pacchetti seguenti:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

Librerie Python sui cluster CPU

Per riprodurre l'ambiente Python di Databricks Runtime ML nell'ambiente virtuale Python locale, scaricare il file requirements-10.4.txt ed eseguire pip install -r requirements-10.4.txt. Questo comando installa tutte le librerie open source usate da Databricks Runtime ML, ma non installa librerie sviluppate da Azure Databricks, ad esempio databricks-automl, databricks-feature-store o il fork di Databricks di hyperopt.

Libreria Versione Libreria Versione Libreria Versione
absl-py 0.11.0 Antergos Linux 10/2015 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
generatore asincrono 1.10 att. 20.3.0 chiamata di ritorno 0.2.0
bcrypt 3.2.0 dizionario bidirezionale 0.21.4 candeggiare 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools (strumento per la gestione della cache) 4.2.4 catalogo 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 fai clic 7.1.2
cloudpickle (libreria Python per la serializzazione degli oggetti) 1.6.0 cmdstanpy 0.9.68 configparser (analizzatore di configurazione) 5.0.1
convertdate 2.3.2 criptografia 3.4.7 ciclista 0.10.0
cymem 2.0.5 Cython, un linguaggio di programmazione 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
Decoratore 5.0.6 defusedxml (una libreria per migliorare la sicurezza nell'elaborazione di XML) 0.7.1 aneto 0.3.2
cache del disco 5.2.1 distlib 0.3.4 informazioni sulla distribuzione 0.23ubuntu1
punti di ingresso 0,3 ephem 4.1.3 panoramica delle facette 1.0.0
fasttext 0.9.2 blocco dei file 3.0.12 Fiaschetta 1.1.2
FlatBuffers 2.0 fsspec 0.9.0 futuro 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth (autenticazione Google) 1.22.1 google-auth-oauthlib 0.4.2 Google-Pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 vacanze 0.12
Horovod 0.23.0 htmlmin (strumento per la minimizzazione del codice HTML) 0.1.12 huggingface-hub 0.1.2
IDNA 2.10 ImageHash 4.2.1 imbalanced-learn (una libreria di apprendimento automatico per la gestione dei set di dati sbilanciati) 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets (una libreria Python per widget interattivi) 7.6.3 isodate 0.6.0
it’s dangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 Keras 2.8.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 koala 1.8.2
calendario lunare coreano 0.2.1 codici linguistici 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Calendario Lunare 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 Mistune 0.8.4
mleap 0.18.1 mlflow versione leggera 1.24.0 multimetodo 1.7
algoritmo di hashing murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
nltk (Natural Language Toolkit) 3.6.1 taccuino 6.3.0 nmbalo 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
imballaggio 21,3 Panda 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
patia 0.6.0 vittima 0.5.1 Petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare (libreria di software Python) 0.7.5
Cuscino 8.2.0 seme 21.0.1 plotly (software di visualizzazione dati) 5.5.0
pmdarima 1.8.4 (Note: Without context, a definitive improved translation cannot be accurately proposed). 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 profeta 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.1 pycparser (un parser scritto in Python) 2.20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
python-dateutil (libreria Python per la gestione delle date) 2.8.1 Editor di Python 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
richieste 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
RSA 4.7.2 s3transfer 0.3.7 sacrimoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 Seaborn 0.11.1
Send2Trash 1.5.0 setuptools (pacchetto Python per gestire la configurazione e la distribuzione) 52.0.0 setuptools-git 1,2
forma 0.40.0 simplejson 3.17.2 sei 1.15.0
strumento di taglio 0.0.7 smart-open 5.2.0 smmap 3.0.5
spazioso 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 seriamente? 2.4.1
ssh-import-id (comando per l'importazione di chiavi SSH) 5.10 statsmodels 0.12.2 tabellare 0.8.7
aggrovigliato-up-in-unicode 0.1.0 tenacità 6.2.0 TensorBoard 2.8.0
server di dati di TensorBoard 0.6.1 plugin di profilazione per tensorboard 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.8.0 Stima di tensore tensorflow 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor 1.1.0 finito 0.9.4 percorso di prova 0.4.4
tf-estimator-nightly 2.8.0.dev2021122109 thinc 8.0.12 threadpoolctl 2.1.0
tokenizzatori 0.10.3 torcia 1.10.2+cpu visione della torcia 0.11.3+cpu
tornado 6.1 tqdm 4.59.0 traitlets (una libreria per la configurazione dei parametri nei programmi Python) 5.0.5
trasformatori 4.16.2 Typer 0.3.2 tipizzazione di estensioni 3.7.4.3
ujson (una libreria per la gestione di JSON in Python) 4.0.2 aggiornamenti non supervisionati 0,1 urllib3 1.25.11
virtualenv 20.4.1 Visioni 0.7.4 wasabi 0.8.2
wcwidth (funzione per determinare la larghezza dei caratteri) 0.2.5 codifiche web 0.5.1 cliente WebSocket 0.57.0
Attrezzo 1.0.1 ruota 0.36.2 widgetsnbextension 3.5.1
rapito 1.12.1 xgboost 1.5.2 Zipp 3.4.1

Librerie Python sui cluster GPU

Libreria Versione Libreria Versione Libreria Versione
absl-py 0.11.0 Antergos Linux 10/2015 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
generatore asincrono 1.10 att. 20.3.0 chiamata di ritorno 0.2.0
bcrypt 3.2.0 dizionario bidirezionale 0.21.4 candeggiare 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools (strumento per la gestione della cache) 4.2.4 catalogo 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 fai clic 7.1.2
cloudpickle (libreria Python per la serializzazione degli oggetti) 1.6.0 cmdstanpy 0.9.68 configparser (analizzatore di configurazione) 5.0.1
convertdate 2.3.2 criptografia 3.4.7 ciclista 0.10.0
cymem 2.0.5 Cython, un linguaggio di programmazione 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
Decoratore 5.0.6 defusedxml (una libreria per migliorare la sicurezza nell'elaborazione di XML) 0.7.1 aneto 0.3.2
cache del disco 5.2.1 distlib 0.3.4 informazioni sulla distribuzione 0.23ubuntu1
punti di ingresso 0,3 ephem 4.1.3 panoramica delle facette 1.0.0
fasttext 0.9.2 blocco dei file 3.0.12 Fiaschetta 1.1.2
FlatBuffers 2.0 fsspec 0.9.0 futuro 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth (autenticazione Google) 1.22.1 google-auth-oauthlib 0.4.2 Google-Pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 vacanze 0.12
Horovod 0.23.0 htmlmin (strumento per la minimizzazione del codice HTML) 0.1.12 huggingface-hub 0.1.2
IDNA 2.10 ImageHash 4.2.1 imbalanced-learn (una libreria di apprendimento automatico per la gestione dei set di dati sbilanciati) 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets (una libreria Python per widget interattivi) 7.6.3 isodate 0.6.0
it’s dangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 Keras 2.8.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 koala 1.8.2
calendario lunare coreano 0.2.1 codici linguistici 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Calendario Lunare 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 Mistune 0.8.4
mleap 0.18.1 mlflow versione leggera 1.24.0 multimetodo 1.7
algoritmo di hashing murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
nltk (Natural Language Toolkit) 3.6.1 taccuino 6.3.0 nmbalo 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
imballaggio 21,3 Panda 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
patia 0.6.0 vittima 0.5.1 Petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare (libreria di software Python) 0.7.5
Cuscino 8.2.0 seme 21.0.1 plotly (software di visualizzazione dati) 5.5.0
pmdarima 1.8.4 (Note: Without context, a definitive improved translation cannot be accurately proposed). 3.0.5 prompt-toolkit 3.0.17
profeta 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.1
pycparser (un parser scritto in Python) 2.20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil (libreria Python per la gestione delle date) 2.8.1
Editor di Python 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 richieste 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 RSA 4.7.2
s3transfer 0.3.7 sacrimoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 Seaborn 0.11.1 Send2Trash 1.5.0
setuptools (pacchetto Python per gestire la configurazione e la distribuzione) 52.0.0 setuptools-git 1,2 forma 0.40.0
simplejson 3.17.2 sei 1.15.0 strumento di taglio 0.0.7
smart-open 5.2.0 smmap 3.0.5 spazioso 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 seriamente? 2.4.1 ssh-import-id (comando per l'importazione di chiavi SSH) 5.10
statsmodels 0.12.2 tabellare 0.8.7 aggrovigliato-up-in-unicode 0.1.0
tenacità 6.2.0 TensorBoard 2.8.0 server di dati di TensorBoard 0.6.1
plugin di profilazione per tensorboard 2.5.0 tensorboard-plugin-wit 1.8.1 TensorFlow 2.8.0
Stima di tensore tensorflow 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor 1.1.0
finito 0.9.4 percorso di prova 0.4.4 tf-estimator-nightly 2.8.0.dev2021122109
thinc 8.0.12 threadpoolctl 2.1.0 tokenizzatori 0.10.3
torcia 1.10.2+cu111 visione della torcia 0.11.3+cu111 tornado 6.1
tqdm 4.59.0 traitlets (una libreria per la configurazione dei parametri nei programmi Python) 5.0.5 trasformatori 4.16.2
Typer 0.3.2 tipizzazione di estensioni 3.7.4.3 ujson (una libreria per la gestione di JSON in Python) 4.0.2
aggiornamenti non supervisionati 0,1 urllib3 1.25.11 virtualenv 20.4.1
Visioni 0.7.4 wasabi 0.8.2 wcwidth (funzione per determinare la larghezza dei caratteri) 0.2.5
codifiche web 0.5.1 cliente WebSocket 0.57.0 Attrezzo 1.0.1
ruota 0.36.2 widgetsnbextension 3.5.1 rapito 1.12.1
xgboost 1.5.2 Zipp 3.4.1

Pacchetti Spark contenenti moduli Python

Pacchetto Spark Modulo Python Versione
GraphFrames GraphFrames 0.8.2-db1-spark3.2

Librerie R

Le librerie R sono identiche alle librerie R in Databricks Runtime 10.4 LTS.

Librerie Java e Scala (cluster Scala 2.12)

Oltre alle librerie Java e Scala in Databricks Runtime 10.4 LTS, Databricks Runtime 10.4 LTS ML contiene i file JAR seguenti:

Cluster di CPU

ID del Gruppo ID dell'artefatto Versione
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Cluster di GPU

ID del Gruppo ID dell'artefatto Versione
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0