Databricks Runtime 10.4 LTS per Machine Learning

Databricks Runtime 10.4 LTS per Machine Learning offre un ambiente pronto per l'apprendimento automatico e l'analisi scientifica dei dati basato su Databricks Runtime 10.4 LTS. Databricks Runtime ML contiene molte librerie di Machine Learning più diffuse, tra cui TensorFlow, PyTorch e XGBoost. Databricks Runtime ML include AutoML, uno strumento per eseguire automaticamente il training delle pipeline di Machine Learning. Databricks Runtime ML supporta anche il training di Deep Learning distribuito usando Horovod.

Nota

LTS indica che questa versione è supportata a lungo termine. Vedere Ciclo di vita della versione LTS di Databricks Runtime.

Per altre informazioni, incluse le istruzioni per la creazione di un cluster Databricks Runtime ML, vedere Intelligenza artificiale e Machine Learning in Databricks.

Miglioramenti e nuove funzionalità

Databricks Runtime 10.4 LTS ML è basato su Databricks Runtime 10.4 LTS. Per informazioni sulle novità di Databricks Runtime 10.4 LTS, tra cui Apache Spark MLlib e SparkR, vedere le note sulla versione di Databricks Runtime 10.4 LTS .

Miglioramenti a Databricks AutoML

Sono stati apportati i miglioramenti seguenti a Databricks AutoML.

Databricks AutoML è disponibile a livello generale

A partire da Databricks Runtime 10.4 LTS ML, Databricks AutoML è disponibile a livello generale.

Imputazione di valori mancanti

È ora possibile specificare la modalità di immissione dei valori Null. Per impostazione predefinita, AutoML seleziona un metodo di imputazione in base al tipo di colonna e al contenuto. Vedere Imputazione di valori mancanti.

Selezione di colonne dall'interfaccia utente

Per problemi di classificazione e regressione, è ora possibile usare l'interfaccia utente oltre all'API per specificare le colonne che AutoML deve ignorare durante i calcoli. Per informazioni dettagliate, vedere Selezione di colonne.

Nuovo tipo di dati

AutoML supporta ora i tipi di matrice numerici.

Percorso personalizzato dei notebook generati e dell'esperimento

È ora possibile specificare un percorso nell'area di lavoro in cui AutoML deve salvare i notebook e gli esperimenti generati. Usare il experiment_dir parametro . Vedere Parametri di classificazione e regressione.

Miglioramenti all'archivio funzionalità di Databricks

Sono stati apportati i miglioramenti seguenti all'archivio funzionalità di Databricks.

  • È ora possibile registrare una tabella Delta esistente come tabella delle funzionalità.

Ambiente di sistema

L'ambiente di sistema in Databricks Runtime 10.4 LTS ML differisce da Databricks Runtime 10.4 LTS come indicato di seguito:

Librerie

Le sezioni seguenti elencano le librerie incluse in Databricks Runtime 10.4 LTS ML che differiscono da quelle incluse in Databricks Runtime 10.4 LTS.

Contenuto della sezione:

Librerie di livello superiore

Databricks Runtime 10.4 LTS ML include le librerie di livello superiore seguenti:

Librerie Python

Databricks Runtime 10.4 LTS ML usa Virtualenv per la gestione dei pacchetti Python e include molti pacchetti ml più diffusi.

Oltre ai pacchetti specificati nelle sezioni seguenti, Databricks Runtime 10.4 LTS ML include anche i pacchetti seguenti:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

Librerie Python nei cluster CPU

Per riprodurre l'ambiente Python di Machine Learning di Databricks Runtime nell'ambiente virtuale Python locale, scaricare il file requirements-10.4.txt ed eseguire pip install -r requirements-10.4.txt. Questo comando installa tutte le librerie open source usate da Databricks Runtime ML, ma non installa librerie sviluppate da Azure Databricks, ad esempio databricks-automl, databricks-feature-storeo il fork di Databricks di hyperopt.

Libreria Versione Libreria Versione Libreria Versione
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Catalogo 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 Clic 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Crittografia 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
decorator 5.0.6 defusedxml 0.7.1 dill 0.3.2
diskcache 5.2.1 distlib 0.3.4 informazioni sulla distribuzione 0.23ubuntu1
entrypoints 0,3 ephem 4.1.3 facet-overview 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 festività 0.12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 sbilanciato-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.8.0
Pre-elaborazione keras 1.1.2 kiwisolver 1.3.1 koalas 1.8.2
coreano-lunare-calendario 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimethod 1,7
mormurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
creazione del pacchetto 21.3 pandas 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
patia 0.6.0 patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Pillow 8.2.0 pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 preshed 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 Profeta 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.1 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pirsistente 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
requests 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacrimoses 0.0.46
scikit-learn 0.24.1 Scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
shap 0.40.0 simplejson 3.17.2 sei 1.15.0
filtro dei dati 0.0.7 smart-open 5.2.0 smmap 3.0.5
Spacy 3.2.1 spacy-legacy 3.0.8 spacy-logger 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
tangled-up-in-unicode 0.1.0 tenacity 6.2.0 tensorboard 2.8.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.8.0 tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
tf-estimator-nightly 2.8.0.dev2021122109 thinc 8.0.12 threadpoolctl 2.1.0
tokenizer 0.10.3 Torcia 1.10.2+CPU torchvision 0.11.3+CPU
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
Trasformatori 4.16.2 Typer 0.3.2 typing-extensions 3.7.4.3
ujson 4.0.2 aggiornamenti automatici 0,1 urllib3 1.25.11
virtualenv 20.4.1 Visioni 0.7.4 Wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.5.2 zipp 3.4.1

Librerie Python nei cluster GPU

Libreria Versione Libreria Versione Libreria Versione
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 Catalogo 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 Clic 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 Crittografia 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
decorator 5.0.6 defusedxml 0.7.1 dill 0.3.2
diskcache 5.2.1 distlib 0.3.4 informazioni sulla distribuzione 0.23ubuntu1
entrypoints 0,3 ephem 4.1.3 facet-overview 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 festività 0.12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 sbilanciato-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.8.0
Pre-elaborazione keras 1.1.2 kiwisolver 1.3.1 koalas 1.8.2
coreano-lunare-calendario 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimethod 1,7
mormurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
creazione del pacchetto 21.3 pandas 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
patia 0.6.0 patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Pillow 8.2.0 pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 preshed 3.0.5 prompt-toolkit 3.0.17
Profeta 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.1
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pirsistente 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil 2.8.1
python-editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 requests 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacrimoses 0.0.46 scikit-learn 0.24.1
Scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.40.0
simplejson 3.17.2 sei 1.15.0 filtro dei dati 0.0.7
smart-open 5.2.0 smmap 3.0.5 Spacy 3.2.1
spacy-legacy 3.0.8 spacy-logger 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabulate 0.8.7 tangled-up-in-unicode 0.1.0
tenacity 6.2.0 tensorboard 2.8.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.8.0
tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 tf-estimator-nightly 2.8.0.dev2021122109
thinc 8.0.12 threadpoolctl 2.1.0 tokenizer 0.10.3
Torcia 1.10.2+cu111 torchvision 0.11.3+cu111 tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 Trasformatori 4.16.2
Typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
aggiornamenti automatici 0,1 urllib3 1.25.11 virtualenv 20.4.1
Visioni 0.7.4 Wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
wheel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.2 zipp 3.4.1

Pacchetti Spark contenenti moduli Python

Pacchetto Spark Modulo Python Versione
grafici grafici 0.8.2-db1-spark3.2

Librerie R

Le librerie R sono identiche alle librerie R in Databricks Runtime 10.4 LTS.

Librerie Java e Scala (cluster Scala 2.12)

Oltre alle librerie Java e Scala in Databricks Runtime 10.4 LTS, Databricks Runtime 10.4 LTS ML contiene i file JAR seguenti:

Cluster CPU

ID gruppo ID artefatto Versione
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Cluster GPU

ID gruppo ID artefatto Versione
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0