Databricks Runtime 10.5 per Machine Learning (non supportato)
Databricks Runtime 10.5 per Machine Learning offre un ambiente pronto per l'apprendimento automatico e l'analisi scientifica dei dati basata su Databricks Runtime 10.5 (non supportato). Databricks Runtime ML contiene molte librerie di Machine Learning più diffuse, tra cui TensorFlow, PyTorch e XGBoost. Databricks Runtime ML include AutoML, uno strumento per eseguire automaticamente il training delle pipeline di Machine Learning. Databricks Runtime ML supporta anche il training di Deep Learning distribuito usando Horovod.
Per altre informazioni, incluse le istruzioni per la creazione di un cluster Databricks Runtime ML, vedere Intelligenza artificiale e Machine Learning in Databricks.
Miglioramenti e nuove funzionalità
Databricks Runtime 10.5 ML è basato su Databricks Runtime 10.5. Per informazioni sulle novità di Databricks Runtime 10.5, tra cui Apache Spark MLlib e SparkR, vedere le note sulla versione di Databricks Runtime 10.5 (non supportate).
Miglioramenti a Databricks AutoML
Sono stati apportati i miglioramenti seguenti a Databricks AutoML.
- Miglioramento dell'utilizzo della memoria consente a AutoML di eseguire il training su set di dati di dimensioni maggiori.
- Con la previsione autoML, è ora possibile esportare le stime del modello migliore in una tabella usando l'API. Se
output_database
viene specificato, AutoML salva le stime del modello migliore in una nuova tabella nel database specificato. Le stime non vengono salvate seoutput_database
non viene specificato.
Miglioramenti all'archivio funzionalità di Databricks
Sono stati apportati i miglioramenti seguenti all'archivio funzionalità di Databricks.
- È ora possibile eliminare una tabella delle funzionalità esistente con l'API
drop_table
. Questa azione elimina anche la tabella Delta sottostante. - È ora possibile usare l'API Python per aggiungere un tag a una tabella delle funzionalità quando viene creato o registrato e per aggiungere, aggiornare, eliminare o leggere tag nelle tabelle delle funzionalità esistenti.
Ambiente di sistema
L'ambiente di sistema in Databricks Runtime 10.5 ML differisce da Databricks Runtime 10.5 come indicato di seguito:
- DBUtils: Databricks Runtime ML non include l'utilità libreria (dbutils.library) (legacy)..
Usare
%pip
invece i comandi. Vedere Librerie Python con ambito notebook. - Per i cluster GPU, Databricks Runtime ML include le librerie GPU NVIDIA seguenti:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Librerie
Le sezioni seguenti elencano le librerie incluse in Databricks Runtime 10.5 ML che differiscono da quelle incluse in Databricks Runtime 10.5.
Contenuto della sezione:
Librerie di livello superiore
Databricks Runtime 10.5 ML include le librerie di livello superiore seguenti:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Librerie Python
Databricks Runtime 10.5 ML usa Virtualenv per la gestione dei pacchetti Python e include molti pacchetti di Machine Learning più diffusi.
Oltre ai pacchetti specificati nelle sezioni seguenti, Databricks Runtime 10.5 ML include anche i pacchetti seguenti:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db6
- feature_store 0.4.1
- automl 1.8.0
Librerie Python nei cluster CPU
Libreria | Versione | Libreria | Versione | Libreria | Versione |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.7 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | Catalogo | 2.0.7 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | Clic | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.4.0 | Crittografia | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.7 |
databricks-cli | 0.16.4 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.4.0 | distlib | 0.3.4 | informazioni sulla distribuzione | 0.23ubuntu1 |
entrypoints | 0,3 | ephem | 4.1.3 | facet-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.3 | festività | 0,13 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.5.1 |
idna | 2.10 | ImageHash | 4.2.1 | sbilanciato-learn | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Pre-elaborazione keras | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
coreano-lunare-calendario | 0.2.1 | langcodes | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimethod | 1.8 |
mormurhash | 1.0.6 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
creazione del pacchetto | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
patia | 0.6.1 | patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.2 | pickleshare | 0.7.5 |
Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.6.0 |
pmdarima | 1.8.5 | preshed | 3.0.6 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | Profeta | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.9.2 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.5.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pirsistente | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
requests | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.8 | s3transfer | 0.3.7 | sacrimoses | 0.0.49 |
scikit-learn | 0.24.1 | Scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.40.0 | simplejson | 3.17.2 | sei | 1.15.0 |
filtro dei dati | 0.0.7 | smart-open | 5.2.1 | smmap | 3.0.5 |
Spacy | 3.2.3 | spacy-legacy | 3.0.9 | spacy-logger | 1.0.2 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.3 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulate | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 | tensorboard | 2.8.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.8.0 | tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
tf-estimator-nightly | 2.8.0.dev2021122109 | thinc | 8.0.15 | threadpoolctl | 2.1.0 |
tokenizer | 0.12.1 | Torcia | 1.10.2+CPU | torchvision | 0.11.3+CPU |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
Trasformatori | 4.17.0 | Typer | 0.4.1 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | aggiornamenti automatici | 0,1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | Visioni | 0.7.4 | Wasabi | 0.9.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | wheel | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.5.2 | zipp | 3.4.1 |
Librerie Python nei cluster GPU
Libreria | Versione | Libreria | Versione | Libreria | Versione |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.7 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | Catalogo | 2.0.7 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | Clic | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.4.0 | Crittografia | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.7 |
databricks-cli | 0.16.4 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.4.0 | distlib | 0.3.4 | informazioni sulla distribuzione | 0.23ubuntu1 |
entrypoints | 0,3 | ephem | 4.1.3 | facet-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.3 | festività | 0,13 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.5.1 |
idna | 2.10 | ImageHash | 4.2.1 | sbilanciato-learn | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Pre-elaborazione keras | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
coreano-lunare-calendario | 0.2.1 | langcodes | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimethod | 1.8 |
mormurhash | 1.0.6 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
creazione del pacchetto | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
patia | 0.6.1 | patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.2 | pickleshare | 0.7.5 |
Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.6.0 |
pmdarima | 1.8.5 | preshed | 3.0.6 | prompt-toolkit | 3.0.17 |
Profeta | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.2 |
pycparser | 2,20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.5.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pirsistente | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | requests | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.8 |
s3transfer | 0.3.7 | sacrimoses | 0.0.49 | scikit-learn | 0.24.1 |
Scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.40.0 |
simplejson | 3.17.2 | sei | 1.15.0 | filtro dei dati | 0.0.7 |
smart-open | 5.2.1 | smmap | 3.0.5 | Spacy | 3.2.3 |
spacy-legacy | 3.0.9 | spacy-logger | 1.0.2 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | srsly | 2.4.3 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 |
tenacity | 6.2.0 | tensorboard | 2.8.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.8.0 |
tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
terminado | 0.9.4 | testpath | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021122109 |
thinc | 8.0.15 | threadpoolctl | 2.1.0 | tokenizer | 0.12.1 |
Torcia | 1.10.2+cu113 | torchvision | 0.11.3+cu113 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | Trasformatori | 4.17.0 |
Typer | 0.4.1 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
aggiornamenti automatici | 0,1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
Visioni | 0.7.4 | Wasabi | 0.9.1 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
wheel | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.5.2 | zipp | 3.4.1 |
Pacchetti Spark contenenti moduli Python
Pacchetto Spark | Modulo Python | Versione |
---|---|---|
grafici | grafici | 0.8.2-db1-spark3.2 |
Librerie R
Le librerie R sono identiche alle librerie R in Databricks Runtime 10.5.
Librerie Java e Scala (cluster Scala 2.12)
Oltre alle librerie Java e Scala in Databricks Runtime 10.5, Databricks Runtime 10.5 ML contiene i file JAR seguenti:
Cluster CPU
ID gruppo | ID artefatto | Versione |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Cluster GPU
ID gruppo | ID artefatto | Versione |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |