Databricks Runtime 10.4 LTS para Machine Learning

Databricks Runtime 10.4 LTS para Machine Learning proporciona un entorno listo para usar, de aprendizaje automático y ciencia de datos, basado en Databricks Runtime 10.4 LTS. Databricks Runtime ML contiene muchas bibliotecas populares de aprendizaje automático, incluidas TensorFlow, PyTorch y XGBoost. Databricks Runtime ML incluye AutoML, una herramienta para entrenar automáticamente canalizaciones de aprendizaje automático. Databricks Runtime ML también admite el entrenamiento de aprendizaje profundo distribuido mediante Horovod.

Nota:

LTS significa que esta versión tiene soporte técnico a largo plazo. Consulte Ciclo de vida de la versión de Databricks Runtime LTS.

Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y Machine Learning en Databricks.

Nuevas características y mejoras

Databricks Runtime 10.4 LTS ML se basa en Databricks Runtime 10.4 LTS. Para más información sobre las novedades de Databricks Runtime 10.4 LTS, incluidos Apache Spark MLlib y SparkR, consulte las notas de la versión de Databricks Runtime 10.4 LTS.

Mejoras en Databricks AutoML

Se han realizado las siguientes mejoras en Databricks AutoML.

Databricks AutoML está disponible con carácter general

Databricks AutoML está disponible con carácter general a partir de Databricks Runtime 10.4 LTS ML.

Imputación de valores que faltan

Ahora puede especificar cómo se imputan los valores NULL. De forma predeterminada, AutoML selecciona un método de imputación basado en el tipo de columna y el contenido. Consulte Imputación de valores que faltan.

Selección de columnas desde la interfaz de usuario

Para problemas de clasificación y regresión, ahora puede usar la interfaz de usuario además de la API a fin de especificar las columnas que AutoML debe omitir durante sus cálculos. Consulte Selección de columnas para obtener más información.

Nuevo tipo de datos

AutoML ahora admite tipos de matrices numéricas.

Ubicación personalizada de experimentos y cuadernos generados

Ahora puede especificar una ubicación en el área de trabajo donde AutoML debe guardar los experimentos y cuadernos generados. Utilice el parámetro experiment_dir. Consulte Parámetros de clasificación y regresión.

Mejoras en el Almacén de características de Databricks

Se han realizado las siguientes mejoras en el Almacén de características de Databricks.

  • Ahora puede registrar una tabla Delta existente como tabla de características.

Entorno del sistema

El entorno del sistema de Databricks Runtime 10.4 LTS ML se diferencia del de Databricks Runtime 10.4 LTS en lo siguiente:

Bibliotecas

En las secciones siguientes se enumeran las bibliotecas incluidas en Databricks Runtime 10.4 LTS ML, que difieren de las incluidas en Databricks Runtime 10.4 LTS.

En esta sección:

Bibliotecas de nivel superior

Databricks Runtime 10.4 LTS ML incluye las siguientes bibliotecas de nivel superior:

Bibliotecas de Python

Databricks Runtime 10.4 LTS ML usa Virtualenv para la administración de paquetes de Python e incluye muchos paquetes de ML populares.

Además de los paquetes especificados en las secciones siguientes, Databricks Runtime 10.4 LTS ML también incluye los paquetes siguientes:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

Bibliotecas de Python en clústeres de CPU

Para reproducir el entorno de Python de Databricks Runtime ML en el entorno virtual local de Python, descargue el archivo requirements-10.4.txt y ejecute pip install -r requirements-10.4.txt. Este comando instala todas las bibliotecas de código abierto que usa Databricks Runtime ML, pero no instala bibliotecas desarrolladas de Azure Databricks, como databricks-automl, databricks-feature-store o la bifurcación de Databricks de hyperopt.

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogue 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 click 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 criptografía 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
decorator 5.0.6 defusedxml 0.7.1 dill 0.3.2
diskcache 5.2.1 distlib 0.3.4 distro-info 0.23ubuntu1
entrypoints 0,3 ephem 4.1.3 facets-overview 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 vacaciones 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 imbalanced-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.8.0
keras-preprocessing 1.1.2 kiwisolver 1.3.1 koalas 1.8.2
korean-lunar-calendar 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimethod 1.7
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
empaquetado 21,3 pandas 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Pillow 8.2.0 pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 preshed 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 prophet 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.1 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
Python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
Solicitudes 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
shap 0.40.0 simplejson 3.17.2 six (seis) 1.15.0
segmentación 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
tangled-up-in-unicode 0.1.0 tenacity 6.2.0 tensorboard 2.8.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.8.0 tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
tf-estimator-nightly 2.8.0.dev2021122109 thinc 8.0.12 threadpoolctl 2.1.0
tokenizers 0.10.3 torch 1.10.2+cpu torchvision 0.11.3+cpu
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
transformadores 4.16.2 typer 0.3.2 typing-extensions 3.7.4.3
ujson 4.0.2 unattended-upgrades 0,1 urllib3 1.25.11
virtualenv 20.4.1 visions 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 wheel 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.5.2 zipp 3.4.1

Bibliotecas de Python en clústeres de GPU

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogue 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 click 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 criptografía 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
decorator 5.0.6 defusedxml 0.7.1 dill 0.3.2
diskcache 5.2.1 distlib 0.3.4 distro-info 0.23ubuntu1
entrypoints 0,3 ephem 4.1.3 facets-overview 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 vacaciones 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 imbalanced-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.8.0
keras-preprocessing 1.1.2 kiwisolver 1.3.1 koalas 1.8.2
korean-lunar-calendar 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimethod 1.7
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
empaquetado 21,3 pandas 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Pillow 8.2.0 pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 preshed 3.0.5 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.1
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 Python-dateutil 2.8.1
python-editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 Solicitudes 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.40.0
simplejson 3.17.2 six (seis) 1.15.0 segmentación 0.0.7
smart-open 5.2.0 smmap 3.0.5 spacy 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabulate 0.8.7 tangled-up-in-unicode 0.1.0
tenacity 6.2.0 tensorboard 2.8.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.8.0
tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 tf-estimator-nightly 2.8.0.dev2021122109
thinc 8.0.12 threadpoolctl 2.1.0 tokenizers 0.10.3
torch 1.10.2+cu111 torchvision 0.11.3+cu111 tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 transformadores 4.16.2
typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
unattended-upgrades 0,1 urllib3 1.25.11 virtualenv 20.4.1
visions 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
wheel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.2 zipp 3.4.1

Paquetes de Spark que contienen módulos de Python

Paquete de Spark Módulo de Python Versión
graphframes graphframes 0.8.2-db1-spark3.2

Bibliotecas de R

Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 10.4 LTS.

Bibliotecas de Java y Scala (clúster de Scala 2.12)

Además de las bibliotecas de Java y Scala de Databricks Runtime 10.4 LTS, Databricks Runtime 10.4 LTS ML contiene los siguientes archivos JAR:

Clústeres de CPU

Identificador de grupo Identificador de artefacto Versión
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clústeres de GPU

Identificador de grupo Identificador de artefacto Versión
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0