Databricks Runtime 9.1 LTS para Machine Learning

2025-06-22

Databricks publicó esta imagen y la declaró soporte a largo plazo (LTS) en septiembre de 2021.

Databricks Runtime 9.1 LTS for Machine Learning proporciona un entorno listo parato-go para el aprendizaje automático y la ciencia de datos basado en Databricks Runtime 9.1 LTS. Databricks Runtime ML contiene muchas bibliotecas de aprendizaje automático populares, como TensorFlow, PyTorch y XGBoost. Databricks Runtime ML incluye AutoML, una herramienta para entrenar automáticamente canalizaciones de aprendizaje automático. Databricks Runtime ML también admite el entrenamiento de aprendizaje profundo distribuido mediante Horovod.

Nota:

LTS significa que esta versión tiene soporte técnico a largo plazo. Consulte el Ciclo de vida de la versión LTS de Databricks Runtime.

Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.

Sugerencia

Para ver las notas de las versiones de Databricks Runtime que han llegado al fin de soporte (EoS), consulte las Notas de lanzamiento de fin de soporte de Databricks Runtime. Las versiones de EoS Databricks Runtime se han retirado y es posible que no se actualicen.

Nuevas características y mejoras

AutoML (aprendizaje automático automatizado)

Las siguientes mejoras están disponibles en Databricks Runtime 9.1 LTS ML y versiones posteriores.

AutoML admite conjuntos de datos más grandes mediante muestreo

AutoML ahora muestrea conjuntos de datos que podrían superar las restricciones de memoria, lo que le permite ejecutarse en conjuntos de datos más grandes con menos riesgo de errores de memoria insuficiente. Para más información, consulte Muestreo de conjuntos de datos grandes.

AutoML preprocesa columnas en función del tipo semántico

AutoML detecta determinadas columnas que tienen un tipo semántico que difiere de su tipo de datos Spark o pandas. A continuación, AutoML convierte y aplica los pasos de preprocesamiento de datos en función del tipo semántico detectado. En concreto, AutoML realiza las siguientes conversiones:

Las columnas de cadena y enteros que representan datos de fecha o marca de tiempo se convierten en un tipo de marca de tiempo.
Las columnas de cadena que representan datos numéricos se convierten en un tipo numérico.

Mejoras en los blocs de notas generados por AutoML

Los pasos de preprocesamiento para las columnas de fecha y marca de tiempo ahora se incorporan en el databricks-automl-runtime paquete, lo que simplifica los cuadernos generados por el entrenamiento de AutoML. databricks-automl-runtimese incluye en Databricks Runtime 9.1 LTS ML y versiones posteriores, y también está disponible en PyPI.

Almacén de características

Las siguientes mejoras están disponibles en Databricks Runtime 9.1 LTS ML y versiones posteriores.

Al crear un TrainingSet, ahora puede configurarlo label=None para que admita aplicaciones de aprendizaje no supervisado.
Ahora puede especificar más de una entidad en un solo FeatureLookuparchivo .
Ahora puede especificar una ruta personalizada para las tablas de características. Utilice el path parámetro en create_feature_table(). El valor predeterminado es la ubicación de la base de datos.
Nuevos tipos de datos de PySpark compatibles: ArrayType y ShortType.

MLflow

Las siguientes mejoras están disponibles a partir de la versión 1.20.2 de Mlflow, que se incluye en Databricks Runtime 9.1 LTS ML.

El registro automático de scikit-learn ahora registra las métricas posteriores al entrenamiento cada vez que se llama a una API de evaluación de scikit-learn, como sklearn.metrics.mean_squared_error.
El registro automático para PySpark ML ahora registra las métricas posteriores al entrenamiento cada vez que se llama a una API de evaluación de modelos, como Evaluator.evaluate().
mlflow.*.log_model y mlflow.*.save_model ahora tiene pip_requirements argumentos y extra_pip_requirements para que pueda especificar directamente los requisitos pip del modelo para registrar o guardar.
mlflow.*.log_model y mlflow.*.save_model ahora infiere automáticamente los requisitos de pip del modelo para registrar o guardar en función del entorno de software actual.
stdMetrics Las entradas ahora se registran como métricas de entrenamiento durante el registro automático de PySpark CrossValidator.
El registro automático de PyTorch Lightning ahora admite la ejecución distribuida.

Registro automático de Databricks (Versión preliminar pública)

La versión preliminar pública de Databricks Autologging se ha expandido a nuevas regiones. El Registro automático de Databricks es una solución sin código que proporciona seguimiento automático de experimentos, para sesiones de entrenamiento de aprendizaje automático en Azure Databricks. Con el Registro automático de Databricks, los parámetros del modelo, las métricas, los archivos y la información del linaje se capturan automáticamente, al entrenar modelos a partir de una serie de bibliotecas populares de aprendizaje automático. Las sesiones de entrenamiento se registran como ejecuciones de seguimiento de MLflow. También se realiza un seguimiento de los archivos del modelo, para poder registrarlos fácilmente en el registro de modelos de MLflow e implementarlos para realizar una puntuación en tiempo real, con el Servicio de modelo de MLflow.

Para más información sobre el Registro automático de Databricks, consulte Registro automático de Databricks.

Cambios importantes en el entorno de Python de Databricks Runtime ML

Paquetes de Python actualizados

AutoML 1.1.1 => 1.2.1
feature_store 0,3,3 => 0,3,4.1
días festivos 0.10.5.2 => 0.11.2
KERAS 2.5.0 => 2.6.0
mlflow 1.19.0 => 1.20.2
petastorm 0.11.1 => 0.11.2
4.14.3 => 5.1.0
spark-tensorflow-distributor 0.1.0 => 1.0.0
Sparkdl 2.2.0_db1 => 2.2.0_db3
Tensorboard 2.5.0 => 2.6.0
tensorflow 2.5.0 => 2.6.0

Paquetes de Python agregados

databricks-automl-runtime 0.1.0

Entorno del sistema

El entorno del sistema en Databricks Runtime 9.1 LTS ML difiere de Databricks Runtime 9.1 LTS de la siguiente manera:

DBUtils: Databricks Runtime ML no incluye la utilidad de biblioteca (dbutils.library) (heredada). Use comandos %pip en su lugar. Consulte Bibliotecas específicas de Python para Notebook.
En el caso de los clústeres de GPU, Databricks Runtime ML incluye las siguientes bibliotecas de GPU de NVIDIA:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2

Bibliotecas

En las secciones siguientes se enumeran las bibliotecas incluidas en Databricks Runtime 9.1 LTS ML que difieren de las incluidas en Databricks Runtime 9.1 LTS.

En esta sección:

Bibliotecas de nivel superior
Bibliotecas de Python
Bibliotecas de R
Bibliotecas de Java y Scala (clúster de Scala 2.12)

Bibliotecas de nivel superior

Databricks Runtime 9.1 LTS ML incluye las siguientes bibliotecas de nivel superior:

AutoML
GraphFrames
Horovod y HorovodRunner
MLflow
PyTorch
spark-tensorflow-connector (conector para Spark y TensorFlow)
TensorFlow
TensorBoard

Bibliotecas de Python

Databricks Runtime 9.1 LTS ML usa Virtualenv para la administración de paquetes de Python e incluye muchos paquetes de ML populares.

Además de los paquetes especificados en las secciones siguientes, Databricks Runtime 9.1 LTS ML también incluye los siguientes paquetes:

hyperopt 0.2.5.db2
sparkdl 2.2.0_db3
feature_store 0.3.4.1
AutoML 1.2.1

Bibliotecas de Python en clústeres de CPU

Biblioteca	Versión	Biblioteca	Versión	Biblioteca	Versión
absl-py	0.11.0	Antergos Linux	2015.10 (ISO-Rolling)	directorios de aplicaciones	1.4.4
argon2-cffi	20.1.0	Ástor	0.8.1	astunparse	1.6.3
generador asíncrono	1.10	atributos	20.3.0	Llamada trasera	0.2.0
bcrypt	3.2.0	blanquear	3.3.0	boto3	1.16.7
botocore	1.19.7	Embotellamiento	1.3.2	cachetools	4.2.2
certifi	2020.12.5	cffi	1.14.5	chardet	4.0.0
Estruendo	5.0	Haz clic	7.1.2	cloudpickle	1.6.0
cmdstanpy	0.9.68	configparser	5.0.1	convertdate	2.3.2
criptografía	3.4.7	ciclista	0.10.0	Cython	0.29.23
databricks-automl-runtime	0.1.0	databricks-cli	0.14.3	dbus-python	1.2.16
decorador	5.0.6	defusedxml	0.7.1	eneldo	0.3.2
diskcache	5.2.1	distlib	0.3.2	distro-info	0.23ubuntu1
puntos de entrada	0,3	eméhem	4.0.0.2	visión general de las facetas	1.0.0
bloqueo de archivos	3.0.12	Matraz	1.1.2	flatbuffers	1.12
fsspec	0.9.0	futuro	0.18.2	Gast	0.4.0
gitdb	4.0.7	GitPython	3.1.12	autenticación de Google	1.22.1
google-auth-oauthlib	0.4.2	google-pasta	0.2.0	grpcio	1.39.0
gunicorn	20.0.4	h5py	3.1.0	hijri-converter	2.2.1
vacaciones	0.11.2	Horovod	0.22.1	htmlmin	0.1.12
idna	2.10	Hash de imagen	4.2.1	importlib-metadata	3.10.0
ipykernel	5.3.4	ipython	7.22.0	ipython-genutils	0.2.0
ipywidgets	7.6.3	isodate	0.6.0	Es peligroso	1.1.0
Jedi	0.17.2	Jinja2	2.11.3	jmespath	0.10.0
joblib	1.0.1	joblibspark	0.3.0	jsonschema	3.2.0
Cliente Jupyter	6.1.12	jupyter-core	4.7.1	jupyterlab-pygments	0.1.2
jupyterlab-widgets	1.0.0	keras	2.6.0	Keras-Preprocessing	1.1.2
kiwisolver	1.3.1	Koalas	1.8.1	calendario lunar coreano	0.2.1
lightgbm	3.1.1	llvmlite	0.37.0	Calendario Lunar	0.0.9
Mako	1.1.3	Descuento	3.3.3	MarkupSafe	1.1.1
matplotlib	3.4.2	missingno	0.5.0	Mal sintonizado	0.8.4
mleap	0.17.0	mlflow-skinny	1.20.2	Multimétodo	1.4
nbclient	0.5.3	nbconvert	6.0.7	nbformat	5.1.3
nest-asyncio	1.5.1	networkx	2,5	NLTK	3.6.1
cuaderno	6.3.0	entumecida	0.54.0	numpy	1.19.2
oauthlib	3.1.0	opt-einsum	3.3.0	embalaje	20.9
Pandas	1.2.4	pandas-profiling	3.0.0	pandocfilters	1.4.3
paramiko	2.7.2	parso	0.7.0	Patsy	0.5.1
petastorm	0.11.2	pexpect	4.8.0	phik	0.12.0
pickleshare	0.7.5	Almohada	8.2.0	pepita	21.0.1
trazado	5.1.0	Cliente-Prometeo	0.10.1	prompt-toolkit	3.0.17
profeta	1.0.1	protobuf	3.17.2	psutil	5.8.0
psycopg2	2.8.5	ptyprocess	0.7.0	pyarrow	4.0.0
pyasn1	0.4.8	pyasn1-modules	0.2.8	pycparser	2,20
pydantic	1.8.2	Pygments	2.8.1	PyGObject	3.36.0
PyMeeus	0.5.11	PyNaCl	1.3.0	pyodbc	4.0.30
pyparsing	2.4.7	pyrsistent	0.17.3	pystan	2.19.1.1
python-apt	2.0.0+ubuntu0.20.4.6	Python-dateutil	2.8.1	editor de Python	1.0.4
pytz	2020.5	PyWavelets	1.1.1	PyYAML	5.4.1
pyzmq	20.0.0	regex	2021.4.4	solicitudes	2.25.1
requests-oauthlib	1.3.0	requests-unixsocket	0.2.0	RSA	4.7.2
s3transfer	0.3.7	scikit-learn	0.24.1	scipy	1.6.2
biblioteca de visualización de datos de Python llamada seaborn	0.11.1	Send2Trash	1.5.0	setuptools	52.0.0
setuptools-git	1.2	Shap	0.39.0	simplejson	3.17.2
Seis	1.15.0	rebanador	0.0.7	smmap	3.0.5
spark-tensorflow-distributor	1.0.0	sqlparse	0.4.1	ssh-import-id	5.10
statsmodels (paquete de Python para análisis estadístico)	0.12.2	tabular	0.8.7	enredado-up-in-unicode	0.1.0
tenacidad	6.2.0	Tablero tensorizado	2.6.0	servidor-de-datos-de-tensorboard	0.6.1
tensorboard-plugin-wit	1.8.0	tensorflow-cpu	2.6.0	Estimador de TensorFlow	2.6.0
termcolor	1.1.0	terminado	0.9.4	ruta de prueba	0.4.4
threadpoolctl	2.1.0	antorcha	1.9.0+cpu	antorcha	0.10.0+cpu
tornado	6.1	tqdm	4.59.0	traitlets	5.0.5
extensiones de escritura	3.7.4.3	ujson	4.0.2	actualizaciones automáticas sin supervisión	0,1
urllib3	1.25.11	virtualenv	20.4.1	Visiones	0.7.1
wcwidth	0.2.5	codificaciones web	0.5.1	cliente de websocket	0.57.0
Werkzeug	1.0.1	rueda	0.36.2	widgetsnbextension	3.5.1
wrapt	1.12.1	xgboost	1.4.2	zipp	3.4.1

Bibliotecas de Python en clústeres de GPU

Biblioteca	Versión	Biblioteca	Versión	Biblioteca	Versión
absl-py	0.11.0	Antergos Linux	2015.10 (ISO-Rolling)	directorios de aplicaciones	1.4.4
argon2-cffi	20.1.0	Ástor	0.8.1	astunparse	1.6.3
generador asíncrono	1.10	atributos	20.3.0	Llamada trasera	0.2.0
bcrypt	3.2.0	blanquear	3.3.0	boto3	1.16.7
botocore	1.19.7	Embotellamiento	1.3.2	cachetools	4.2.2
certifi	2020.12.5	cffi	1.14.5	chardet	4.0.0
Estruendo	5.0	Haz clic	7.1.2	cloudpickle	1.6.0
cmdstanpy	0.9.68	configparser	5.0.1	convertdate	2.3.2
criptografía	3.4.7	ciclista	0.10.0	Cython	0.29.23
databricks-automl-runtime	0.1.0	databricks-cli	0.14.3	dbus-python	1.2.16
decorador	5.0.6	defusedxml	0.7.1	eneldo	0.3.2
diskcache	5.2.1	distlib	0.3.2	distro-info	0.23ubuntu1
puntos de entrada	0,3	eméhem	4.0.0.2	visión general de las facetas	1.0.0
bloqueo de archivos	3.0.12	Matraz	1.1.2	flatbuffers	1.12
fsspec	0.9.0	futuro	0.18.2	Gast	0.4.0
gitdb	4.0.7	GitPython	3.1.12	autenticación de Google	1.22.1
google-auth-oauthlib	0.4.2	google-pasta	0.2.0	grpcio	1.39.0
gunicorn	20.0.4	h5py	3.1.0	hijri-converter	2.2.1
vacaciones	0.11.2	Horovod	0.22.1	htmlmin	0.1.12
idna	2.10	Hash de imagen	4.2.1	importlib-metadata	3.10.0
ipykernel	5.3.4	ipython	7.22.0	ipython-genutils	0.2.0
ipywidgets	7.6.3	isodate	0.6.0	Es peligroso	1.1.0
Jedi	0.17.2	Jinja2	2.11.3	jmespath	0.10.0
joblib	1.0.1	joblibspark	0.3.0	jsonschema	3.2.0
Cliente Jupyter	6.1.12	jupyter-core	4.7.1	jupyterlab-pygments	0.1.2
jupyterlab-widgets	1.0.0	keras	2.6.0	Keras-Preprocessing	1.1.2
kiwisolver	1.3.1	Koalas	1.8.1	calendario lunar coreano	0.2.1
lightgbm	3.1.1	llvmlite	0.37.0	Calendario Lunar	0.0.9
Mako	1.1.3	Descuento	3.3.3	MarkupSafe	1.1.1
matplotlib	3.4.2	missingno	0.5.0	Mal sintonizado	0.8.4
mleap	0.17.0	mlflow-skinny	1.20.2	Multimétodo	1.4
nbclient	0.5.3	nbconvert	6.0.7	nbformat	5.1.3
nest-asyncio	1.5.1	networkx	2,5	NLTK	3.6.1
cuaderno	6.3.0	entumecida	0.54.0	numpy	1.19.2
oauthlib	3.1.0	opt-einsum	3.3.0	embalaje	20.9
Pandas	1.2.4	pandas-profiling	3.0.0	pandocfilters	1.4.3
paramiko	2.7.2	parso	0.7.0	Patsy	0.5.1
petastorm	0.11.2	pexpect	4.8.0	phik	0.12.0
pickleshare	0.7.5	Almohada	8.2.0	pepita	21.0.1
trazado	5.1.0	prompt-toolkit	3.0.17	profeta	1.0.1
protobuf	3.17.2	psutil	5.8.0	psycopg2	2.8.5
ptyprocess	0.7.0	pyarrow	4.0.0	pyasn1	0.4.8
pyasn1-modules	0.2.8	pycparser	2,20	pydantic	1.8.2
Pygments	2.8.1	PyGObject	3.36.0	PyMeeus	0.5.11
PyNaCl	1.3.0	pyodbc	4.0.30	pyparsing	2.4.7
pyrsistent	0.17.3	pystan	2.19.1.1	python-apt	2.0.0+ubuntu0.20.4.6
Python-dateutil	2.8.1	editor de Python	1.0.4	pytz	2020.5
PyWavelets	1.1.1	PyYAML	5.4.1	pyzmq	20.0.0
regex	2021.4.4	solicitudes	2.25.1	requests-oauthlib	1.3.0
requests-unixsocket	0.2.0	RSA	4.7.2	s3transfer	0.3.7
scikit-learn	0.24.1	scipy	1.6.2	biblioteca de visualización de datos de Python llamada seaborn	0.11.1
Send2Trash	1.5.0	setuptools	52.0.0	setuptools-git	1.2
Shap	0.39.0	simplejson	3.17.2	Seis	1.15.0
rebanador	0.0.7	smmap	3.0.5	spark-tensorflow-distributor	1.0.0
sqlparse	0.4.1	ssh-import-id	5.10	statsmodels (paquete de Python para análisis estadístico)	0.12.2
tabular	0.8.7	enredado-up-in-unicode	0.1.0	tenacidad	6.2.0
Tablero tensorizado	2.6.0	servidor-de-datos-de-tensorboard	0.6.1	tensorboard-plugin-wit	1.8.0
tensorflow	2.6.0	Estimador de TensorFlow	2.6.0	termcolor	1.1.0
terminado	0.9.4	ruta de prueba	0.4.4	threadpoolctl	2.1.0
antorcha	1.9.0+cu111	antorcha	0.10.0+cu111	tornado	6.1
tqdm	4.59.0	traitlets	5.0.5	extensiones de escritura	3.7.4.3
ujson	4.0.2	actualizaciones automáticas sin supervisión	0,1	urllib3	1.25.11
virtualenv	20.4.1	Visiones	0.7.1	wcwidth	0.2.5
codificaciones web	0.5.1	cliente de websocket	0.57.0	Werkzeug	1.0.1
rueda	0.36.2	widgetsnbextension	3.5.1	wrapt	1.12.1
xgboost	1.4.2	zipp	3.4.1

Paquetes de Spark que contienen módulos de Python

Paquete de Spark	Módulo de Python	Versión
graphframes	graphframes	0.8.1-db3-spark3.1

Bibliotecas de R

Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 9.1 LTS.

Bibliotecas de Java y Scala (clúster de Scala 2.12)

Además de las bibliotecas de Java y Scala en Databricks Runtime 9.1 LTS, Databricks Runtime 9.1 LTS ML contiene los siguientes archivos JAR:

Clústeres de CPU

Identificador de grupo	Id. de artefacto	Versión
com.typesafe.akka	akka-actor_2.12	2.5.23
ml.combust.mleap	mleap-databricks-runtime_2.12	0.17.0-4882dc3
ml.dmlc	xgboost4j-spark_2.12	1.4.1
ml.dmlc	xgboost4j_2.12	1.4.1
org.graphframes	graphframes_2.12	0.8.1-db2-spark3.1
org.mlflow	mlflow-client	1.20.2
org.mlflow	mlflow-spark	1.20.2
org.scala-lang.modules	scala-java8-compat_2.12	0.8.0
org.tensorflow	spark-tensorflow-connector_2.12	1.15.0

Clústeres de GPU

Identificador de grupo	Id. de artefacto	Versión
com.typesafe.akka	akka-actor_2.12	2.5.23
ml.combust.mleap	mleap-databricks-runtime_2.12	0.17.0-4882dc3
ml.dmlc	xgboost4j-gpu_2.12	1.4.1
ml.dmlc	xgboost4j-spark-gpu_2.12	1.4.1
org.graphframes	graphframes_2.12	0.8.1-db2-spark3.1
org.mlflow	mlflow-client	1.20.2
org.mlflow	mlflow-spark	1.20.2
org.scala-lang.modules	scala-java8-compat_2.12	0.8.0
org.tensorflow	spark-tensorflow-connector_2.12	1.15.0