Compartir a través de


Databricks Runtime 9.1 LTS para Machine Learning

Databricks publicó esta imagen y la declaró soporte a largo plazo (LTS) en septiembre de 2021.

Databricks Runtime 9.1 LTS for Machine Learning proporciona un entorno listo parato-go para el aprendizaje automático y la ciencia de datos basado en Databricks Runtime 9.1 LTS. Databricks Runtime ML contiene muchas bibliotecas de aprendizaje automático populares, como TensorFlow, PyTorch y XGBoost. Databricks Runtime ML incluye AutoML, una herramienta para entrenar automáticamente canalizaciones de aprendizaje automático. Databricks Runtime ML también admite el entrenamiento de aprendizaje profundo distribuido mediante Horovod.

Nota:

LTS significa que esta versión tiene soporte técnico a largo plazo. Consulte el Ciclo de vida de la versión LTS de Databricks Runtime.

Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.

Sugerencia

Para ver las notas de las versiones de Databricks Runtime que han llegado al fin de soporte (EoS), consulte las Notas de lanzamiento de fin de soporte de Databricks Runtime. Las versiones de EoS Databricks Runtime se han retirado y es posible que no se actualicen.

Nuevas características y mejoras

AutoML (aprendizaje automático automatizado)

Las siguientes mejoras están disponibles en Databricks Runtime 9.1 LTS ML y versiones posteriores.

AutoML admite conjuntos de datos más grandes mediante muestreo

AutoML ahora muestrea conjuntos de datos que podrían superar las restricciones de memoria, lo que le permite ejecutarse en conjuntos de datos más grandes con menos riesgo de errores de memoria insuficiente. Para más información, consulte Muestreo de conjuntos de datos grandes.

AutoML preprocesa columnas en función del tipo semántico

AutoML detecta determinadas columnas que tienen un tipo semántico que difiere de su tipo de datos Spark o pandas. A continuación, AutoML convierte y aplica los pasos de preprocesamiento de datos en función del tipo semántico detectado. En concreto, AutoML realiza las siguientes conversiones:

  • Las columnas de cadena y enteros que representan datos de fecha o marca de tiempo se convierten en un tipo de marca de tiempo.
  • Las columnas de cadena que representan datos numéricos se convierten en un tipo numérico.

Mejoras en los blocs de notas generados por AutoML

Los pasos de preprocesamiento para las columnas de fecha y marca de tiempo ahora se incorporan en el databricks-automl-runtime paquete, lo que simplifica los cuadernos generados por el entrenamiento de AutoML. databricks-automl-runtimese incluye en Databricks Runtime 9.1 LTS ML y versiones posteriores, y también está disponible en PyPI.

Almacén de características

Las siguientes mejoras están disponibles en Databricks Runtime 9.1 LTS ML y versiones posteriores.

  • Al crear un TrainingSet, ahora puede configurarlo label=None para que admita aplicaciones de aprendizaje no supervisado.
  • Ahora puede especificar más de una entidad en un solo FeatureLookuparchivo .
  • Ahora puede especificar una ruta personalizada para las tablas de características. Utilice el path parámetro en create_feature_table(). El valor predeterminado es la ubicación de la base de datos.
  • Nuevos tipos de datos de PySpark compatibles: ArrayType y ShortType.

MLflow

Las siguientes mejoras están disponibles a partir de la versión 1.20.2 de Mlflow, que se incluye en Databricks Runtime 9.1 LTS ML.

  • El registro automático de scikit-learn ahora registra las métricas posteriores al entrenamiento cada vez que se llama a una API de evaluación de scikit-learn, como sklearn.metrics.mean_squared_error.
  • El registro automático para PySpark ML ahora registra las métricas posteriores al entrenamiento cada vez que se llama a una API de evaluación de modelos, como Evaluator.evaluate().
  • mlflow.*.log_model y mlflow.*.save_model ahora tiene pip_requirements argumentos y extra_pip_requirements para que pueda especificar directamente los requisitos pip del modelo para registrar o guardar.
  • mlflow.*.log_model y mlflow.*.save_model ahora infiere automáticamente los requisitos de pip del modelo para registrar o guardar en función del entorno de software actual.
  • stdMetrics Las entradas ahora se registran como métricas de entrenamiento durante el registro automático de PySpark CrossValidator.
  • El registro automático de PyTorch Lightning ahora admite la ejecución distribuida.

Registro automático de Databricks (Versión preliminar pública)

La versión preliminar pública de Databricks Autologging se ha expandido a nuevas regiones. El Registro automático de Databricks es una solución sin código que proporciona seguimiento automático de experimentos, para sesiones de entrenamiento de aprendizaje automático en Azure Databricks. Con el Registro automático de Databricks, los parámetros del modelo, las métricas, los archivos y la información del linaje se capturan automáticamente, al entrenar modelos a partir de una serie de bibliotecas populares de aprendizaje automático. Las sesiones de entrenamiento se registran como ejecuciones de seguimiento de MLflow. También se realiza un seguimiento de los archivos del modelo, para poder registrarlos fácilmente en el registro de modelos de MLflow e implementarlos para realizar una puntuación en tiempo real, con el Servicio de modelo de MLflow.

Para más información sobre el Registro automático de Databricks, consulte Registro automático de Databricks.

Cambios importantes en el entorno de Python de Databricks Runtime ML

Paquetes de Python actualizados

  • AutoML 1.1.1 => 1.2.1
  • feature_store 0,3,3 => 0,3,4.1
  • días festivos 0.10.5.2 => 0.11.2
  • KERAS 2.5.0 => 2.6.0
  • mlflow 1.19.0 => 1.20.2
  • petastorm 0.11.1 => 0.11.2
  • 4.14.3 => 5.1.0
  • spark-tensorflow-distributor 0.1.0 => 1.0.0
  • Sparkdl 2.2.0_db1 => 2.2.0_db3
  • Tensorboard 2.5.0 => 2.6.0
  • tensorflow 2.5.0 => 2.6.0

Paquetes de Python agregados

  • databricks-automl-runtime 0.1.0

Entorno del sistema

El entorno del sistema en Databricks Runtime 9.1 LTS ML difiere de Databricks Runtime 9.1 LTS de la siguiente manera:

Bibliotecas

En las secciones siguientes se enumeran las bibliotecas incluidas en Databricks Runtime 9.1 LTS ML que difieren de las incluidas en Databricks Runtime 9.1 LTS.

En esta sección:

Bibliotecas de nivel superior

Databricks Runtime 9.1 LTS ML incluye las siguientes bibliotecas de nivel superior:

Bibliotecas de Python

Databricks Runtime 9.1 LTS ML usa Virtualenv para la administración de paquetes de Python e incluye muchos paquetes de ML populares.

Además de los paquetes especificados en las secciones siguientes, Databricks Runtime 9.1 LTS ML también incluye los siguientes paquetes:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db3
  • feature_store 0.3.4.1
  • AutoML 1.2.1

Bibliotecas de Python en clústeres de CPU

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) directorios de aplicaciones 1.4.4
argon2-cffi 20.1.0 Ástor 0.8.1 astunparse 1.6.3
generador asíncrono 1.10 atributos 20.3.0 Llamada trasera 0.2.0
bcrypt 3.2.0 blanquear 3.3.0 boto3 1.16.7
botocore 1.19.7 Embotellamiento 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
Estruendo 5.0 Haz clic 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 convertdate 2.3.2
criptografía 3.4.7 ciclista 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
decorador 5.0.6 defusedxml 0.7.1 eneldo 0.3.2
diskcache 5.2.1 distlib 0.3.2 distro-info 0.23ubuntu1
puntos de entrada 0,3 eméhem 4.0.0.2 visión general de las facetas 1.0.0
bloqueo de archivos 3.0.12 Matraz 1.1.2 flatbuffers 1.12
fsspec 0.9.0 futuro 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 autenticación de Google 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
vacaciones 0.11.2 Horovod 0.22.1 htmlmin 0.1.12
idna 2.10 Hash de imagen 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 Es peligroso 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
Cliente Jupyter 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 calendario lunar coreano 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 Calendario Lunar 0.0.9
Mako 1.1.3 Descuento 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 Mal sintonizado 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 Multimétodo 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 NLTK 3.6.1
cuaderno 6.3.0 entumecida 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 embalaje 20.9
Pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.2 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Almohada 8.2.0 pepita 21.0.1
trazado 5.1.0 Cliente-Prometeo 0.10.1 prompt-toolkit 3.0.17
profeta 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 Python-dateutil 2.8.1 editor de Python 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 solicitudes 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 RSA 4.7.2
s3transfer 0.3.7 scikit-learn 0.24.1 scipy 1.6.2
biblioteca de visualización de datos de Python llamada seaborn 0.11.1 Send2Trash 1.5.0 setuptools 52.0.0
setuptools-git 1.2 Shap 0.39.0 simplejson 3.17.2
Seis 1.15.0 rebanador 0.0.7 smmap 3.0.5
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 ssh-import-id 5.10
statsmodels (paquete de Python para análisis estadístico) 0.12.2 tabular 0.8.7 enredado-up-in-unicode 0.1.0
tenacidad 6.2.0 Tablero tensorizado 2.6.0 servidor-de-datos-de-tensorboard 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0 Estimador de TensorFlow 2.6.0
termcolor 1.1.0 terminado 0.9.4 ruta de prueba 0.4.4
threadpoolctl 2.1.0 antorcha 1.9.0+cpu antorcha 0.10.0+cpu
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
extensiones de escritura 3.7.4.3 ujson 4.0.2 actualizaciones automáticas sin supervisión 0,1
urllib3 1.25.11 virtualenv 20.4.1 Visiones 0.7.1
wcwidth 0.2.5 codificaciones web 0.5.1 cliente de websocket 0.57.0
Werkzeug 1.0.1 rueda 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 zipp 3.4.1

Bibliotecas de Python en clústeres de GPU

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) directorios de aplicaciones 1.4.4
argon2-cffi 20.1.0 Ástor 0.8.1 astunparse 1.6.3
generador asíncrono 1.10 atributos 20.3.0 Llamada trasera 0.2.0
bcrypt 3.2.0 blanquear 3.3.0 boto3 1.16.7
botocore 1.19.7 Embotellamiento 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
Estruendo 5.0 Haz clic 7.1.2 cloudpickle 1.6.0
cmdstanpy 0.9.68 configparser 5.0.1 convertdate 2.3.2
criptografía 3.4.7 ciclista 0.10.0 Cython 0.29.23
databricks-automl-runtime 0.1.0 databricks-cli 0.14.3 dbus-python 1.2.16
decorador 5.0.6 defusedxml 0.7.1 eneldo 0.3.2
diskcache 5.2.1 distlib 0.3.2 distro-info 0.23ubuntu1
puntos de entrada 0,3 eméhem 4.0.0.2 visión general de las facetas 1.0.0
bloqueo de archivos 3.0.12 Matraz 1.1.2 flatbuffers 1.12
fsspec 0.9.0 futuro 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 autenticación de Google 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 h5py 3.1.0 hijri-converter 2.2.1
vacaciones 0.11.2 Horovod 0.22.1 htmlmin 0.1.12
idna 2.10 Hash de imagen 4.2.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 Es peligroso 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
Cliente Jupyter 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.6.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 calendario lunar coreano 0.2.1
lightgbm 3.1.1 llvmlite 0.37.0 Calendario Lunar 0.0.9
Mako 1.1.3 Descuento 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 Mal sintonizado 0.8.4
mleap 0.17.0 mlflow-skinny 1.20.2 Multimétodo 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 NLTK 3.6.1
cuaderno 6.3.0 entumecida 0.54.0 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 embalaje 20.9
Pandas 1.2.4 pandas-profiling 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.2 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Almohada 8.2.0 pepita 21.0.1
trazado 5.1.0 prompt-toolkit 3.0.17 profeta 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.3.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
Python-dateutil 2.8.1 editor de Python 1.0.4 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
regex 2021.4.4 solicitudes 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 RSA 4.7.2 s3transfer 0.3.7
scikit-learn 0.24.1 scipy 1.6.2 biblioteca de visualización de datos de Python llamada seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
Shap 0.39.0 simplejson 3.17.2 Seis 1.15.0
rebanador 0.0.7 smmap 3.0.5 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 ssh-import-id 5.10 statsmodels (paquete de Python para análisis estadístico) 0.12.2
tabular 0.8.7 enredado-up-in-unicode 0.1.0 tenacidad 6.2.0
Tablero tensorizado 2.6.0 servidor-de-datos-de-tensorboard 0.6.1 tensorboard-plugin-wit 1.8.0
tensorflow 2.6.0 Estimador de TensorFlow 2.6.0 termcolor 1.1.0
terminado 0.9.4 ruta de prueba 0.4.4 threadpoolctl 2.1.0
antorcha 1.9.0+cu111 antorcha 0.10.0+cu111 tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 extensiones de escritura 3.7.4.3
ujson 4.0.2 actualizaciones automáticas sin supervisión 0,1 urllib3 1.25.11
virtualenv 20.4.1 Visiones 0.7.1 wcwidth 0.2.5
codificaciones web 0.5.1 cliente de websocket 0.57.0 Werkzeug 1.0.1
rueda 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 zipp 3.4.1

Paquetes de Spark que contienen módulos de Python

Paquete de Spark Módulo de Python Versión
graphframes graphframes 0.8.1-db3-spark3.1

Bibliotecas de R

Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 9.1 LTS.

Bibliotecas de Java y Scala (clúster de Scala 2.12)

Además de las bibliotecas de Java y Scala en Databricks Runtime 9.1 LTS, Databricks Runtime 9.1 LTS ML contiene los siguientes archivos JAR:

Clústeres de CPU

Identificador de grupo Id. de artefacto Versión
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clústeres de GPU

Identificador de grupo Id. de artefacto Versión
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0