Comparteix via


Databricks Runtime para Machine Learning

En esta página se describe Databricks Runtime para Machine Learning y se proporcionan instrucciones sobre cómo crear un recurso de proceso clásico que lo use.

¿Qué es Databricks Runtime para Machine Learning?

Databricks Runtime para Machine Learning (Databricks Runtime ML) automatiza la creación de un recurso de cómputo con infraestructura de aprendizaje automático y profundo preconstruida, incluidas las bibliotecas de ML y DL más comunes.

Bibliotecas incluidas en Databricks Runtime ML

Databricks Runtime ML incluye varias bibliotecas populares de ML. Las bibliotecas se actualizan con cada versión para incluir nuevas características y correcciones.

Databricks ha designado un subconjunto de las bibliotecas admitidas como bibliotecas de nivel superior. Para estas bibliotecas, Databricks proporciona una cadencia de actualización más rápida, actualizando a las versiones de paquetes más recientes con cada versión en tiempo de ejecución (a excepción de conflictos de dependencia). Databricks también proporciona compatibilidad avanzada, pruebas y optimizaciones insertadas para bibliotecas de nivel superior. Las bibliotecas de nivel superior se agregan o quitan con las versiones principales solamente.

  • Para obtener una lista completa de las bibliotecas de primera categoría y otras incluidas, consulte las notas de lanzamiento de Databricks Runtime ML.
  • Para obtener información sobre la frecuencia de actualización de las bibliotecas y cuándo se consideran obsoletas, consulte la política de mantenimiento de Databricks Runtime ML .

Puede instalar bibliotecas adicionales para crear un entorno personalizado para el cuaderno o el recurso de proceso.

Creación de un recurso de proceso con Databricks Runtime para ML

Para crear un recurso de proceso que use Databricks Runtime for ML, active la casilla Machine Learning en la interfaz de usuario de creación de proceso. Esto establece automáticamente el modo de acceso en Dedicado con su cuenta como usuario dedicado. Puede asignar manualmente el recurso de proceso a otro usuario o grupo en la sección Avanzadas de la interfaz de usuario de creación de proceso.

Para la computación basada en GPU, seleccione un tipo de instancia habilitado para GPU en el menú desplegable Tipo de trabajador. Para obtener la lista completa de los tipos de GPU admitidos, consulte Tipos de instancia admitidos.

Photon y Databricks Runtime ML

Al crear un recurso de proceso que ejecute Databricks Runtime 15.2 ML o superior, puede optar por habilitar Photon. Photon mejora el rendimiento de las aplicaciones que usan Spark SQL, Spark DataFrames, ingeniería de características, GraphFrames y xgboost4j. No se espera que mejore el rendimiento de las aplicaciones mediante RDD de Spark, UDF de Pandas y lenguajes que no sean JVM, como Python. Por lo tanto, los paquetes de Python como XGBoost, PyTorch y TensorFlow no verán una mejora con Photon.

Las API de RDD de Spark y MLlib de Spark tienen una compatibilidad limitada con Photon. Al procesar grandes conjuntos de datos mediante RDD de Spark o MLlib de Spark, podría experimentar problemas de memoria de Spark. Consulte Problemas de memoria de Spark.

Modo de acceso de cálculo para Databricks Runtime ML

Para acceder a los datos de Unity Catalog en un recurso de proceso que ejecuta Databricks Runtime ML, debe establecer el modo de acceso en Dedicado. El modo de acceso se establece automáticamente en la interfaz de usuario de creación de computación al seleccionar la casilla Machine Learning.

Cuando un recurso de proceso tiene el modo de acceso dedicado , el recurso se puede asignar a un solo usuario o grupo. Cuando se asigna a un grupo, los permisos del usuario se reducen automáticamente al ámbito de los permisos del grupo, lo que permite al usuario compartir de forma segura el recurso con otros miembros del grupo.

Cuando se usa el modo de acceso dedicado, las siguientes características solo están disponibles en Databricks Runtime 15.4 LTS ML y versiones posteriores: