Compartir a través de


Databricks Runtime para Aprendizaje Automático

En esta página se describe Databricks Runtime para Machine Learning y se proporcionan instrucciones sobre cómo crear un recurso de proceso clásico que lo use.

¿Qué es Databricks Runtime para Machine Learning?

Databricks Runtime para Machine Learning (Databricks Runtime ML) automatiza la creación de un recurso de cómputo con infraestructura de aprendizaje automático y profundo preconstruida, incluidas las bibliotecas de ML y DL más comunes.

Bibliotecas incluidas en Databricks Runtime ML

Databricks Runtime ML incluye varias bibliotecas populares de ML. Las bibliotecas se actualizan con cada versión para incluir nuevas características y correcciones.

Databricks ha designado un subconjunto de las bibliotecas admitidas como bibliotecas de nivel superior. Para estas bibliotecas, Databricks proporciona una cadencia de actualización más rápida, actualizando a las versiones de paquetes más recientes con cada versión en tiempo de ejecución (a excepción de conflictos de dependencia). Databricks también proporciona compatibilidad avanzada, pruebas y optimizaciones insertadas para bibliotecas de nivel superior. Las bibliotecas de nivel superior se agregan o quitan con las versiones principales solamente.

  • Para obtener una lista completa de las bibliotecas de primera categoría y otras incluidas, consulte las notas de lanzamiento de Databricks Runtime ML.
  • Para obtener información sobre la frecuencia de actualización de las bibliotecas y cuándo se consideran obsoletas, consulte la política de mantenimiento de Databricks Runtime ML .

Puede instalar bibliotecas adicionales para crear un entorno personalizado para el cuaderno o el recurso de proceso.

Creación de un recurso de proceso con Databricks Runtime para ML

Para crear un recurso de proceso que use Databricks Runtime for ML, active la casilla Machine Learning en la interfaz de usuario de creación de proceso. Esto establece automáticamente el modo de acceso en Dedicado con su cuenta como usuario dedicado. Puede asignar manualmente el recurso de proceso a otro usuario o grupo en la sección Avanzadas de la interfaz de usuario de creación de proceso.

Para la computación basada en GPU, seleccione un tipo de instancia habilitado para GPU en el menú desplegable Tipo de trabajador. Para obtener la lista completa de los tipos de GPU admitidos, consulte Tipos de instancia admitidos.

Photon y Databricks Runtime ML

Al crear un recurso de proceso que ejecute Databricks Runtime 15.2 ML o superior, puede optar por habilitar Photon. Photon mejora el rendimiento de las aplicaciones que usan Spark SQL, Spark DataFrames, ingeniería de características, GraphFrames y xgboost4j. No se espera que mejore el rendimiento de las aplicaciones mediante RDD de Spark, UDF de Pandas y lenguajes que no sean JVM, como Python. Por lo tanto, los paquetes de Python como XGBoost, PyTorch y TensorFlow no verán una mejora con Photon.

Las API de RDD de Spark y MLlib de Spark tienen una compatibilidad limitada con Photon. Al procesar grandes conjuntos de datos mediante RDD de Spark o MLlib de Spark, podría experimentar problemas de memoria de Spark. Consulte Problemas de memoria de Spark.

Modo de acceso de cálculo para Databricks Runtime ML

Para acceder a los datos de Unity Catalog en un recurso de proceso que ejecuta Databricks Runtime ML, debe establecer el modo de acceso en Dedicado. El modo de acceso se establece automáticamente en la interfaz de usuario de creación de computación al seleccionar la casilla Machine Learning.

Cuando un recurso de proceso tiene el modo de acceso dedicado , el recurso se puede asignar a un solo usuario o grupo. Cuando se asigna a un grupo, los permisos del usuario se reducen automáticamente al ámbito de los permisos del grupo, lo que permite al usuario compartir de forma segura el recurso con otros miembros del grupo.

Cuando se usa el modo de acceso dedicado, las siguientes características solo están disponibles en Databricks Runtime 15.4 LTS ML y versiones posteriores:

Entrenamiento de modelos

Los siguientes recursos muestran cómo entrenar modelos de aprendizaje automático e inteligencia artificial en Mosaic AI y Databricks Runtime para Machine Learning.

Mosaic AI Model Training simplifica y unifica el proceso de entrenamiento e implementación de modelos de ML tradicionales a través de cargas de trabajo de ajuste de modelos de AutoML y Foundation Model.

AutoML

AutoML simplifica el proceso de aplicar el aprendizaje automático a los conjuntos de datos mediante la búsqueda automática del mejor algoritmo y la configuración de hiperparámetros. AutoML ofrece una interfaz de usuario sin código, así como una API de Python.

Ajuste preciso del modelo Foundation

Foundation Model Fine-tuning (ahora parte de Mosaic AI Model Training) en Azure Databricks le permite personalizar modelos de lenguaje grandes (LLM) mediante sus propios datos. Este proceso implica la optimización del entrenamiento de un modelo de base preexistente, reduciendo significativamente los datos, el tiempo y los recursos de equipo necesarios en comparación con el entrenamiento de un modelo desde cero. Entre las características clave se incluyen:

  • Ajuste de instrucciones: Adapte el modelo a nuevas tareas mediante el entrenamiento en datos estructurados de respuesta rápida.
  • Entrenamiento previo continuado: mejore el modelo con datos de texto adicionales para agregar nuevos conocimientos o centrarse en un dominio específico.
  • Finalización de chat: entrene el modelo a partir de los registros de chat para mejorar sus habilidades conversacionales.

Ejemplos de biblioteca de código abierto

Consulte ejemplos de entrenamiento de aprendizaje automático de una amplia variedad de bibliotecas de aprendizaje automático de código abierto, incluidos ejemplos de ajuste de hiperparámetros mediante Optuna e Hyperopt.

Aprendizaje profundo

Consulte ejemplos y procedimientos recomendados para el aprendizaje profundo distribuido para desarrollar y ajustar modelos de aprendizaje profundo en Azure Databricks.

Recomendaciones

Aprenda a entrenar modelos de recomendación basados en aprendizaje profundo en Azure Databricks. En comparación con los modelos de recomendación tradicionales, los modelos de aprendizaje profundo pueden lograr resultados de mayor calidad y escalar a grandes cantidades de datos.