Compartir vía


Proceso de GPU sin servidor

Importante

Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administración de versiones preliminares de Azure Databricks.

En este artículo se describe el proceso de GPU sin servidor en Databricks y se proporcionan casos de uso recomendados, instrucciones para configurar recursos de proceso de GPU y limitaciones de características.

¿Qué es el cómputo de GPU sin necesidad de servidor?

El proceso de GPU sin servidor forma parte de la oferta de proceso sin servidor. El cómputo de GPU sin servidor está especializado para cargas de trabajo personalizadas de aprendizaje profundo de un solo nodo y varios nodos. Puede usar el proceso de GPU sin servidor para entrenar y ajustar modelos personalizados mediante sus marcos favoritos y obtener una eficiencia, un rendimiento y una calidad de última generación.

El proceso de GPU sin servidor incluye:

  • Una experiencia integrada en cuadernos, Catálogo de Unity y MLflow: Puede desarrollar el código de forma interactiva mediante cuadernos.
  • Aceleradores de GPU A10:las GPU A10 están diseñadas para acelerar cargas de trabajo de aprendizaje automático y aprendizaje profundo pequeños a medianos, incluidos modelos clásicos de ML y modelos de lenguaje más pequeños. A10s son adecuados para tareas con requisitos computacionales moderados.
  • Compatibilidad con varias GPU y varios nodos: Puede ejecutar cargas de trabajo de entrenamiento distribuidas con varias GPU y varios nodos mediante la API de Python de GPU sin servidor. Consulte Entrenamiento distribuido.

Los paquetes preinstalados en el proceso de GPU sin servidor no son un reemplazo de Databricks Runtime ML. Aunque hay paquetes comunes, no todas las dependencias y bibliotecas de Databricks Runtime ML se reflejan en el entorno de proceso de GPU sin servidor.

Entornos de Python en computación de GPU sin servidor

Databricks proporciona dos entornos administrados para atender diferentes casos de uso.

Nota:

Los entornos base del área de trabajo no son compatibles con la computación de GPU sin servidor. En su lugar, use el entorno predeterminado o ai y especifique dependencias adicionales directamente en el panel lateral Entornos o pip install en ellos.

Entorno base predeterminado

Esto proporciona un entorno mínimo con una API de cliente estable para garantizar la compatibilidad de las aplicaciones. Solo se instalan los paquetes de Python necesarios. Esto permite a Databricks actualizar el servidor de forma independiente, ofrecer mejoras de rendimiento, mejoras de seguridad y correcciones de errores sin necesidad de cambios de código en las cargas de trabajo. Este es el entorno predeterminado cuando se elige proceso de GPU sin servidor. Elija este entorno si desea personalizar completamente el entorno para el entrenamiento.

Para obtener más información sobre las versiones de paquete instaladas en distintas versiones, consulte las notas de la versión:

Entorno de inteligencia artificial

El entorno de inteligencia artificial de Databricks está disponible en el entorno de GPU sin servidor 4. El entorno de IA se basa en el entorno base predeterminado con paquetes y paquetes de tiempo de ejecución comunes específicos del aprendizaje automático en GPU. Contiene bibliotecas de aprendizaje automático populares, como PyTorch, LangChain, Transformers, Ray y XGBoost para el entrenamiento e inferencia del modelo. Elija este entorno para ejecutar cargas de trabajo de entrenamiento.

Para obtener más información sobre las versiones de paquete instaladas en distintas versiones, consulte las notas de la versión:

Databricks recomienda la computación de GPU sin servidor para cualquier uso de entrenamiento de modelos que requiera personalizaciones del entrenamiento con GPU.

Por ejemplo:

  • Ajuste preciso de LLM
  • Visión por ordenador
  • Sistemas de recomendación
  • Aprendizaje de refuerzo
  • Previsión de series temporales basadas en aprendizaje profundo

Requisitos

  • Un área de trabajo en una de las siguientes regiones admitidas por Azure:
    • eastus
    • eastus2
    • centralus
    • northcentralus
    • westcentralus
    • westus

Configurar cálculo de GPU sin servidor

Para conectar el cuaderno al proceso de GPU sin servidor y configurar el entorno:

  1. En un cuaderno, haga clic en el menú desplegable Conectar en la parte superior y seleccione GPU sin servidor.
  2. Haga clic en el icono Entorno. Para abrir el panel lateral Entorno .
  3. Seleccione A10 en el campo Acelerador .
  4. Seleccione Ninguno para el entorno predeterminado o AI v4 para el entorno de IA en el campo Entorno base .
  5. Si eligió Ninguno en el campo Entorno base , seleccione la versión del entorno.
  6. Haga clic en Aplicar y, a continuación, confirme que desea aplicar el proceso de GPU sin servidor al entorno del cuaderno.

Nota:

La conexión con el entorno de cómputo se termina automáticamente después de 60 minutos de inactividad.

Adición de bibliotecas al entorno

Puede instalar bibliotecas adicionales en el entorno de proceso de GPU sin servidor. Consulte Adición de dependencias al cuaderno.

Nota:

No se admite la adición de dependencias mediante el panel Entornos, según se ve en Agregar dependencias al cuaderno, para trabajos programados de computación de GPU sin servidor.

Creación y programación de un trabajo

Los pasos siguientes muestran cómo crear y programar trabajos para las cargas de trabajo de proceso de GPU sin servidor. Consulte Creación y administración de trabajos de cuaderno programados para obtener más información.

Después de abrir el cuaderno que desea usar:

  1. Seleccione el botón Programar en la parte superior derecha.
  2. Seleccione Agregar programación.
  3. Rellene el formulario Nueva programación con el nombre del trabajo, la programación y el proceso.
  4. Selecciona Crear.

También puede crear y programar trabajos desde la interfaz de usuario Trabajos y canalizaciones . Consulte Creación de un nuevo trabajo para obtener instrucciones paso a paso.

Entrenamiento distribuido

Consulte Entrenamiento distribuido.

Limitaciones

  • El proceso de GPU sin servidor solo admite aceleradores A10.
  • Private Link no se admite. No se admiten repositorios de almacenamiento o pip detrás de Private Link.
  • No se admite el cómputo sin servidor con GPU para espacios de trabajo con perfil de seguridad de cumplimiento (como HIPAA o PCI). El procesamiento de datos regulados no se admite en este momento.
  • Para los trabajos programados en el cálculo de GPU sin servidor, no se admite el comportamiento de recuperación automática para versiones de paquetes incompatibles asociadas con el bloc de notas.
  • El tiempo de ejecución máximo de una carga de trabajo es de siete días. En el caso de los trabajos de entrenamiento del modelo que superen este límite, implemente los puntos de control y reinicie el trabajo una vez alcanzado el tiempo de ejecución máximo.

procedimientos recomendados

Consulte Procedimientos recomendados para el proceso de GPU sin servidor.

Solución de problemas en la computación de GPU sin servidor

Si tiene problemas para ejecutar cargas de trabajo en el proceso de GPU sin servidor, consulte la guía de solución de problemas comunes, soluciones alternativas y recursos de soporte técnico.

Ejemplos de cuadernos

A continuación se muestran varios ejemplos de notebooks para usar el cálculo de GPU sin servidor en diferentes tareas.

Tarea Description
Modelos de lenguaje grande (LLM) Ejemplos para ajustar modelos de lenguaje de gran tamaño, incluidos métodos eficientes para parámetros, como Low-Rank Adaptación (LoRA) y enfoques de ajuste fino supervisados.
Computer Vision Ejemplos de tareas de Computer Vision, incluida la detección de objetos y la clasificación de imágenes.
Sistemas recomendados basados en aprendizaje profundo Ejemplos de creación de sistemas de recomendación mediante enfoques de aprendizaje profundo modernos como modelos de dos torres.
Ml clásico Ejemplos de tareas tradicionales de aprendizaje automático, incluido el entrenamiento del modelo XGBoost y la previsión de series temporales.
Entrenamiento distribuido con varias GPU y varios nodos Ejemplos de escalado del entrenamiento en varias GPU y nodos mediante la API de GPU sin servidor, incluido el ajuste fino distribuido.

Ejemplos de entrenamiento de varias GPU

Consulte Entrenamiento distribuido con varias GPU y varios nodos para cuadernos que muestran cómo usar varias bibliotecas de entrenamiento distribuidas para el entrenamiento con varias GPU.