Compartir a través de


Entorno de ejecución de IA

Importante

El entorno de ejecución de IA para tareas de nodo único está en versión preliminar pública. La API de entrenamiento distribuido para cargas de trabajo de varias GPU permanece en beta.

Introducción al entorno de ejecución de IA

AI Runtime es una oferta de proceso en Databricks diseñada para cargas de trabajo de aprendizaje profundo y proporciona compatibilidad con GPU para Databricks Serverless. Puede usar AI Runtime para entrenar y ajustar modelos personalizados mediante sus marcos favoritos y obtener una eficiencia, un rendimiento y una calidad de última generación. Para obtener información general sobre cómo encaja el proceso sin servidor en la arquitectura de Databricks, consulte Arquitectura del área de trabajo sin servidor.

Características clave

  • Infraestructura de GPU totalmente administrada : acceso flexible y sin servidor a GPU y sin configuración del clúster, selección de controladores o directivas de escalado automático para administrar.
  • Un entorno de ejecución dedicado al aprendizaje profundo : elija un entorno base predeterminado mínimo para obtener la máxima flexibilidad sobre las dependencias o un entorno de INTELIGENCIA artificial completo cargado previamente con marcos de APRENDIZAJE automático populares.
  • Se integra de forma nativa en cuadernos, trabajos, Catálogo de Unity y MLflow para el desarrollo sin problemas, el acceso a los datos y el seguimiento de experimentos.

Opciones de hardware

Acelerador Mejor para Varias GPU
A10 Tareas de aprendizaje automático pequeño a mediano y aprendizaje profundo, como modelos clásicos de ML o ajuste de modelos de lenguaje más pequeños No
H100 Cargas de trabajo de inteligencia artificial a gran escala, incluidos el entrenamiento o la optimización de modelos masivos o la ejecución de tareas avanzadas de aprendizaje profundo Sí (8 GPU)

Databricks recomienda AI Runtime para cualquier caso de uso de entrenamiento de modelos personalizados que impliquen aprendizaje profundo, cargas de trabajo clásicas a gran escala o GPU.

Por ejemplo:

  • Ajuste fino de LLM (LoRA, QLoRA, ajuste completo)
  • Computer Vision (detección de objetos, clasificación de imágenes)
  • Sistemas recomendados basados en aprendizaje profundo
  • Aprendizaje de refuerzo
  • Previsión de series temporales basadas en aprendizaje profundo

Requisitos

  • Un área de trabajo en una de las siguientes regiones admitidas por Azure:
    • centralus
    • eastus
    • eastus2
    • northcentralus
    • westcentralus
    • westus
    • westus3

Limitaciones

  • AI Runtime solo admite aceleradores A10 y H100.
  • Ai Runtime no es compatible con áreas de trabajo de perfil de seguridad de cumplimiento (como HIPAA o PCI). No se admite el procesamiento de datos regulados.
  • No se admite la adición de dependencias mediante el panel Entornos para trabajos programados de AI Runtime. Instale las dependencias programáticamente con %pip install en tu notebook.
  • En el caso de los trabajos programados en ai Runtime, no se admite el comportamiento de recuperación automática para versiones de paquetes incompatibles asociadas con el cuaderno.
  • El tiempo de ejecución máximo de una carga de trabajo es de siete días. En el caso de los trabajos de entrenamiento de modelos que superan este límite, implemente puntos de control y reinicie el trabajo una vez alcanzado el tiempo de ejecución máximo.
  • AI Runtime proporciona acceso a petición a los recursos de GPU. Aunque esto conduce a un acceso sencillo y flexible a las GPU, puede haber períodos en los que la capacidad está restringida o no disponible en su región.
  • AI Runtime aprovecha las GPU de varias regiones en determinados casos en momentos de alta demanda. Puede haber costos de salida asociados a este uso.

Conexión al entorno de ejecución de IA

Puede conectarse a AI Runtime de forma interactiva desde cuadernos, programar cuadernos como trabajos periódicos o crear trabajos mediante programación mediante la API de trabajos y los conjuntos de recursos de Databricks. Para obtener instrucciones paso a paso, consulte Conexión al entorno de ejecución de IA.

Configuración de entorno

Ai Runtime ofrece dos entornos de Python administrados: un entorno base predeterminado mínimo y un entorno completo de Inteligencia artificial de Databricks que se carga previamente con marcos de APRENDIZAJE automático populares como PyTorch y Transformers. Para más información sobre cómo elegir un entorno, un comportamiento de almacenamiento en caché, importar módulos personalizados y limitaciones conocidas, consulte Configuración del entorno.

Importar datos

Comprender cómo funciona el acceso a los datos en el entorno de ejecución de IA es esencial para una experiencia fluida. Para más información, consulte Carga de datos en tiempo de ejecución de IA.

Entrenamiento distribuido

Importante

Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administración de versiones preliminares de Azure Databricks.

AI Runtime admite el entrenamiento distribuido entre varias GPU en el nodo único al que está conectado el cuaderno. Con el @distributed decorador de la serverless_gpu API de Python (Beta), puede iniciar cargas de trabajo de varias GPU con PyTorch DDP, FSDP o DeepSpeed con una configuración mínima. Para más información, consulte Carga de trabajo de varias GPU.

Seguimiento de experimentos y observabilidad

Para la integración de MLflow, la visualización de registros y la administración de puntos de comprobación del modelo, consulte Seguimiento de experimentos y observabilidad.

Código de Genie para el aprendizaje profundo

Genie Code admite cargas de trabajo de aprendizaje profundo en el entorno de ejecución de IA. Puede ayudar a generar código de entrenamiento, resolver errores de instalación de biblioteca, sugerir optimizaciones y depurar problemas comunes. Consulte Uso de Genie Code para la ciencia de datos.

Guías

Para la migración desde cargas de trabajo clásicas, cuadernos de ejemplo y solución de problemas, consulte Guías de usuario para el entorno de ejecución de IA.