Compartir a través de


Guías de usuario para el entorno de ejecución de IA

Importante

El entorno de ejecución de IA para tareas de nodo único está en versión preliminar pública. La API de entrenamiento distribuido para cargas de trabajo de varias GPU permanece en beta.

Esta página incluye información de migración, vínculos a cuadernos de ejemplo e información de solución de problemas.

Migración de cargas de trabajo de GPU clásicas a sin servidor

Si va a mover una carga de trabajo de aprendizaje profundo existente desde un clúster de Databricks clásico (con Databricks Runtime ML) a sin servidor (con AI Runtime), siga estos pasos:

  1. Reemplace el código dependiente del clúster. Quite las referencias al entrenamiento distribuido basado en Spark (por ejemplo, TorchDistributor) y reemplácelas por el @distributed decorador de serverless_gpu.
  2. Actualizar la carga de datos. Reemplace las rutas de acceso directas de DBFS con las rutas de acceso de volúmenes del catálogo de Unity (/Volumes/...). Reemplace las operaciones locales de DataFrame de Spark por Spark Connect.
  3. Reinstale las dependencias. No confíe en las bibliotecas preinstaladas de Databricks Runtime ML. Agregue comandos explícitos %pip install para todos los paquetes necesarios.
  4. Actualice las rutas de acceso del punto de control. Mover puntos de control de DBFS o almacenamiento local a volúmenes de Unity Catalog (/Volumes/<catalog>/<schema>/<volume>/...).
  5. Actualice la configuración de MLflow. Asegúrese de que los nombres de experimento usen rutas de acceso absolutas y configure los nombres de ejecución para que se puedan reiniciar fácilmente.
  6. Pruebe primero de forma interactiva. Valide la carga de trabajo en un cuaderno interactivo antes de programarla como trabajo.

Seguimiento del uso y los costos

Puede supervisar el gasto de GPU en tiempo de ejecución de IA consultando la tabla del sistema de uso facturable (system.billing.usage). La consulta siguiente devuelve el uso total de las cargas de trabajo de GPU sin servidor:

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

Para obtener más información sobre el esquema de la tabla del sistema de uso facturable, consulte Referencia de las tablas del sistema de uso facturable.

AI Runtime factura por hora de GPU en el SKU de entrenamiento de modelos según los siguientes precios:

  • H100 a petición: 7,00 USD/hora de GPU (Este de EE. UU.)
  • A10 a petición: 4,90 USD/hora de GPU (Este de EE. UU.)

Cuadernos de ejemplo

Las siguientes categorías de cuadernos de ejemplo están disponibles para ayudarle a empezar:

Categoría Descripción
Modelos de lenguaje grande (LLM) Ajuste de modelos de lenguaje grande, incluidos métodos eficientes en el uso de parámetros (LoRA, QLoRA)
Computer Vision Detección de objetos, clasificación de imágenes y otras tareas de CV
Sistemas recomendados de aprendizaje profundo Creación de sistemas de recomendación mediante enfoques de aprendizaje profundo modernos como modelos de dos torres
ML Clásico Tareas tradicionales de ML, incluido el entrenamiento del modelo XGBoost y la previsión de series temporales
Entrenamiento distribuido con varias GPU Escalado del entrenamiento entre varias GPU mediante la API de GPU sin servidor

Para obtener la lista completa, consulte Cuadernos de ejemplo de AI Runtime.

Solución de problemas

Genie Code puede ayudar a diagnosticar y sugerir correcciones para errores de instalación de bibliotecas. Consulte Uso de Genie Code para depurar errores de entorno de proceso.

ValueError: el tamaño numpy.dtype cambiado puede indicar incompatibilidad binaria. Se esperaban 96 desde el encabezado de C, pero se obtuvo 88 desde PyObject.

El error suele surgir cuando hay una falta de coincidencia en las versiones de NumPy usadas durante la compilación de un paquete dependiente y la versión de NumPy instalada actualmente en el entorno de tiempo de ejecución. Esta incompatibilidad se produce a menudo debido a cambios en la API de C de NumPy y es especialmente notable de NumPy 1.x a 2.x. Este error indica que el paquete de Python instalado en el cuaderno puede haber cambiado la versión de NumPy.

Solución recomendada:

Compruebe la versión de NumPy en tiempo de ejecución y asegúrese de que es compatible con los paquetes. Consulte las notas de la versión de cómputo de GPU sin servidor para entorno 4 y entorno 3 para obtener información sobre las bibliotecas Python preinstaladas. Si tiene una dependencia en una versión diferente de NumPy, agregue esa dependencia al entorno de proceso.

PyTorch no encuentra libcudnn al instalar torch

Al instalar una versión diferente de torch, es posible que vea el error: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Esto se debe a que torch solo busca la biblioteca cuDNN en la ruta de acceso local.

Solución recomendada:

Vuelva a instalar las dependencias agregando --force-reinstall al instalar torch:

%pip install torch --force-reinstall