Compartir vía


Uso de GPU sin servidor en Azure Container Apps

Azure Container Apps proporciona acceso a GPU a petición sin tener que administrar la infraestructura subyacente. Como característica sin servidor, solo se paga por GPU en uso. Cuando se habilita, el número de GPU usadas para la aplicación aumenta y cae para satisfacer las demandas de carga de la aplicación. Las GPU sin servidor permiten ejecutar sin problemas las cargas de trabajo con escalado automático, arranque en frío optimizado, facturación por segundo con reducción vertical a cero cuando no están en uso y reducción de la sobrecarga operativa.

Las GPU sin servidor solo se admiten para perfiles de carga de trabajo de consumo. Esta característica no es compatible con los entornos de solo consumo.

Nota

Debe solicitar cuotas de GPU para acceder a las GPU. Puede enviar la solicitud de cuota de GPU a través de un caso de soporte técnico al cliente.

Ventajas

Las GPU sin servidor aceleran el desarrollo de la IA al permitirle centrarse en su código de IA principal y menos en la administración de la infraestructura cuando utiliza GPU. Esta característica proporciona una opción intermedia entre las API sin servidor del catálogo de modelos de Azure AI y los modelos de hospedaje en procesos administrados.

La compatibilidad con la GPU sin servidor de Container Apps proporciona una gobernanza de datos completa, ya que sus datos nunca salen de los límites de su contenedor, al tiempo que proporciona una plataforma administrada y sin servidor desde la que compilar sus aplicaciones.

Al usar GPU sin servidor en Container Apps, las aplicaciones obtienen:

  • GPU de escalado a cero: compatibilidad con el escalado automático sin servidor de GPU NVIDIA A100 y NVIDIA T4.

  • Facturación por segundo: pague solo por el proceso de GPU que use.

  • Gobernanza de datos integrada: los datos nunca dejan el límite del contenedor.

  • Opciones de proceso flexibles: puede elegir entre los tipos de GPU NVIDIA A100 o T4.

  • Nivel intermedio para el desarrollo de IA: traiga su propio modelo en una plataforma de proceso administrada y sin servidor.

Escenarios frecuentes

En los escenarios siguientes se describen casos de uso comunes para GPU sin servidor.

  • Inferencia por lotes y en tiempo real: use modelos de código abierto personalizados con tiempos de inicio rápidos, escalado automático y un modelo de facturación por segundo. Las GPU sin servidor son ideales para aplicaciones dinámicas. Solo paga por el proceso que usa y sus aplicaciones se escalan automáticamente para satisfacer la demanda.

  • Escenarios de aprendizaje automático: acelera considerablemente las aplicaciones que implementan modelos de IA generativos personalizados, aprendizaje profundo, redes neuronales o análisis de datos a gran escala.

  • High-Performance Computing (HPC): use GPU como recursos para altas demandas computacionales en aplicaciones que requieren cálculos y simulaciones complejos, como la computación científica, el modelado financiero o la previsión meteorológica.

  • Representación y visualización: use GPU para acelerar el proceso de representación y habilitar la visualización en tiempo real en aplicaciones que implican la representación 3D, el procesamiento de imágenes o la transcodificación de vídeo.

  • Análisis de macrodatos: las GPU pueden acelerar el procesamiento y el análisis de datos entre conjuntos de datos masivos.

Consideraciones

Tenga en cuenta los siguientes elementos a medida que usa GPU sin servidor:

  • Versión de CUDA: las GPU sin servidor admiten la versión más reciente de CUDA.

  • Limitaciones de compatibilidad:

    • Solo un contenedor de una aplicación puede usar la GPU a la vez. Si tiene varios contenedores en una aplicación, el primer contenedor obtiene acceso a la GPU.
    • Varias aplicaciones pueden compartir el mismo perfil de carga de trabajo de GPU, pero cada una requiere su propia réplica.
    • No se admiten réplicas de GPU multifactor y fraccionario.
    • El primer contenedor de la aplicación obtiene acceso a la GPU.
  • Direcciones IP: las GPU de consumo usan una dirección IP por réplica al configurar la integración con su propia red virtual.

Regiones admitidas

Las GPU sin servidor están disponibles en las siguientes regiones:

Región A100 T4
Este de Australia
Sur de Brasil
Centro de la India No
East US
Centro de Francia No
Norte de Italia
Japón Oriental No
Centro-norte de EE. UU. No
Centro-sur de EE. UU. No
Sudeste asiático No
South India No
Centro de Suecia
Oeste de Europa1 No
Oeste de EE. UU.
Oeste de EE. UU. 2 No
Oeste de EE. UU. 3

1 Para agregar un perfil de carga de trabajo de GPU sin servidor T4 en Oeste de Europa, debe crear un nuevo entorno de perfil de carga de trabajo en la región.

Uso de GPU sin servidor

Al crear una aplicación de contenedor a través de Azure Portal, puede configurar el contenedor para usar recursos de GPU.

En la pestaña Contenedor del proceso de creación, establezca la siguiente configuración:

  1. En la sección Asignación de recursos de contenedor , active la casilla GPU .

  2. En Tipo de GPU, seleccione la opción NVIDIA A100 o NVIDIA T4.

Administración del perfil de carga de trabajo de GPU sin servidor

Las GPU sin servidor funcionan con perfiles de carga de trabajo de GPU basados en consumo. Puede administrar un perfil de carga de trabajo de GPU de consumo de la misma manera que cualquier otro perfil de carga de trabajo. Puede administrar el perfil de carga de trabajo mediante la CLI o Azure Portal.

Solicitud de cuota de GPU sin servidor

Nota

Clientes con acuerdos empresariales y clientes de pago por uso tienen habilitada la cuota A100 y T4 de manera predeterminada.

Necesita una cuota de GPU sin servidor para acceder a esta característica. Puede enviar la solicitud de cuota de GPU a través de un caso de soporte técnico al cliente. Al abrir un caso de soporte técnico para una solicitud de cuota de GPU, seleccione las siguientes opciones:

  1. Abra el formulario Nueva solicitud de soporte técnico en Azure Portal.

  2. Escriba los valores siguientes en el formulario:

    Propiedad Importancia
    Tipo de problema Seleccione Límites de servicio y suscripción (cuotas)
    Subscription Seleccione su suscripción.
    Tipo de cuota Seleccione Container Apps.
  3. Seleccione Siguiente.

  4. En la ventana Detalles adicionales , seleccione Especificar detalles para abrir la ventana de detalles de la solicitud.

    Captura de pantalla de la ventana de detalles del sistema de administración de cuotas de Azure.

  5. En Tipo de cuota, seleccione Consumo de entorno administrado NCA100 Gpu o Consumo de entorno administrado T4 Gpu. Introduzca los demás valores.

  6. Selecciona Guardar y continuar.

  7. Rellene el resto de los detalles pertinentes en la ventana Detalles adicionales .

  8. Seleccione Siguiente.

  9. Selecciona Crear.

Mejora del arranque en frío de GPU

Para mejorar significativamente los tiempos de inicio en frío, habilite el streaming de artefactos y busque archivos grandes, como modelos de lenguaje grandes, en un montaje de almacenamiento.

  • Streaming de artefacto: Azure Container Registry ofrece streaming de imagen que puede acelerar significativamente los tiempos de inicio de la imagen. Para usar el streaming de artefactos, debe hospedar las imágenes de contenedor en un registro premium de Azure Container Registry.

  • Montajes de almacenamiento: reduzca los efectos de la latencia de red almacenando archivos grandes en una cuenta de almacenamiento de Azure asociada a la aplicación contenedora.

Implementación de modelos Foundry en GPU sin servidor (versión preliminar)

Las GPU sin servidor de Azure Container Apps ahora admiten modelos de Azure AI Foundry en versión preliminar pública. Los modelos de Azure AI Foundry tienen dos opciones de implementación:

La GPU serverless de Azure Container Apps ofrece una opción de implementación equilibrada entre las API sin servidor y el cómputo gestionado para implementar modelos de Foundry. Esta opción es a petición con el escalado sin servidor que se escala a cero cuando no está en uso y cumple con las necesidades de residencia de datos. Con las GPU sin servidor, el uso de modelos Foundry le ofrece flexibilidad para ejecutar cualquier modelo compatible con escalado automático, precios por segundo, gobernanza completa de datos, y soporte inmediato para redes empresariales y seguridad.

Se admiten modelos de lenguaje del tipo MLFLOW . Para ver una lista de MLFLOW modelos, vaya a la lista de modelos disponibles en el registro de AzureML. Para buscar los modelos, agregue un filtro para MLFLOW los modelos mediante los pasos siguientes:

  1. Seleccione Filtro.

  2. Seleccione Agregar filtro.

  3. En la regla de filtro, escriba Type = MLFLOW.

Para los modelos enumerados aquí en el repositorio de Azure Container Apps, puede implementarlos directamente en GPU sin servidor sin necesidad de compilar su propia imagen mediante el siguiente comando de la CLI:

az containerapp up \
  --name <CONTAINER_APP_NAME> \
  --location <LOCATION> \
  --resource-group <RESOURCE_GROUP_NAME> \
  --model-registry <MODEL_REGISTRY_NAME> \
  --model-name <MODEL_NAME> \
  --model-version <MODEL_VERSION>

Para cualquier modelo que no esté en esta lista, necesitas:

  1. Descargue la plantilla de GitHub para la imagen de modelo desde el repositorio de Azure Container Apps.

  2. Modifique el archivo score.py para que coincida con el tipo de modelo. El script de puntuación (denominado score.py) define cómo interactúa con el modelo. En el ejemplo siguiente se muestra cómo usar un archivo score.py personalizado.

  3. Compile la imagen e impleméntela en un registro de contenedor.

  4. Use el comando anterior de la CLI para implementar el modelo en GPU sin servidor, pero especifique. --image Al usar los parámetros --model-registry, --model-name y --model-version, las variables de entorno clave se establecen para optimizar el arranque en frío de su aplicación.

Enviar comentarios

Envíe problemas al repositorio de GitHub de Azure Container Apps.

Pasos siguientes