Habilitación del procesamiento de prioridad para los modelos de Microsoft Foundry

El procesamiento de prioridad proporciona un rendimiento de baja latencia con la flexibilidad de pago por uso. En este artículo, habilitará el procesamiento prioritario en una implementación de modelo, comprobará qué nivel de servicio procesó las solicitudes y supervisará los costos asociados.

Prerrequisitos

Una suscripción Azure: Crear una gratuita.
Un proyecto de Microsoft Foundry con un modelo del tipo de implementación GlobalStandard o DataZoneStandard implementado.
Versión 2025-12-01 de la API o posterior.

Casos de uso clave

Latencia coherente y baja para experiencias de usuario con capacidad de respuesta.
Simplicidad de pago por uso sin compromisos a largo plazo.
Tráfico de horas laborales o puntual que se beneficia del rendimiento rentable y escalable. Opcionalmente, puede combinar el procesamiento prioritario con unidades de rendimiento aprovisionadas (PTU) para la capacidad de estado estable y la optimización de costos.

Objetivo de latencia

Modelo	Valor objetivo de latencia²
gpt-5.4, 2026-03-05¹	99% > 50 tokens por segundo
gpt-5.2, 2025-12-11	99% > 50 tokens por segundo
gpt-5.1, 2025-11-13	99% > 50 tokens por segundo
gpt-4.1, 2025-04-14¹	99% > 80 tokens por segundo

¹ Las solicitudes con un contexto extenso (es decir, aquellas que se estimen en más de 128 000 tokens de solicitud) se degradarán al procesamiento estándar y se le aplicará la tarifa del nivel estándar.

² Se calcula como latencia de solicitud p50 por cada 5 minutos.

Disponibilidad de procesamiento prioritario por tipo de implementación

El procesamiento prioritario se puede habilitar en implementaciones estándar globales o implementaciones estándar de zona de datos (EE. UU.). Para obtener información sobre los precios, consulte la página de precios de Azure OpenAI.

Estándar global
Estándar de zona de datos

Disponibilidad del modelo estándar global

Region	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
australiaeast	-	✅	✅	✅
brazilsouth	-	✅	✅	✅
canadacentral	-	✅	✅	✅
canadaeast	-	✅	✅	✅
centralus	-	✅	✅	✅
eastus	-	✅	✅	✅
eastus2	-	-	-	-
francecentral	-	✅	✅	✅
germanywestcentral	-	✅	✅	✅
italynorth	-	✅	✅	✅
japaneast	-	✅	✅	✅
koreacentral	-	✅	✅	✅
northcentralus	-	✅	✅	✅
norwayeast	-	✅	✅	✅
polandcentral	✅	✅	✅	✅
southafricanorth	-	✅	✅	✅
southcentralus	✅	✅	✅	✅
southeastasia	-	✅	✅	✅
southindia	-	✅	✅	✅
spaincentral	-	✅	✅	✅
swedencentral	✅	✅	✅	✅
switzerlandnorth	-	✅	✅	✅
switzerlandwest	-	✅	✅	✅
uaenorth	-	✅	✅	✅
uksouth	-	✅	✅	✅
westeurope	-	✅	✅	✅
westus	-	✅	✅	✅
westus3	-	✅	✅	✅

Disponibilidad del modelo estándar de zona de datos

Region	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
centralus	✅	✅	✅	✅
eastus	✅	✅	✅	✅
eastus2	-	-	-	-
northcentralus	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅
westus	✅	✅	✅	✅
westus3	✅	✅	✅	✅

Habilitación del procesamiento de prioridad en el nivel de implementación

Puede habilitar el procesamiento de prioridad en el nivel de implementación y (opcionalmente) en el nivel de solicitud.

Nota:

El procesamiento de prioridad se puede habilitar en implementaciones estándar globales o estándar de zona de datos (EE. UU.). El procesamiento de prioridad usa la misma cuota que el procesamiento estándar.

En el portal de Microsoft Foundry, active el interruptor Procesamiento de prioridad en la página de detalles de implementación al crear la implementación o actualice los ajustes de un modelo desplegado modificando los detalles de la implementación.

Nota:

Si prefiere usar código para habilitar el procesamiento de prioridad en el nivel de implementación, puede hacerlo a través de la API REST para la implementación estableciendo el atributo de la service_tier siguiente manera: "properties" : {"service_tier" : "priority"}. Los valores permitidos para el service_tier atributo son default y priority. default implica el procesamiento estándar, mientras que priority habilita el procesamiento prioritario.

Una vez configurada la implementación de un modelo para usar el procesamiento de prioridad, puede empezar a enviar solicitudes al modelo.

Visualización de métricas de uso

Puede ver la medida de uso del recurso en la sección Azure Monitor de la Azure portal.

Para ver el volumen de solicitudes procesadas por procesamiento estándar frente al procesamiento de prioridad, divida por el nivel de servicio (estándar o prioridad) que estaba en la solicitud original:

Inicie sesión en https://portal.azure.com.
Vaya al recurso Azure OpenAI y seleccione la opción Metrics en el panel de navegación izquierdo.
En la página de métricas, agregue la métrica solicitudes de Azure OpenAI. También puede seleccionar otras métricas, como latencia de Azure OpenAI, uso de Azure OpenAI y otras.
Seleccione Agregar filtro para seleccionar la implementación estándar para la que se procesaron las solicitudes de procesamiento de prioridad.
Seleccione Aplicar división para dividir los valores por ServiceTierRequest y ServiceTierResponse.

Para obtener más información sobre la supervisión de las implementaciones, consulte Monitor Azure OpenAI.

Supervisión de costos

Puede ver un desglose de los costos de las solicitudes de prioridad y estándar en la página de análisis de costos del Azure portal filtrando el nombre de implementación y las etiquetas de facturación de la siguiente manera:

Vaya a la página de análisis de costos en el Azure portal.
(Opcional) Filtre por recurso.
Para filtrar por nombre de implementación: agregue un filtro para la etiqueta de facturación > seleccione la implementación como valor y, a continuación, elija el nombre de la implementación.

Para obtener información sobre los precios del procesamiento prioritario, consulte la introducción a los precios de Azure OpenAI Service.

Habilitación del procesamiento de prioridad en el nivel de solicitud

La habilitación del procesamiento de prioridad en el nivel de solicitud es opcional. Tanto la API de finalizaciones de chat como la API de respuestas tienen un atributo service_tier opcional que especifica el tipo de procesamiento que se va a usar al atender una solicitud. En el ejemplo siguiente se muestra cómo establecer service_tier a priority en una solicitud de respuesta.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Use el service_tier atributo para invalidar la configuración de nivel de implementación. service_tier puede tomar los valores auto, defaulty priority.

Si no establece el atributo , el valor predeterminado es auto.
service_tier = auto significa que la solicitud usa el nivel de servicio configurado en la implementación.
service_tier = default significa que la solicitud usa los precios y el rendimiento estándar para el modelo seleccionado.
service_tier = priority significa que la solicitud usa el nivel de servicio de procesamiento de prioridad.

En la tabla siguiente se resumen los niveles de servicio que procesan las solicitudes en función de la configuración de nivel de implementación y de nivel de solicitud para service_tier.

Configuración de nivel de implementación	Configuración de nivel de solicitud	Solicitud procesada por nivel de servicio
predeterminado	automático, predeterminado	Estándar
predeterminado	prioridad	Procesamiento prioritario
prioridad	auto, prioridad	Procesamiento prioritario
prioridad	predeterminado	Estándar

Limitaciones

Actualmente, el servicio no admite implementaciones estándar regionales ni implementaciones estándar de zona de datos de la UE.
El servicio puede volver a enrutar algunas solicitudes de prioridad al procesamiento estándar* durante estos escenarios:
- Si el rápido aumento de los tokens de procesamiento prioritario por minuto hace que se alcancen los límites de velocidad de rampa. Actualmente, el límite de aumento gradual se define como un aumento del tráfico en más de 50 % tokens por minuto en menos de 15 minutos.
- Durante los periodos de mayor volumen de solicitudes para el procesamiento prioritario.
- Solicitudes de contexto largas enviadas a determinados modelos enumerados en la tabla de objetivos de latencia.
Sugerencia

Si rutinariamente encuentra límites de aumento gradual, considere la posibilidad de comprar PTU en lugar del procesamiento prioritario o adicionalmente.

* El servicio factura las solicitudes procesadas por el nivel de servicio estándar a tarifas estándar. Las solicitudes procesadas por el nivel de servicio estándar incluyen service_tier = default en la respuesta, mientras que las solicitudes procesadas por el nivel de procesamiento de prioridad incluyen service_tier = priority en la respuesta.

Solución de problemas

Cuestión	Causa	Resolución
Solicitudes degradadas al nivel estándar	Una de estas situaciones: - El tráfico aumentó más del 50 % de tokens por minuto en menos de 15 minutos y alcanzó el límite de la tasa de aumento. - Solicitudes enviadas durante períodos de alto volumen de solicitudes son procesadas prioritariamente. - Solicitudes de contexto largas enviadas a determinados modelos enumerados en la tabla de destino de latencia.	- Aumente el tráfico de forma gradual si ha detectado límites de velocidad de rampa. - Considere la posibilidad de adquirir PTU para obtener una capacidad de estado estable.

Comentarios

Resultoulle útil esta páxina?

Last updated on 2026-03-24