Nota
O acceso a esta páxina require autorización. Pode tentar iniciar sesión ou modificar os directorios.
O acceso a esta páxina require autorización. Pode tentar modificar os directorios.
El procesamiento de prioridad proporciona un rendimiento de baja latencia con la flexibilidad de pago por uso. En este artículo, habilitará el procesamiento prioritario en una implementación de modelo, comprobará qué nivel de servicio procesó las solicitudes y supervisará los costos asociados.
Prerrequisitos
- Una suscripción Azure: Crear una gratuita.
- Un proyecto de Microsoft Foundry con un modelo del tipo de implementación
GlobalStandardoDataZoneStandardimplementado. - Versión
2025-12-01de la API o posterior.
Casos de uso clave
- Latencia coherente y baja para experiencias de usuario con capacidad de respuesta.
- Simplicidad de pago por uso sin compromisos a largo plazo.
- Tráfico de horas laborales o puntual que se beneficia del rendimiento rentable y escalable. Opcionalmente, puede combinar el procesamiento prioritario con unidades de rendimiento aprovisionadas (PTU) para la capacidad de estado estable y la optimización de costos.
Objetivo de latencia
| Modelo | Valor objetivo de latencia2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 tokens por segundo |
| gpt-5.2, 2025-12-11 | 99% > 50 tokens por segundo |
| gpt-5.1, 2025-11-13 | 99% > 50 tokens por segundo |
| gpt-4.1, 2025-04-141 | 99% > 80 tokens por segundo |
1 Las solicitudes con un contexto extenso (es decir, aquellas que se estimen en más de 128 000 tokens de solicitud) se degradarán al procesamiento estándar y se le aplicará la tarifa del nivel estándar.
2 Se calcula como latencia de solicitud p50 por cada 5 minutos.
Disponibilidad de procesamiento prioritario por tipo de implementación
El procesamiento prioritario se puede habilitar en implementaciones estándar globales o implementaciones estándar de zona de datos (EE. UU.). Para obtener información sobre los precios, consulte la página de precios de Azure OpenAI.
Disponibilidad del modelo estándar global
| Region | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ |
| brazilsouth | - | ✅ | ✅ | ✅ |
| canadacentral | - | ✅ | ✅ | ✅ |
| canadaeast | - | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ |
| eastus2 | - | - | - | - |
| francecentral | - | ✅ | ✅ | ✅ |
| germanywestcentral | - | ✅ | ✅ | ✅ |
| italynorth | - | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ |
| northcentralus | - | ✅ | ✅ | ✅ |
| norwayeast | - | ✅ | ✅ | ✅ |
| polandcentral | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ |
| southeastasia | - | ✅ | ✅ | ✅ |
| southindia | - | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ |
| swedencentral | ✅ | ✅ | ✅ | ✅ |
| switzerlandnorth | - | ✅ | ✅ | ✅ |
| switzerlandwest | - | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ |
Habilitación del procesamiento de prioridad en el nivel de implementación
Puede habilitar el procesamiento de prioridad en el nivel de implementación y (opcionalmente) en el nivel de solicitud.
Nota:
El procesamiento de prioridad se puede habilitar en implementaciones estándar globales o estándar de zona de datos (EE. UU.). El procesamiento de prioridad usa la misma cuota que el procesamiento estándar.
En el portal de Microsoft Foundry, active el interruptor Procesamiento de prioridad en la página de detalles de implementación al crear la implementación o actualice los ajustes de un modelo desplegado modificando los detalles de la implementación.
Nota:
Si prefiere usar código para habilitar el procesamiento de prioridad en el nivel de implementación, puede hacerlo a través de la API REST para la implementación estableciendo el atributo de la service_tier siguiente manera: "properties" : {"service_tier" : "priority"}. Los valores permitidos para el service_tier atributo son default y priority.
default implica el procesamiento estándar, mientras que priority habilita el procesamiento prioritario.
Una vez configurada la implementación de un modelo para usar el procesamiento de prioridad, puede empezar a enviar solicitudes al modelo.
Visualización de métricas de uso
Puede ver la medida de uso del recurso en la sección Azure Monitor de la Azure portal.
Para ver el volumen de solicitudes procesadas por procesamiento estándar frente al procesamiento de prioridad, divida por el nivel de servicio (estándar o prioridad) que estaba en la solicitud original:
- Inicie sesión en https://portal.azure.com.
- Vaya al recurso Azure OpenAI y seleccione la opción Metrics en el panel de navegación izquierdo.
- En la página de métricas, agregue la métrica solicitudes de Azure OpenAI. También puede seleccionar otras métricas, como latencia de Azure OpenAI, uso de Azure OpenAI y otras.
- Seleccione Agregar filtro para seleccionar la implementación estándar para la que se procesaron las solicitudes de procesamiento de prioridad.
- Seleccione Aplicar división para dividir los valores por ServiceTierRequest y ServiceTierResponse.
Para obtener más información sobre la supervisión de las implementaciones, consulte Monitor Azure OpenAI.
Supervisión de costos
Puede ver un desglose de los costos de las solicitudes de prioridad y estándar en la página de análisis de costos del Azure portal filtrando el nombre de implementación y las etiquetas de facturación de la siguiente manera:
- Vaya a la página de análisis de costos en el Azure portal.
- (Opcional) Filtre por recurso.
- Para filtrar por nombre de implementación: agregue un filtro para la etiqueta de facturación > seleccione la implementación como valor y, a continuación, elija el nombre de la implementación.
Para obtener información sobre los precios del procesamiento prioritario, consulte la introducción a los precios de Azure OpenAI Service.
Habilitación del procesamiento de prioridad en el nivel de solicitud
La habilitación del procesamiento de prioridad en el nivel de solicitud es opcional. Tanto la API de finalizaciones de chat como la API de respuestas tienen un atributo service_tier opcional que especifica el tipo de procesamiento que se va a usar al atender una solicitud. En el ejemplo siguiente se muestra cómo establecer service_tier a priority en una solicitud de respuesta.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Use el service_tier atributo para invalidar la configuración de nivel de implementación.
service_tier puede tomar los valores auto, defaulty priority.
Si no establece el atributo , el valor predeterminado es
auto.service_tier = autosignifica que la solicitud usa el nivel de servicio configurado en la implementación.service_tier = defaultsignifica que la solicitud usa los precios y el rendimiento estándar para el modelo seleccionado.service_tier = prioritysignifica que la solicitud usa el nivel de servicio de procesamiento de prioridad.
En la tabla siguiente se resumen los niveles de servicio que procesan las solicitudes en función de la configuración de nivel de implementación y de nivel de solicitud para service_tier.
| Configuración de nivel de implementación | Configuración de nivel de solicitud | Solicitud procesada por nivel de servicio |
|---|---|---|
| predeterminado | automático, predeterminado | Estándar |
| predeterminado | prioridad | Procesamiento prioritario |
| prioridad | auto, prioridad | Procesamiento prioritario |
| prioridad | predeterminado | Estándar |
Limitaciones
Actualmente, el servicio no admite implementaciones estándar regionales ni implementaciones estándar de zona de datos de la UE.
El servicio puede volver a enrutar algunas solicitudes de prioridad al procesamiento estándar* durante estos escenarios:
- Si el rápido aumento de los tokens de procesamiento prioritario por minuto hace que se alcancen los límites de velocidad de rampa. Actualmente, el límite de aumento gradual se define como un aumento del tráfico en más de 50 % tokens por minuto en menos de 15 minutos.
- Durante los periodos de mayor volumen de solicitudes para el procesamiento prioritario.
- Solicitudes de contexto largas enviadas a determinados modelos enumerados en la tabla de objetivos de latencia.
Sugerencia
Si rutinariamente encuentra límites de aumento gradual, considere la posibilidad de comprar PTU en lugar del procesamiento prioritario o adicionalmente.
* El servicio factura las solicitudes procesadas por el nivel de servicio estándar a tarifas estándar. Las solicitudes procesadas por el nivel de servicio estándar incluyen
service_tier = defaulten la respuesta, mientras que las solicitudes procesadas por el nivel de procesamiento de prioridad incluyenservice_tier = priorityen la respuesta.
Solución de problemas
| Cuestión | Causa | Resolución |
|---|---|---|
| Solicitudes degradadas al nivel estándar | Una de estas situaciones: - El tráfico aumentó más del 50 % de tokens por minuto en menos de 15 minutos y alcanzó el límite de la tasa de aumento. - Solicitudes enviadas durante períodos de alto volumen de solicitudes son procesadas prioritariamente. - Solicitudes de contexto largas enviadas a determinados modelos enumerados en la tabla de destino de latencia. |
- Aumente el tráfico de forma gradual si ha detectado límites de velocidad de rampa. - Considere la posibilidad de adquirir PTU para obtener una capacidad de estado estable. |