Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O processamento prioritário fornece performance de baixa latência com a flexibilidade do pagamento conforme o uso. Neste artigo, você habilita o processamento de prioridade em uma implantação de modelo, verifica qual camada de serviço processou suas solicitações e monitora os custos associados.
Pré-requisitos
- Uma assinatura Azure – Criar uma gratuitamente.
- Um projeto do Microsoft Foundry com um modelo do tipo de implantação
GlobalStandardouDataZoneStandardimplantado. - Versão da API
2025-12-01ou posterior.
Principais casos de uso
- Latência consistente e baixa para experiências de usuário responsivas.
- Simplicidade paga conforme o uso sem compromissos de longo prazo.
- Tráfego em horário comercial ou em rajadas que se beneficia do desempenho escalonável e econômico. Opcionalmente, você pode combinar o processamento prioritário com as Unidades de Produtividade Provisionada (PTU) para otimização da capacidade estável e dos custos.
Meta de latência
| Modelo | Valor de destino de latência2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 tokens por segundo |
| gpt-5.2, 2025-12-11 | 99% > 50 tokens por segundo |
| gpt-5.1, 2025-11-13 | 99% > 50 tokens por segundo |
| gpt-4.1, 2025-04-141 | 99% > 80 tokens por segundo |
1 Solicitações com contexto extenso (ou seja, solicitações estimadas em mais de 128 mil tokens de prompt) serão reclassificadas para o processamento padrão, e você será cobrado de acordo com a tarifa da camada standard.
2 Calculado como latência de solicitação p50 por 5 minutos.
Disponibilidade de processamento prioritário por tipo de implantação
O processamento prioritário pode ser ativado em implantações padrão globais ou em implantações padrão da Data Zone (EUA). Para obter informações sobre preços, consulte a página de preços do Azure OpenAI.
Disponibilidade de modelo padrão global
| Região | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ |
| Brasil Sul | - | ✅ | ✅ | ✅ |
| CanadáCentral | - | ✅ | ✅ | ✅ |
| Canadá Oriental | - | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ |
| eastus2 | - | - | - | - |
| francecentral | - | ✅ | ✅ | ✅ |
| alemanhacentro-oeste | - | ✅ | ✅ | ✅ |
| italynorth | - | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ |
| northcentralus | - | ✅ | ✅ | ✅ |
| noruega-leste | - | ✅ | ✅ | ✅ |
| Polônia Central | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ |
| southeastasia | - | ✅ | ✅ | ✅ |
| sul da Índia | - | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ |
| swedencentral | ✅ | ✅ | ✅ | ✅ |
| Suíça Norte | - | ✅ | ✅ | ✅ |
| switzerlandwest | - | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ |
Habilitar o processamento de prioridade no nível de implantação
Você pode habilitar o processamento de prioridade no nível de implantação e (opcionalmente) no nível da solicitação.
Observação
O processamento de prioridade pode ser habilitado em implantações padrão global ou padrão da Zona de Dados (EUA). O processamento de prioridade usa a mesma cota que o processamento padrão.
No portal do Microsoft Foundry , ative a alternância de processamento de prioridade na página de detalhes da implantação ao criar a implantação ou atualizar a configuração de um modelo implantado editando os detalhes da implantação.
Observação
Se você preferir usar o código para habilitar o processamento de prioridade no nível de implantação, poderá fazê-lo por meio da API REST para implantação definindo o service_tier atributo da seguinte maneira: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority.
default implica o processamento padrão, enquanto priority habilita o processamento de prioridade.
Depois que uma implantação de modelo é configurada para usar o processamento de prioridade, você pode começar a enviar solicitações para o modelo.
Obter métricas de uso
Você pode exibir a medida de utilização do recurso na seção Azure Monitor no Azure portal.
Para exibir o volume de solicitações processadas pelo processamento padrão versus o processamento de prioridade, divida pela camada de serviço (padrão ou prioridade) que estava na solicitação original:
- Entre no https://portal.azure.com.
- Vá para o recurso Azure OpenAI e selecione a opção Metrics na navegação à esquerda.
- Na página de métricas, adicione a métrica Azure OpenAI requests. Você também pode selecionar outras métricas, como latência do Azure OpenAI, uso do Azure OpenAI e outras.
- Selecione Adicionar filtro para selecionar a implantação padrão para a qual as solicitações de processamento de prioridade foram processadas.
- Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.
Para obter mais informações sobre como monitorar suas implantações, consulte Monitor Azure OpenAI.
Monitorar custos
Você pode ver uma divisão dos custos para solicitações prioritárias e padrão na página de análise de custos do portal do Azure, filtrando pelo nome da implantação e pelas tags de cobrança da seguinte maneira:
- Vá para a página de análise de custos no Azure portal.
- (Opcional) Filtrar por recurso.
- Para filtrar pelo nome da implantação: adicione um filtro para cobrança Etiqueta> selecione implantação como o valor e escolha o nome da implantação.
Para obter informações sobre preços para processamento de prioridade, consulte a visão geral de preços Azure OpenAI Service.
Habilitar o processamento de prioridade no nível da solicitação
Habilitar o processamento de prioridade no nível da solicitação é opcional. A API de conclusões de chat e a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a ser usado ao atender a uma solicitação. O exemplo a seguir mostra como definir service_tier como priority em uma solicitação de respostas.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Use o service_tier atributo para substituir a configuração de nível de implantação.
service_tier pode levar os valores auto, defaulte priority.
Se você não definir o atributo, ele usará como padrão
auto.service_tier = autosignifica que a solicitação usa a camada de serviço configurada na implantação.service_tier = defaultsignifica que a solicitação usa o preço e o desempenho padrão para o modelo selecionado.service_tier = prioritysignifica que a solicitação usa a camada de serviço de processamento de prioridade.
A tabela a seguir resume qual camada de serviço processa suas solicitações com base nas configurações de nível de implantação e de solicitação para service_tier.
| Configuração de nível de implementação | Configuração no nível da solicitação | Solicitação processada por camada de serviço |
|---|---|---|
| padrão | auto, padrão | Standard |
| padrão | priority | Processamento prioritário |
| priority | auto, prioridade | Processamento prioritário |
| priority | padrão | Standard |
Limitações
Atualmente, o serviço não dá suporte a implantações padrão regionais e implantações padrão na zona de dados da UE.
O serviço pode redirecionar algumas solicitações de prioridade para o processamento padrão* durante estes cenários:
- Se aumentos rápidos no número de tokens de processamento prioritário por minuto levarem ao atingimento dos limites de taxa de aumento. Atualmente, o limite de taxa de rampa é definido para aumentar em 50% o tráfego de tokens por minuto em menos de 15 minutos.
- Durante períodos de pico de solicitações para processamento de prioridade.
- Solicitações de longo contexto enviadas a determinados modelos listados na tabela de metas de latência.
Dica
Se você encontrar rotineiramente limites de taxa de aclive, considere substituir ou adicionar a compra de PTU além do processamento prioritário.
* As cobranças de solicitações são processadas pela camada de serviço padrão e cobradas a taxas padrão. As solicitações processadas pela camada de serviço padrão incluem
service_tier = defaultna resposta, enquanto as solicitações processadas pela camada de processamento de prioridade incluemservice_tier = priorityna resposta.
Resolução de problemas
| Questão | Motivo | Resolução |
|---|---|---|
| Solicitações rebaixadas para a camada padrão | Uma destas situações: - O tráfego aumentou mais de 50% em tokens por minuto em menos de 15 minutos, atingindo o limite da taxa de aumento. - Solicitações enviadas durante períodos de pico de solicitações para processamento de prioridade. - Solicitações de contexto longo enviadas a determinados modelos listados na tabela de metas de latência. |
- Aumente o tráfego gradualmente, caso tenha atingido os limites de taxa de aumento. – Considere a compra de PTU para capacidade de operação contínua. |