Compartilhar via


Habilitar o processamento de prioridade para modelos do Microsoft Foundry

O processamento prioritário fornece performance de baixa latência com a flexibilidade do pagamento conforme o uso. Neste artigo, você habilita o processamento de prioridade em uma implantação de modelo, verifica qual camada de serviço processou suas solicitações e monitora os custos associados.

Pré-requisitos

  • Uma assinatura Azure – Criar uma gratuitamente.
  • Um projeto do Microsoft Foundry com um modelo do tipo de implantação GlobalStandard ou DataZoneStandard implantado.
  • Versão da API 2025-12-01 ou posterior.

Principais casos de uso

  • Latência consistente e baixa para experiências de usuário responsivas.
  • Simplicidade paga conforme o uso sem compromissos de longo prazo.
  • Tráfego em horário comercial ou em rajadas que se beneficia do desempenho escalonável e econômico. Opcionalmente, você pode combinar o processamento prioritário com as Unidades de Produtividade Provisionada (PTU) para otimização da capacidade estável e dos custos.

Meta de latência

Modelo Valor de destino de latência2
gpt-5.4, 2026-03-051 99% > 50 tokens por segundo
gpt-5.2, 2025-12-11 99% > 50 tokens por segundo
gpt-5.1, 2025-11-13 99% > 50 tokens por segundo
gpt-4.1, 2025-04-141 99% > 80 tokens por segundo

1 Solicitações com contexto extenso (ou seja, solicitações estimadas em mais de 128 mil tokens de prompt) serão reclassificadas para o processamento padrão, e você será cobrado de acordo com a tarifa da camada standard.

2 Calculado como latência de solicitação p50 por 5 minutos.

Disponibilidade de processamento prioritário por tipo de implantação

O processamento prioritário pode ser ativado em implantações padrão globais ou em implantações padrão da Data Zone (EUA). Para obter informações sobre preços, consulte a página de preços do Azure OpenAI.

Disponibilidade de modelo padrão global

Região gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
australiaeast -
Brasil Sul -
CanadáCentral -
Canadá Oriental -
centralus -
eastus -
eastus2 - - - -
francecentral -
alemanhacentro-oeste -
italynorth -
japaneast -
koreacentral -
northcentralus -
noruega-leste -
Polônia Central
southafricanorth -
southcentralus
southeastasia -
sul da Índia -
spaincentral -
swedencentral
Suíça Norte -
switzerlandwest -
uaenorth -
uksouth -
westeurope -
westus -
westus3 -

Habilitar o processamento de prioridade no nível de implantação

Você pode habilitar o processamento de prioridade no nível de implantação e (opcionalmente) no nível da solicitação.

Observação

O processamento de prioridade pode ser habilitado em implantações padrão global ou padrão da Zona de Dados (EUA). O processamento de prioridade usa a mesma cota que o processamento padrão.

No portal do Microsoft Foundry , ative a alternância de processamento de prioridade na página de detalhes da implantação ao criar a implantação ou atualizar a configuração de um modelo implantado editando os detalhes da implantação.

Captura de tela mostrando como habilitar o processamento de prioridade durante a implantação do modelo no portal do Foundry.

Observação

Se você preferir usar o código para habilitar o processamento de prioridade no nível de implantação, poderá fazê-lo por meio da API REST para implantação definindo o service_tier atributo da seguinte maneira: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority. default implica o processamento padrão, enquanto priority habilita o processamento de prioridade.

Depois que uma implantação de modelo é configurada para usar o processamento de prioridade, você pode começar a enviar solicitações para o modelo.

Obter métricas de uso

Você pode exibir a medida de utilização do recurso na seção Azure Monitor no Azure portal.

Para exibir o volume de solicitações processadas pelo processamento padrão versus o processamento de prioridade, divida pela camada de serviço (padrão ou prioridade) que estava na solicitação original:

  1. Entre no https://portal.azure.com.
  2. Vá para o recurso Azure OpenAI e selecione a opção Metrics na navegação à esquerda.
  3. Na página de métricas, adicione a métrica Azure OpenAI requests. Você também pode selecionar outras métricas, como latência do Azure OpenAI, uso do Azure OpenAI e outras.
  4. Selecione Adicionar filtro para selecionar a implantação padrão para a qual as solicitações de processamento de prioridade foram processadas.
  5. Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.

Screenshot da utilização do processamento prioritário na página de métricas do recurso no portal do Azure.

Para obter mais informações sobre como monitorar suas implantações, consulte Monitor Azure OpenAI.

Monitorar custos

Você pode ver uma divisão dos custos para solicitações prioritárias e padrão na página de análise de custos do portal do Azure, filtrando pelo nome da implantação e pelas tags de cobrança da seguinte maneira:

  1. Vá para a página de análise de custos no Azure portal.
  2. (Opcional) Filtrar por recurso.
  3. Para filtrar pelo nome da implantação: adicione um filtro para cobrança Etiqueta> selecione implantação como o valor e escolha o nome da implantação.

Captura de tela da utilização de processamento de prioridade na página de análise de custo do recurso no portal do Azure.

Para obter informações sobre preços para processamento de prioridade, consulte a visão geral de preços Azure OpenAI Service.

Habilitar o processamento de prioridade no nível da solicitação

Habilitar o processamento de prioridade no nível da solicitação é opcional. A API de conclusões de chat e a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a ser usado ao atender a uma solicitação. O exemplo a seguir mostra como definir service_tier como priority em uma solicitação de respostas.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Use o service_tier atributo para substituir a configuração de nível de implantação. service_tier pode levar os valores auto, defaulte priority.

  • Se você não definir o atributo, ele usará como padrão auto.

  • service_tier = auto significa que a solicitação usa a camada de serviço configurada na implantação.

  • service_tier = default significa que a solicitação usa o preço e o desempenho padrão para o modelo selecionado.

  • service_tier = priority significa que a solicitação usa a camada de serviço de processamento de prioridade.

A tabela a seguir resume qual camada de serviço processa suas solicitações com base nas configurações de nível de implantação e de solicitação para service_tier.

Configuração de nível de implementação Configuração no nível da solicitação Solicitação processada por camada de serviço
padrão auto, padrão Standard
padrão priority Processamento prioritário
priority auto, prioridade Processamento prioritário
priority padrão Standard

Limitações

  • Atualmente, o serviço não dá suporte a implantações padrão regionais e implantações padrão na zona de dados da UE.

  • O serviço pode redirecionar algumas solicitações de prioridade para o processamento padrão* durante estes cenários:

    • Se aumentos rápidos no número de tokens de processamento prioritário por minuto levarem ao atingimento dos limites de taxa de aumento. Atualmente, o limite de taxa de rampa é definido para aumentar em 50% o tráfego de tokens por minuto em menos de 15 minutos.
    • Durante períodos de pico de solicitações para processamento de prioridade.
    • Solicitações de longo contexto enviadas a determinados modelos listados na tabela de metas de latência.

    Dica

    Se você encontrar rotineiramente limites de taxa de aclive, considere substituir ou adicionar a compra de PTU além do processamento prioritário.

    * As cobranças de solicitações são processadas pela camada de serviço padrão e cobradas a taxas padrão. As solicitações processadas pela camada de serviço padrão incluem service_tier = default na resposta, enquanto as solicitações processadas pela camada de processamento de prioridade incluem service_tier = priority na resposta.

Resolução de problemas

Questão Motivo Resolução
Solicitações rebaixadas para a camada padrão Uma destas situações:
- O tráfego aumentou mais de 50% em tokens por minuto em menos de 15 minutos, atingindo o limite da taxa de aumento.
- Solicitações enviadas durante períodos de pico de solicitações para processamento de prioridade.
- Solicitações de contexto longo enviadas a determinados modelos listados na tabela de metas de latência.
- Aumente o tráfego gradualmente, caso tenha atingido os limites de taxa de aumento.
– Considere a compra de PTU para capacidade de operação contínua.