Ativar o processamento prioritário para modelos Microsoft Foundry (pré-visualização) (clássico)

Observação

Este documento refere-se ao portal Microsoft Foundry (clássico).

🔍 Consulte a documentação (nova) da Microsoft Foundry para saber mais sobre o novo portal.

Importante

O processamento prioritário está em fase de testes e disponível apenas por convite. Registe-se aqui para ser notificado quando estiver mais amplamente disponível.

Esta pré-visualização é fornecida sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

O processamento prioritário oferece desempenho de baixa latência com a flexibilidade do pay-as-you-go. Opera com um modelo de token de pagamento conforme o uso, oferecendo respostas rápidas sem compromissos contratuais de longo prazo. Neste artigo, ativa o processamento prioritário numa implementação de modelo, verifica qual o nível de serviço que processou os seus pedidos e monitoriza os custos associados.

Pré-requisitos

Uma assinatura do Azure - Crie uma gratuitamente.
Um projeto Microsoft Foundry com um modelo do tipo GlobalStandard de implementação ou DataZoneStandard implementado.
Aceitação na pré-visualização de processamento prioritário. Registe-se aqui para ser notificado quando o processamento prioritário se tornar mais amplamente disponível.
Versão 2025-10-01-preview da API ou posterior.

Visão geral

Benefícios

Baixa latência previsível: Geração de tokens mais rápida e consistente.
Flexibilidade fácil de usar: Tal como no processamento padrão "pay-as-you-go", aceda de forma flexível ao processamento prioritário com base no modelo "pay-as-you-go", em vez de exigir provisionamento e reservas prévios.

Principais casos de uso

Consistência e baixa latência para experiências de utilizador responsivas.
Simplicidade de pagar conforme o uso , sem compromissos a longo prazo.
Tráfego durante o horário comercial ou com picos que beneficia de um desempenho escalável e eficiente em termos de custos. Opcionalmente, pode combinar o processamento prioritário com Unidades de Débito Provisionadas (PTU) para uma capacidade estável e otimização de custos.

Limits

Limite de rampa: Aumentos rápidos nos seus tokens de processamento prioritário por minuto podem levar a atingir os limites de taxa de rampa. Se ultrapassar o limite de taxa de rampa, o serviço pode enviar tráfego extra para processamento padrão em vez disso.
Cota: O processamento prioritário utiliza a mesma quota que o processamento padrão. Isto significa que a sua implementação com processamento prioritário ativado consome uma quota da sua alocação padrão existente.

Disponibilidade global de modelos padrão

Região	GPT-4.1, 2025-04-14
eastus 2	✅
suécia central	✅
Westus3	✅

Observação

A disponibilidade de modelos e regiões pode expandir-se durante o período de pré-visualização. Consulte esta página para atualizações.

Problemas conhecidos

O processamento prioritário apresenta atualmente estas limitações, e as correções estão em curso:

Limite de contexto longo para gpt-4.1: O serviço não suporta pedidos que excedam os 128.000 tokens e devolve um erro HTTP 400.
Sem apoio à distribuição da PTU: O serviço ainda não suporta a distribuição da PTU para uma implantação com processamento prioritário. Se precisares de comportamento de spillover, implementa a tua própria lógica, por exemplo, usando o Azure API Management.
Valor de service_tier incorreto ao usar streaming na API Responses: Ao realizar o streaming de respostas através da API de Respostas, o service_tier campo pode retornar incorretamente "prioridade", mesmo que restrições de capacidade ou limites de rampa levem a que o pedido seja servido pelo nível padrão. Neste caso, o valor esperado para service_tier é "default".

Ativar o processamento prioritário ao nível de implementação

Pode ativar o processamento prioritário ao nível de implementação e (opcionalmente) ao nível do pedido.

No portal Microsoft Foundry, pode ativar o processamento prioritário durante a configuração da implementação. Ative a opção de Processamento Prioritário (pré-visualização) na página de detalhes de implementação ao criar a implementação ou atualize a definição editando os detalhes de implementação de um modelo implementado.

Observação

Se preferir usar código para ativar o processamento prioritário ao nível da implementação, pode fazê-lo através da API REST para a implementação, definindo o service_tier atributo da seguinte forma: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority. default implica processamento padrão, enquanto priority permite o processamento prioritário.

Uma vez que a implementação do modelo esteja configurada para usar processamento prioritário, pode começar a enviar pedidos para o modelo.

Ver métricas de utilização

Pode ver a medida de utilização do seu recurso na secção Azure Monitor do portal Azure.

Para visualizar o volume de pedidos processados pelo processamento padrão versus o processamento prioritário, divida-se pelo nível de serviço (padrão ou prioridade) que estava no pedido original:

Iniciar sessão em https://portal.azure.com.
Vai ao teu recurso Azure OpenAI e seleciona a opção Métricas na navegação à esquerda.
Na página de métricas, adicione a métrica Pedidos Azure OpenAI. Também pode selecionar outras métricas como a latência do Azure OpenAI, o uso do Azure OpenAI, entre outras.
Selecione Adicionar filtro para selecionar a implementação padrão para a qual os pedidos de processamento prioritário foram processados.
Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.

Para mais informações sobre como monitorizar as suas implementações, consulte Monitorizar Azure OpenAI.

Monitorizar os custos

Pode ver uma divisão dos custos para pedidos prioritários e padrão na página de análise de custos do portal Azure, filtrando por nome de implementação e etiquetas de faturação da seguinte forma:

Vá à página de análise de custos no portal Azure.
(Opcional) Filtrar por recurso.
Para filtrar por nome de implementação: Adicione um filtro para faturação Tag> selecione implementação como o valor, e depois escolha o nome da sua implementação.

Para informações sobre preços para processamento prioritário, consulte a visão geral de preços do Azure OpenAI Service.

Ativar o processamento prioritário ao nível do pedido

Ativar o processamento prioritário ao nível do pedido é opcional. Tanto a API de completação de chat como a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a usar ao servir um pedido. O exemplo seguinte mostra como definir service_tier como priority num pedido de resposta.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Use o service_tier atributo para sobrepor a definição de nível de implantação. service_tier pode tomar os valores auto, default, e priority.

Se não definires o atributo, ele assume por omissão o valor auto.
service_tier = auto significa que o pedido utiliza o nível de serviço configurado na implementação.
service_tier = default significa que o pedido utiliza o preço e desempenho padrão para o modelo selecionado.
service_tier = priority significa que o pedido utiliza o nível de serviço de processamento prioritário.

A tabela seguinte resume qual o nível de serviço que processa os seus pedidos com base nas definições ao nível de implementação e ao nível de pedido para service_tier.

Definição do nível de implantação	Definição de nível de pedido	Pedido processado por nível de serviço
predefinição	automático, predefinido	Standard
predefinição	priority	Processamento prioritário
priority	Auto, prioridade	Processamento prioritário
priority	predefinição	Standard

Meta de latência

Tópico	GPT-4.1, 2025-04-14
Valor de latência alvo	99% > 80 tokens por segundo*

* Calculado como latência de solicitação p50 em uma base de 5 minutos.

Limites de taxa de inclinação

Para garantir um desempenho consistentemente elevado para todos os clientes, mantendo ainda assim preços flexíveis e sob demanda, o processamento prioritário impõe limites de taxa de escala. Atualmente, o limite de taxa de rampa é definido como aumentar o tráfego em mais de 50% tokens por minuto em menos de 15 minutos.

Condições de rebaixamento

Se o desempenho do processamento prioritário se degradar e o tráfego de um cliente aumentar demasiado rapidamente, o serviço pode rebaixar alguns pedidos prioritários para processamento padrão. Os pedidos de faturas de serviço são processados pelo nível de serviço padrão a tarifas padrão. Estes pedidos não são elegíveis para o alvo de latência de processamento prioritário. Os pedidos processados pelo nível de serviço padrão incluem service_tier = default na resposta.

Sugestão

Se encontrar regularmente limites de taxa de rampa, considere comprar PTU em vez de ou além do processamento prioritário.

Solução de problemas

Questão	Motivo	Resolução
Erro HTTP 400 em comandos longos	O GPT-4.1 não suporta pedidos superiores a 128.000 tokens no processamento prioritário.	Mantenha o total de tokens de pedidos abaixo de 128.000. Divide os prompts longos em pedidos mais pequenos.
Pedidos rebaixados para nível padrão	O tráfego aumentou mais de 50% tokens por minuto em menos de 15 minutos, atingindo o limite de taxa de rampa.	Aumente o tráfego gradualmente. Considere comprar PTU para obtenção de capacidade em regime estacionário.
O transbordamento PTU não funciona	O processamento prioritário ainda não suporta o transbordo da PTU para uma implantação habilitada para processamento prioritário.	Implemente lógica de spillover personalizada, por exemplo, usando o Azure API Management.
`service_tier` devolve valor incorreto durante o streaming	Ao transmitir através da API de Respostas, `service_tier` pode reportar `"priority"` mesmo quando o pedido foi servido pelo nível padrão.	Verifique os registos de faturação para confirmar qual o nível que realmente processou o pedido.

Suporte de API

	Versão da API
Última versão da API de pré-visualização suportada:	`2025-10-01-preview`

Feedback

Esta página foi útil?

Last updated on 2026-02-28

Partilhar via

Disponibilidade global de modelos padrão

Disponibilidade do modelo padrão em zonas de dados

Partilhar via

Ativar o processamento prioritário para modelos Microsoft Foundry (pré-visualização) (clássico)

Pré-requisitos

Visão geral

Benefícios

Principais casos de uso

Limits

Suporte ao processamento prioritário

Disponibilidade global de modelos padrão

Problemas conhecidos

Ativar o processamento prioritário ao nível de implementação

Ver métricas de utilização

Monitorizar os custos

Ativar o processamento prioritário ao nível do pedido

Meta de latência

Limites de taxa de inclinação

Solução de problemas

Suporte de API

Conteúdo relacionado

Feedback

Recursos adicionais