Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Observação
Este documento refere-se ao portal Microsoft Foundry (clássico).
🔍 Consulte a documentação (nova) da Microsoft Foundry para saber mais sobre o novo portal.
Importante
O processamento prioritário está em fase de testes e disponível apenas por convite. Registe-se aqui para ser notificado quando estiver mais amplamente disponível.
Esta pré-visualização é fornecida sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
O processamento prioritário oferece desempenho de baixa latência com a flexibilidade do pay-as-you-go. Opera com um modelo de token de pagamento conforme o uso, oferecendo respostas rápidas sem compromissos contratuais de longo prazo. Neste artigo, ativa o processamento prioritário numa implementação de modelo, verifica qual o nível de serviço que processou os seus pedidos e monitoriza os custos associados.
Pré-requisitos
- Uma assinatura do Azure - Crie uma gratuitamente.
- Um projeto Microsoft Foundry com um modelo do tipo
GlobalStandardde implementação ouDataZoneStandardimplementado. - Aceitação na pré-visualização de processamento prioritário. Registe-se aqui para ser notificado quando o processamento prioritário se tornar mais amplamente disponível.
- Versão
2025-10-01-previewda API ou posterior.
Visão geral
Benefícios
- Baixa latência previsível: Geração de tokens mais rápida e consistente.
- Flexibilidade fácil de usar: Tal como no processamento padrão "pay-as-you-go", aceda de forma flexível ao processamento prioritário com base no modelo "pay-as-you-go", em vez de exigir provisionamento e reservas prévios.
Principais casos de uso
- Consistência e baixa latência para experiências de utilizador responsivas.
- Simplicidade de pagar conforme o uso , sem compromissos a longo prazo.
- Tráfego durante o horário comercial ou com picos que beneficia de um desempenho escalável e eficiente em termos de custos. Opcionalmente, pode combinar o processamento prioritário com Unidades de Débito Provisionadas (PTU) para uma capacidade estável e otimização de custos.
Limits
Limite de rampa: Aumentos rápidos nos seus tokens de processamento prioritário por minuto podem levar a atingir os limites de taxa de rampa. Se ultrapassar o limite de taxa de rampa, o serviço pode enviar tráfego extra para processamento padrão em vez disso.
Cota: O processamento prioritário utiliza a mesma quota que o processamento padrão. Isto significa que a sua implementação com processamento prioritário ativado consome uma quota da sua alocação padrão existente.
Suporte ao processamento prioritário
Disponibilidade global de modelos padrão
| Região | GPT-4.1, 2025-04-14 |
|---|---|
| eastus 2 | ✅ |
| suécia central | ✅ |
| Westus3 | ✅ |
Observação
A disponibilidade de modelos e regiões pode expandir-se durante o período de pré-visualização. Consulte esta página para atualizações.
Problemas conhecidos
O processamento prioritário apresenta atualmente estas limitações, e as correções estão em curso:
Limite de contexto longo para gpt-4.1: O serviço não suporta pedidos que excedam os 128.000 tokens e devolve um erro HTTP 400.
Sem apoio à distribuição da PTU: O serviço ainda não suporta a distribuição da PTU para uma implantação com processamento prioritário. Se precisares de comportamento de spillover, implementa a tua própria lógica, por exemplo, usando o Azure API Management.
Valor de service_tier incorreto ao usar streaming na API Responses: Ao realizar o streaming de respostas através da API de Respostas, o
service_tiercampo pode retornar incorretamente "prioridade", mesmo que restrições de capacidade ou limites de rampa levem a que o pedido seja servido pelo nível padrão. Neste caso, o valor esperado paraservice_tieré "default".
Ativar o processamento prioritário ao nível de implementação
Pode ativar o processamento prioritário ao nível de implementação e (opcionalmente) ao nível do pedido.
No portal Microsoft Foundry, pode ativar o processamento prioritário durante a configuração da implementação. Ative a opção de Processamento Prioritário (pré-visualização) na página de detalhes de implementação ao criar a implementação ou atualize a definição editando os detalhes de implementação de um modelo implementado.
Observação
Se preferir usar código para ativar o processamento prioritário ao nível da implementação, pode fazê-lo através da API REST para a implementação, definindo o service_tier atributo da seguinte forma: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority.
default implica processamento padrão, enquanto priority permite o processamento prioritário.
Uma vez que a implementação do modelo esteja configurada para usar processamento prioritário, pode começar a enviar pedidos para o modelo.
Ver métricas de utilização
Pode ver a medida de utilização do seu recurso na secção Azure Monitor do portal Azure.
Para visualizar o volume de pedidos processados pelo processamento padrão versus o processamento prioritário, divida-se pelo nível de serviço (padrão ou prioridade) que estava no pedido original:
- Iniciar sessão em https://portal.azure.com.
- Vai ao teu recurso Azure OpenAI e seleciona a opção Métricas na navegação à esquerda.
- Na página de métricas, adicione a métrica Pedidos Azure OpenAI. Também pode selecionar outras métricas como a latência do Azure OpenAI, o uso do Azure OpenAI, entre outras.
- Selecione Adicionar filtro para selecionar a implementação padrão para a qual os pedidos de processamento prioritário foram processados.
- Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.
Para mais informações sobre como monitorizar as suas implementações, consulte Monitorizar Azure OpenAI.
Monitorizar os custos
Pode ver uma divisão dos custos para pedidos prioritários e padrão na página de análise de custos do portal Azure, filtrando por nome de implementação e etiquetas de faturação da seguinte forma:
- Vá à página de análise de custos no portal Azure.
- (Opcional) Filtrar por recurso.
- Para filtrar por nome de implementação: Adicione um filtro para faturação Tag> selecione implementação como o valor, e depois escolha o nome da sua implementação.
Para informações sobre preços para processamento prioritário, consulte a visão geral de preços do Azure OpenAI Service.
Ativar o processamento prioritário ao nível do pedido
Ativar o processamento prioritário ao nível do pedido é opcional. Tanto a API de completação de chat como a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a usar ao servir um pedido. O exemplo seguinte mostra como definir service_tier como priority num pedido de resposta.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Use o service_tier atributo para sobrepor a definição de nível de implantação.
service_tier pode tomar os valores auto, default, e priority.
Se não definires o atributo, ele assume por omissão o valor
auto.service_tier = autosignifica que o pedido utiliza o nível de serviço configurado na implementação.service_tier = defaultsignifica que o pedido utiliza o preço e desempenho padrão para o modelo selecionado.service_tier = prioritysignifica que o pedido utiliza o nível de serviço de processamento prioritário.
A tabela seguinte resume qual o nível de serviço que processa os seus pedidos com base nas definições ao nível de implementação e ao nível de pedido para service_tier.
| Definição do nível de implantação | Definição de nível de pedido | Pedido processado por nível de serviço |
|---|---|---|
| predefinição | automático, predefinido | Standard |
| predefinição | priority | Processamento prioritário |
| priority | Auto, prioridade | Processamento prioritário |
| priority | predefinição | Standard |
Meta de latência
| Tópico | GPT-4.1, 2025-04-14 |
|---|---|
| Valor de latência alvo | 99% > 80 tokens por segundo* |
* Calculado como latência de solicitação p50 em uma base de 5 minutos.
Limites de taxa de inclinação
Para garantir um desempenho consistentemente elevado para todos os clientes, mantendo ainda assim preços flexíveis e sob demanda, o processamento prioritário impõe limites de taxa de escala. Atualmente, o limite de taxa de rampa é definido como aumentar o tráfego em mais de 50% tokens por minuto em menos de 15 minutos.
Condições de rebaixamento
Se o desempenho do processamento prioritário se degradar e o tráfego de um cliente aumentar demasiado rapidamente, o serviço pode rebaixar alguns pedidos prioritários para processamento padrão. Os pedidos de faturas de serviço são processados pelo nível de serviço padrão a tarifas padrão. Estes pedidos não são elegíveis para o alvo de latência de processamento prioritário. Os pedidos processados pelo nível de serviço padrão incluem service_tier = default na resposta.
Sugestão
Se encontrar regularmente limites de taxa de rampa, considere comprar PTU em vez de ou além do processamento prioritário.
Solução de problemas
| Questão | Motivo | Resolução |
|---|---|---|
| Erro HTTP 400 em comandos longos | O GPT-4.1 não suporta pedidos superiores a 128.000 tokens no processamento prioritário. | Mantenha o total de tokens de pedidos abaixo de 128.000. Divide os prompts longos em pedidos mais pequenos. |
| Pedidos rebaixados para nível padrão | O tráfego aumentou mais de 50% tokens por minuto em menos de 15 minutos, atingindo o limite de taxa de rampa. | Aumente o tráfego gradualmente. Considere comprar PTU para obtenção de capacidade em regime estacionário. |
| O transbordamento PTU não funciona | O processamento prioritário ainda não suporta o transbordo da PTU para uma implantação habilitada para processamento prioritário. | Implemente lógica de spillover personalizada, por exemplo, usando o Azure API Management. |
service_tier devolve valor incorreto durante o streaming |
Ao transmitir através da API de Respostas, service_tier pode reportar "priority" mesmo quando o pedido foi servido pelo nível padrão. |
Verifique os registos de faturação para confirmar qual o nível que realmente processou o pedido. |
Suporte de API
| Versão da API | |
|---|---|
| Última versão da API de pré-visualização suportada: | 2025-10-01-preview |