Compartilhar via


Habilitar o processamento de prioridade para modelos do Microsoft Foundry (versão prévia)

Importante

O processamento de prioridade está em versão prévia e disponível somente por convite. Registre-se aqui para ser notificado quando ele se tornar mais amplamente disponível.

Essa visualização é fornecida sem um contrato de nível de serviço e não é recomendada para utilização em produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

O processamento prioritário fornece desempenho de baixa latência com a flexibilidade do pagamento conforme o uso. Ele opera em um modelo de token pago conforme o uso, oferecendo tempos de resposta rápidos sem compromissos de contrato de longo prazo. Neste artigo, você habilita o processamento de prioridade em uma implantação de modelo, verifica qual camada de serviço processou suas solicitações e monitora os custos associados.

Pré-requisitos

  • Uma assinatura do Azure – Crie uma gratuitamente.
  • Um projeto do Microsoft Foundry com um modelo de implantação do tipo GlobalStandard ou DataZoneStandard implantado.
  • Aceitação na pré-visualização de processamento prioritário. Registre-se aqui para ser notificado quando o processamento de prioridade se tornar mais amplamente disponível.
  • Versão da API 2025-10-01-preview ou posterior.

Visão geral

Benefícios

  • Baixa latência previsível: geração de token mais rápida e consistente.
  • Flexibilidade fácil de usar: Assim como o processamento padrão de pagamento conforme o uso, oferecemos acesso ao processamento prioritário de forma flexível e também pago conforme o uso, sem a necessidade de provisionamento e reservas antecipadas.

Principais casos de uso

  • Latência consistente e baixa para experiências de usuário responsivas.
  • Simplicidade paga conforme o uso sem compromissos de longo prazo.
  • Tráfego em horário comercial ou em rajadas que se beneficia do desempenho escalonável e econômico. Opcionalmente, você pode combinar o processamento prioritário com as Unidades de Taxa de Transferência Provisionada (PTU) para otimização da capacidade estável e dos custos.

Limits

  • Limite de rampa: Aumentos rápidos para seus tokens de processamento de prioridade por minuto podem levar a atingir limites de taxa de rampa. Se você exceder o limite de taxa de ramp-up, o serviço poderá enviar tráfego extra para o processamento padrão em vez disso.

  • Cota: O processamento de prioridade usa a mesma cota que o processamento padrão. Isso significa que sua implantação com processamento prioritário ativado consome a cota da sua alocação padrão existente.

Suporte ao processamento prioritário

Disponibilidade de modelo padrão global

Região gpt-4.1, 2025-04-14
eastus 2
swedencentral
westus3

Observação

A disponibilidade do modelo e da região pode se expandir durante o período de visualização. Verifique esta página para obter atualizações.

Problemas conhecidos

Atualmente, o processamento de prioridade tem essas limitações e as correções estão em andamento:

  • Limite de contexto longo para gpt-4.1: O serviço não dá suporte a solicitações que excedem 128.000 tokens e retorna um erro HTTP 400.

  • Não há suporte para transbordo de PTU: O serviço ainda não dá suporte ao transbordo de PTU para uma implantação com processamento prioritário habilitado. Se você precisar de comportamento de transbordamento, implemente sua própria lógica, como o uso do Gerenciamento de API do Azure.

  • Valor de camada_service incorreto ao usar o streaming na API de Respostas: Ao transmitir respostas pela API de Respostas, o campo service_tier pode mostrar incorretamente "prioridade", mesmo que restrições de capacidade ou limites de rampa façam com que a solicitação seja atendida pela camada padrão. Nesse caso, o valor service_tier esperado é "padrão".

Habilitar o processamento de prioridade no nível de implantação

Você pode habilitar o processamento de prioridade no nível de implantação e (opcionalmente) no nível da solicitação.

No portal do Microsoft Foundry, você pode habilitar o processamento prioritário durante a configuração da implantação. Ative a opção processamento de prioridade (versão prévia) na página de detalhes da implantação durante a criação da implantação ou atualize a configuração de um modelo implantado editando os detalhes da implantação.

Captura de tela mostrando como habilitar o processamento de prioridade durante a implantação do modelo no portal do Foundry.

Observação

Se você preferir usar o código para habilitar o processamento de prioridade no nível de implantação, poderá fazê-lo por meio da API REST para implantação definindo o service_tier atributo da seguinte maneira: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority. default implica o processamento padrão, enquanto priority habilita o processamento de prioridade.

Depois que uma implantação de modelo é configurada para usar o processamento de prioridade, você pode começar a enviar solicitações para o modelo.

Obter métricas de uso

Você pode exibir a medida de utilização do recurso na seção do Azure Monitor no portal do Azure.

Para exibir o volume de solicitações processadas pelo processamento padrão versus o processamento de prioridade, divida pela camada de serviço (padrão ou prioridade) que estava na solicitação original:

  1. Faça login no https://portal.azure.com.
  2. Vá para o recurso do Azure OpenAI e selecione a opção Métricas na navegação à esquerda.
  3. Na página de métricas, adicione a métrica de solicitações do Azure OpenAI . Você também pode selecionar outras métricas, como latência do Azure OpenAI, uso do Azure OpenAI e outras.
  4. Selecione Adicionar filtro para selecionar a implantação padrão para a qual as solicitações de processamento de prioridade foram processadas.
  5. Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.

Captura de tela da utilização de processamento de prioridade na página de métricas do recurso no portal do Azure.

Para obter mais informações sobre como monitorar suas implantações, consulte Monitorar o Azure OpenAI.

Monitorar custos

Você pode ver uma divisão dos custos de prioridade e solicitações padrão na página de análise de custos do portal do Azure filtrando o nome da implantação e as marcas de cobrança da seguinte maneira:

  1. Vá para a página de análise de custos no portal do Azure.
  2. (Opcional) Filtrar por recurso.
  3. Para filtrar pelo nome da implantação: adicione um filtro para cobrança Tag> selecione implantação como o valor e escolha o nome da implantação.

Captura de tela da utilização de processamento de prioridade na página de análise de custos do recurso no portal do Azure.

Para obter informações sobre preços para processamento de prioridade, consulte a visão geral de preços do Serviço OpenAI do Azure.

Habilitar o processamento de prioridade no nível da solicitação

Habilitar o processamento de prioridade no nível da solicitação é opcional. A API de conclusões de chat e a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a ser usado ao atender a uma solicitação. O exemplo service_tier a seguir mostra como definir priority em uma solicitação de resposta.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Use o service_tier atributo para substituir a configuração de nível de implantação. service_tier pode levar os valores auto, defaulte priority.

  • Se você não definir o atributo, ele usará como padrão auto.

  • service_tier = auto significa que a solicitação usa a camada de serviço configurada na implantação.

  • service_tier = default significa que a solicitação usa o preço e o desempenho padrão para o modelo selecionado.

  • service_tier = priority significa que a solicitação usa a camada de serviço de processamento de prioridade.

A tabela a seguir resume qual camada de serviço processa suas solicitações com base nas configurações de nível de implantação e de solicitação para service_tier.

Configuração de nível de implementação Configuração no nível da solicitação Solicitação processada por camada de serviço
padrão auto, padrão Standard
padrão priority Processamento prioritário
priority auto, prioridade Processamento prioritário
priority padrão Standard

Meta de latência

Tópico gpt-4.1, 2025-04-14
Valor de Destino de Latência 99% > 80 tokens por segundo*

* Calculado como latência de solicitação p50 por 5 minutos.

Limites de taxa de variação

Para garantir um desempenho consistentemente alto para todos os clientes, enquanto oferece preços sob demanda e flexíveis, o processamento prioritário impõe limites de taxa de aumento. Atualmente, o limite de taxa de rampa é definido como aumentar o tráfego em mais de 50 tokens% por minuto em menos de 15 minutos.

Condições de downgrade

Se o desempenho do processamento prioritário se deteriorar e o tráfego de um cliente aumentar muito rapidamente, o serviço poderá rebaixar algumas das solicitações prioritárias para o processamento padrão. As cobranças de solicitações são processadas pela camada de serviço padrão e cobradas a taxas padrão. Essas solicitações não são qualificadas para a meta de latência de prioridade no processamento. As solicitações processadas pela camada de serviço padrão incluem service_tier = default na resposta.

Dica

Se você encontrar rotineiramente limites de taxa de aclive, considere a compra de PTU em vez de ou além do processamento prioritário.

Resolução de problemas

Questão Motivo Resolução
Erro HTTP 400 em prompts longos O gpt-4.1 não dá suporte a solicitações que excedam 128.000 tokens no processamento de prioridade. Mantenha o total de tokens de solicitação abaixo de 128.000. Divida prompts longos em solicitações menores.
Solicitações rebaixadas para a camada padrão O tráfego aumentou mais de 50% em tokens por minuto em menos de 15 minutos, atingindo o limite da taxa de aumento. Aumente o tráfego gradualmente. Considere a compra de PTU para capacidade de estado estável.
O derramamento de PTU não está funcionando O processamento prioritário ainda não dá suporte ao transbordamento de PTU para uma implantação compatível com processamento prioritário. Implemente a lógica de transbordo personalizada, como por meio do uso do Gerenciamento de API do Azure.
service_tier retorna um valor incorreto durante o streaming Ao transmitir por meio da API de Respostas, service_tier pode relatar "priority" mesmo quando a solicitação foi atendida pela camada padrão. Verifique os registros de cobrança para confirmar qual camada realmente processou a solicitação.

Suporte de API

Versão da API
Versão mais recente da API de versão prévia com suporte: 2025-10-01-preview