Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites para Azure OpenAI.
Escopo da cota
Cotas e limites não são impostos no nível do locatário. Em vez disso, o nível mais alto de restrições de cota é definido no nível de assinatura Azure.
Alocação de cota regional
Os tokens por minuto (TPM) e os limites de RPM (solicitações por minuto) são definidos por região, por assinatura e por modelo ou tipo de implantação.
Por exemplo, se o modelo gpt-4.1 Global Standard estiver listado com uma cota de 5 milhões de TPM e 5.000 RPM, em seguida, each region em que esse model ou tipo de implantação está disponível tem seu próprio pool de cotas dedicado desse valor para each de suas assinaturas de Azure. Em uma única assinatura de Azure, é possível usar uma quantidade maior de cota total de TPM e RPM para um determinado tipo de modelo e implantação, desde que você tenha recursos e implantações de modelo espalhados por várias regiões.
Camadas de cota
Estamos implementando níveis de cota para aprimorar a experiência com modelos do Foundry e diminuir o atrito conforme as cargas de trabalho são escaladas. As cotas agora aumentarão automaticamente com o uso, ajudando a evitar erros de limite de taxa, criando também um ambiente mais justo para todos os usuários. Sete camadas serão disponibilizadas: Camada Gratuita e Camadas 1 a 6 - com a Camada 6 oferecendo as cotas mais altas. A camada inicial atribuída a um cliente baseia-se no uso atual daquele modelo e na relação atual com a Microsoft, como o status do Contrato Enterprise (EA ou MCA-E).
O que está mudando para mim?
Anteriormente, o Foundry oferecia apenas os níveis de cota “Padrão” e “Empresarial” para o tipo de oferta “pague conforme usar”, com uma grande diferença entre cada nível e um processo mais demorado para solicitar aumentos. Com as Camadas de Cota, todos os usuários recebem uma camada com cotas iguais ou superiores aos níveis anteriores. Quaisquer aumentos de cota aprovados anteriormente são mantidos e não serão reduzidos. À medida que o uso aumenta, a Foundry aumenta automaticamente as cotas movendo os usuários para camadas mais altas, e uma cota adicional ainda pode ser solicitada por meio do formulário de cota.
Como um cliente será movido automaticamente de uma camada para outra, por exemplo, quais são os critérios de alteração de camada?
As atualizações automáticas de plano baseiam-se principalmente nas tendências de consumo dos clientes nos modelos Foundry ao longo do tempo. Se o uso de um cliente aumentar de tal forma que sua camada de cota atual estiver limitando sua capacidade de usar os Modelos do Foundry, o sistema fará automaticamente o upgrade para o cliente para a próxima camada superior. A relação de um cliente com Microsoft também é levada em conta. Os clientes com relações empresariais (incluindo EA e MCA-E) com Microsoft recebem camadas de cota mais altas. Além disso, Microsoft também considerará o histórico de pagamentos de um cliente para determinar a qualificação para atualizações automáticas.
Posso recusar atualizações automáticas?
Sim, você pode recusar atualizações automáticas e permanecerá na camada atual, independentemente das alterações no seu consumo. Reconhecemos que alguns de nossos clientes usam cota para gerenciar sua cobrança. No entanto, essa não é a melhor prática Azure. No entanto, entendemos que, se o sistema estiver configurado dessa forma, não queremos quebrá-lo. Você pode saber mais sobre o gerenciamento de cobrança e as práticas recomendadas aqui: Gerenciamento de Custos.
Para recusar, você pode definir o seguinte sinalizador como NoAutoUpgrade:
curl -X PATCH \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
-H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
-H "Content-Type: application/json" \
-d '{
"properties": {
"tierUpgradePolicy": "NoAutoUpgrade"
}
}'
Nota
A função de desativação está em prévia e pode estar sujeita a alterações/remoção no futuro.
Posso solicitar mais cota?
Sim, usando o formulário de solicitação de cota , você sempre pode solicitar mais cota. Se a solicitação for aprovada, a camada atual permanecerá a mesma, mas com mais cotas atribuídas.
Como fazer para verificar a camada de cota da minha assinatura?
Atualmente, você pode verificar seu limite de camada com a API do plano de controle.
curl -X GET \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
-H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
-H "Content-Type: application/json"
Referência de nível de cota
Camada 1
| Nome do modelo | Tipo de implantação | Solicitações por minuto (RPM) | Tokens por minuto (TPM) |
|---|---|---|---|
| codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| visualização de uso de computador | GlobalStandard | 4,500 | 450,000 |
| gpt-4.1 | DataZoneStandard | 300 | 300,000 |
| gpt-4.1 | GlobalStandard | 1,000 | 1,000,000 |
| gpt-4.1-mini | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-4.1-mini | GlobalStandard | 5,000 | 5,000,000 |
| gpt-4.1-mini | Standard | 6,000 | 6,000,000 |
| gpt-4.1-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-4.1-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-4o | DataZoneStandard | 300/10s | 300,000 |
| gpt-4o-audio-preview | GlobalStandard | 30000/10s | 30,000,000 |
| gpt-4o-mini | DataZoneStandard | 10.000 | 1,000,000 |
| gpt-4o-mini | GlobalStandard | 20,000 | 2,000,000 |
| Prévia de áudio do gpt-4o-mini | GlobalStandard | 30000/10s | 30,000,000 |
| gpt-4o-mini-prévia-em-tempo-real | GlobalStandard | 36 | 6,000 |
| gpt-4o-realtime-preview | GlobalStandard | 36 | 6,000 |
| gpt-5 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-mini | DataZoneStandard | 300 | 300,000 |
| gpt-5-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-5-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-5-pro | GlobalStandard | 1,600 | 160,000 |
| gpt-5.1 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.1 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1 | Standard | 3,000 | 300,000 |
| gpt-5.1-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.1-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.1-codex-max | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.1-codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.2 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.2-chat | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.3-codex | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.4 | DataZoneStandard | 300 | 300,000 |
| gpt-5.4 | GlobalStandard | 10.000 | 1,000,000 |
| gpt-5.4-pro | GlobalStandard | 160 | 160,000 |
| gpt-5.4-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.4-nano | DataZoneStandard | 2.000 | 2,000,000 |
| gpt-5.4-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-5.5 | DataZoneStandard | 0 | 0 |
| gpt-5.5 | GlobalStandard | 0 | 0 |
| gpt-chat-latest | GlobalStandard | 10.000 | 1,000,000 |
| gpt-audio | GlobalStandard | 30000/10s | 30,000,000 |
| gpt-image-1 | GlobalStandard | 9 | - |
| gpt-image-1-mini | GlobalStandard | 12 | - |
| gpt-image-1.5 | DataZoneStandard | 3 | - |
| gpt-image-1.5 | GlobalStandard | 9 | - |
| gpt-image-2 | DataZoneStandard | 2 | - |
| gpt-image-2 | GlobalStandard | 6 | - |
| gpt em tempo real | GlobalStandard | 200 | 100,000 |
| model-router | DataZoneStandard | 300 | 300,000 |
| model-router | GlobalStandard | 1,000 | 1,000,000 |
| o1 | DataZoneStandard | 100 | 600,000 |
| o1 | GlobalStandard | 500 | 3,000,000 |
| o3 | DataZoneStandard | 300 | 300,000 |
| o3 | GlobalStandard | 1,000 | 1,000,000 |
| o3-Pesquisa Profunda | GlobalStandard | 3,000 | 3,000,000 |
| o3-mini | DataZoneStandard | 200 | 2,000,000 |
| o3-mini | GlobalStandard | 500 | 5,000,000 |
| o3-pro | GlobalStandard | 160 | 1,600,000 |
| o4-mini | DataZoneStandard | 300/10s | 300,000 |
| o4-mini | GlobalStandard | 1,000 | 1,000,000 |
| text-embedding-3-large | DataZoneStandard | 1,000 | 1,000,000 |
| text-embedding-3-large | GlobalStandard | 1000/10s | 1,000,000 |
| text-embedding-3-small | DataZoneStandard | 1,000 | 1,000,000 |
| text-embedding-3-small | GlobalStandard | 1000/10s | 1,000,000 |
Referência de cotas e limites
A seção a seguir fornece um guia rápido para as cotas e limites padrão que se aplicam a Azure OpenAI:
| Nome do limite | Valor limite |
|---|---|
| Recursos do Azure OpenAI por região, por assinatura do Azure | 30. |
| Limites padrão de cota do GPT-image-1 | 9 solicitações por minuto |
| Limites padrão de cota para gpt-image-1-mini | 12 solicitações por minuto |
| Limites de cota padrão gpt-image-1.5 | 9 solicitações por minuto |
| Limites padrão de cota do gpt-image-2 | 9 solicitações por minuto |
| Limites padrão de cota do Sora | 60 solicitações por minuto. |
| Limites de cota padrão do Sora 2 | 2 solicitações de trabalho1 por minuto |
| Limites padrão de cota da API de áudio de fala para texto | 3 solicitações por minuto. |
| Máximo de tokens de prompt por solicitação | Varia por modelo. Para obter mais informações, consulte modelos OpenAI do Azure. |
| Implantações padrão máximas por recurso | 32. |
| Máximo de implantações de modelos otimizados | 10. |
| Número total de trabalhos de treinamento por recurso | 100. |
| Máximo de trabalhos de treinamento executados simultaneamente por recurso | Treinamento padrão e global: 3; Treinamento para desenvolvedores: 5 |
| Máximo de trabalhos de treinamento na fila | 20. |
| Máximo de arquivos por recurso (ajuste de parâmetros) | 100. |
| Tamanho total de todos os arquivos por recurso (ajuste fino) | 1 GB. |
| Tempo máximo de trabalho de treinamento (o trabalho falhará se excedido) | 720 horas. |
Tamanho máximo do trabalho de treinamento (tokens in training file) x (# of epochs) |
2 bilhões. |
| Tamanho máximo de todos os arquivos por upload (Azure OpenAI em seus dados) | 16 MB. |
Número máximo de entradas na matriz com /embeddings |
2,048. |
Número máximo de tokens por solicitação /embeddings (soma de todas as entradas) |
300,000. |
Número máximo de /chat/completions mensagens |
2,048. |
Número máximo de /chat/completions funções |
128. |
Número máximo de /chat/completions ferramentas |
128. |
| Número máximo de unidades de taxa de transferência provisionadas por implantação | 100,000. |
| Número máximo de arquivos por assistente ou thread | 10.000 ao usar a API ou o portal Microsoft Foundry. |
| Tamanho máximo do arquivo para assistentes e ajuste de precisão | 512 MB por meio da API 200 MB por meio do portal do Foundry. |
| Máximo de solicitações de upload de arquivo por recurso | 30 solicitações por segundo. |
| Tamanho máximo para todos os arquivos carregados para assistentes | 200 GB. |
| Limite de token de assistentes | Limite de 2.000.000 tokens. |
GPT-4o e GPT-4.1 máximo de imagens por solicitação (número de imagens na matriz de mensagens ou no histórico de conversas) |
50. |
GPT-4 vision-preview e GPT-4 turbo-2024-04-09 tokens máximos padrão |
16. Aumente o valor do max_tokens parâmetro para evitar respostas truncadas.
GPT-4o o padrão para tokens máximos é 4.096. |
| Número máximo de cabeçalhos personalizados nas solicitaçõesde API 2 | 10. |
| Limite de caracteres de mensagem | 1,048,576. |
| Tamanho da mensagem para arquivos de áudio | 20 MB. |
1 A cota de RPM do Sora 2 conta apenas requisições de trabalho de vídeo. Outros tipos de solicitações não têm limitação de taxa.
2 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Alguns clientes agora excedem essa contagem de cabeçalho, o que resulta em erros HTTP 431. Não há solução para esse erro, além de reduzir o volume de cabeçalho. Em versões futuras da API, não passaremos por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados em arquiteturas futuras do sistema.
Nota
Os limites de cota estão sujeitos a alterações.
Limites de processamento em lote
| Nome do limite | Valor limite |
|---|---|
| Máximo de arquivos de entrada em lote – (sem expiração) | 500 |
| Máximo de arquivos de entrada de Batch – (expiração definida) | 10.000 |
| Tamanho máximo do arquivo de entrada | 200 MB |
| Tamanho máximo do arquivo de entrada – Traga seu próprio armazenamento (BYOS) | 1 GB |
| Máximo de solicitações por arquivo | 100,000 |
Nota
Os limites de arquivo em lote não se aplicam a arquivos de saída (por exemplo, result.jsonle error.jsonl). Para remover os limites de arquivos de entrada em lote, utilize o Batch com Armazenamento de Blobs do Azure.
Cota de processamento em lote
A tabela mostra o limite de cota do lote. Os valores de cota para o lote global são representados em termos de tokens enfileirados. Quando você envia um arquivo para processamento em lote, o número de tokens no arquivo é contado. Até que o trabalho em lote chegue a um estado final, esses tokens são contabilizados no seu limite total de tokens na fila.
Lote global
| Modelo | Enterprise e MCA-E | Padrão | Assinaturas mensais baseadas em cartão de crédito | Assinaturas do MSDN | Azure para Estudantes, avaliações gratuitas |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200M | 50M | 90 mil | N/A |
gpt-4.1 mini |
15B | 1B | 50M | 90 mil | N/A |
gpt-4.1-nano |
15B | 1B | 50M | 90 mil | N/A |
gpt-4o |
5B | 200M | 50M | 90 mil | N/A |
gpt-4o-mini |
15B | 1B | 50M | 90 mil | N/A |
gpt-4-turbo |
300 milhões | 80M | 40M | 90 mil | N/A |
gpt-4 |
150M | 30M | 5M | 100 mil | N/A |
o3-mini |
15B | 1B | 50M | 90 mil | N/A |
o4-mini |
15B | 1B | 50M | 90 mil | N/A |
gpt-5 |
5B | 200M | 50M | 90 mil | N/A |
gpt-5.1 |
5B | 200M | 50M | 90 mil | N/A |
B = bilhões | M = milhões | K = mil
Lote da zona de dados
| Modelo | Enterprise e MCA-E | Padrão | Assinaturas mensais baseadas em cartão de crédito | Assinaturas do MSDN | Azure para Estudantes, avaliações gratuitas |
|---|---|---|---|---|---|
gpt-4.1 |
500M | 30M | 30M | 90 mil | N/A |
gpt-4.1-mini |
1,5B | 100M | 50M | 90 mil | N/A |
gpt-4o |
500M | 30M | 30M | 90 mil | N/A |
gpt-4o-mini |
1,5B | 100M | 50M | 90 mil | N/A |
o3-mini |
1,5B | 100M | 50M | 90 mil | N/A |
gpt-5 |
5B | 200M | 50M | 90 mil | N/A |
gpt-5.1 |
5B | 200M | 50M | 90 mil | N/A |
gpt-oss
| Modelo | Tokens por minuto (TPM) | Solicitações por minuto (RPM) |
|---|---|---|
gpt-oss-120b |
5 milhões | 5 K |
Camadas de uso
As implantações padrão global usam a infraestrutura global de Azure. Eles roteiam dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Da mesma forma, as implantações padrão de zona de dados permitem que você use a infraestrutura global de Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida por Microsoft com a melhor disponibilidade para cada solicitação. Essa prática permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver maior variabilidade na latência de resposta.
Azure camadas de uso do OpenAI foram projetadas para fornecer desempenho consistente para a maioria dos clientes com níveis baixos a médios de tráfego. Cada camada de uso define a taxa de transferência máxima (tokens por minuto) que você pode esperar com latência previsível. Quando seu uso permanece dentro da camada atribuída, a latência permanece estável e os tempos de resposta são consistentes.
O que acontece se você exceder sua camada de uso?
- Se a taxa de transferência da solicitação exceder a camada de uso, especialmente durante períodos de alta demanda, sua latência de resposta poderá aumentar significativamente.
- A latência pode variar e, em alguns casos, ser mais do que o dobro comparado à operação dentro da sua faixa de utilização.
- Essa variabilidade é mais perceptível para clientes com alto uso sustentado ou padrões de tráfego com intermitência.
Ações recomendadas se você exceder sua camada de uso
Se você encontrar 429 erros ou observar uma maior variabilidade de latência, veja o que você deve fazer:
- Solicite um aumento de cota: visite o portal Azure para solicitar uma cota maior para sua assinatura.
- Considere a atualização para uma oferta premium (PTU): para cargas de trabalho críticas de latência ou de alto volume, atualize para PTU (Unidades de Taxa de Transferência Provisionada). A PTU fornece recursos dedicados, capacidade garantida e latência previsível, mesmo em grande escala. Essa é a melhor opção para aplicativos críticos que exigem desempenho consistente.
- Monitore seu uso: examine regularmente suas métricas de uso no portal Azure para garantir que você esteja operando dentro dos limites de camada. Ajuste sua carga de trabalho ou estratégia de implantação conforme necessário.
Você pode receber 429 respostas (Muitas Solicitações) mesmo quando as métricas de uso do token aparecerem abaixo da cota. Para obter uma explicação de por que isso acontece, consulte Por que você pode ver 429s mesmo quando as métricas de uso de token estão abaixo da cota.
O limite de uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo. É o número total de tokens consumidos em todas as implantações, em todas as assinaturas e em todas as regiões para um determinado locatário.
Nota
As camadas de uso se aplicam somente aos tipos de implantação Standard, Data Zone Standard e Global Standard. Os níveis de uso não se aplicam a implantações globais de lote e de taxa de transferência provisionada.
Padrão Global, Padrão da Zona de Dados e Padrão
| Modelo | Níveis de uso por mês |
|---|---|
gpt-5 |
32 bilhões de tokens |
gpt-5-mini |
160 bilhões de tokens |
gpt-5-nano |
800 bilhões de tokens |
gpt-5-chat |
32 bilhões de tokens |
gpt-4
+
gpt-4-32k (todas as versões) |
6 bilhões de tokens |
gpt-4o |
12 bilhões de tokens |
gpt-4o-mini |
85 bilhões de tokens |
o3-mini |
50 bilhões de tokens |
o1 |
4 bilhões de tokens |
o4-mini |
50 bilhões de tokens |
o3 |
5 bilhões de tokens |
gpt-4.1 |
30 bilhões de tokens |
gpt-4.1-mini |
150 bilhões de tokens |
gpt-4.1-nano |
550 bilhões de tokens |
Práticas recomendadas gerais para permanecer dentro dos limites de taxa
Para minimizar problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:
- Implemente a lógica de repetição em seu aplicativo.
- Evite alterações acentuadas na carga de trabalho. Aumente gradualmente a carga de trabalho.
- Teste diferentes padrões de aumento de carga.
- Aumente a cota atribuída à sua implantação. Mova a quota de outra implantação, se necessário.
Para obter práticas recomendadas detalhadas, exemplos de código de nova tentativa com retirada e um guia de solução de problemas para erros 429, consulte Gerenciar a cota do OpenAI do Azure em Modelos do Microsoft Foundry.
Solicitar aumento de cota
Envie o formulário de solicitação de aumento de cota para solicitar aumentos de cota para Modelos do Foundry vendidos pelo Azure, modelos do Azure OpenAI e modelos da Anthropic. Com exceção de modelos da Anthropic, Modelos de parceiros e comunidade não dão suporte a aumentos de cota.
As solicitações de aumento de cota são processadas na ordem em que são recebidas e a prioridade vai para os clientes que usam ativamente sua alocação de cota existente. Solicitações que não atendem a essa condição podem ser negadas.
Limites de capacidade de cota regional
Você pode exibir a disponibilidade de cota por região para sua assinatura no portal do Foundry.
Para verificar cota e capacidade programaticamente, consulte Verificar cota e capacidade programaticamente no guia de gerenciamento de cotas. Essa seção aborda duas APIs REST complementares: a API de Usos para verificar o consumo em relação aos limites e a API de Capacidades de Modelo para verificar a capacidade de implantação disponível por modelo e região.
Nota
Atualmente, tanto o portal do Foundry quanto as APIs de capacidade retornam informações sobre cota e capacidade para modelos que foram descontinuados e não estão mais disponíveis para novas implantações.
Conteúdo relacionado
- Explore como gerenciar cotas nas suas implantações Azure OpenAI.
- Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.