Azure OpenAI: Modelos do Azure AI Foundry - cotas e limites

2025-07-03

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites do Azure OpenAI.

Referência a quotas e limites

As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao Azure OpenAI:

Nome do limite	Valor limite
Recursos do Azure OpenAI por região por assinatura do Azure	30
Limites de quota padrão do DALL-E 2	2 pedidos simultâneos
Limites de quota padrão do DALL-E 3	2 unidades de capacidade (6 pedidos por minuto)
Limites de cota GPT-image-1 padrão	2 unidades de capacidade (6 pedidos por minuto)
Limites de cota padrão do Sora	60 pedidos por minuto
Limites de cota padrão da API de áudio de fala para texto	3 pedidos por minuto
Número máximo de tokens de prompt por pedido	Varia de acordo com o modelo. Para obter mais informações, consulte Modelos do Azure OpenAI
Máximo de implantações padrão por cada recurso	32
Implantações de modelos afinados	5
Número total de empregos de formação por recurso	100
Máximo de trabalhos de treinamento em execução simultânea por recurso	1
Número máximo de trabalhos de treinamento na fila	20
Máximo de arquivos por recurso (aperfeiçoamento)	50
Tamanho total de todos os arquivos por recurso (ajuste fino)	1 GB
Tempo máximo de trabalho de treinamento (o trabalho falhará se for excedido)	720 horas
Tamanho máximo da tarefa de treino (tokens no ficheiro de treino) x (# de épocas)	2 Mil Milhões
Tamanho máximo de todos os arquivos por carregamento (Azure OpenAI em seus dados)	16 MB
Número máximo de entradas na matriz com `/embeddings`	2048
Número máximo de `/chat/completions` mensagens	2048
Número máximo de `/chat/completions` funções	128
Número máximo de `/chat completions` ferramentas	128
Número máximo de unidades de taxa de transferência provisionadas por implantações	100,000
Número máximo de arquivos por assistente/tópico	10.000 ao usar a API ou o portal do Azure AI Foundry.
Tamanho máximo do ficheiro para Assistentes e afinação	512 MB 200 MB através do portal Azure AI Foundry
Tamanho máximo para todos os ficheiros carregados para Assistentes	200 GB
Limitação de token do assistente	Limite de 2.000.000 tokens
GPT-4o e GPT-4.1 máximo de imagens por pedido (# de imagens na lista de mensagens/histórico de conversas)	50
GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09` número máximo de tokens padrão	16 Aumente o valor do `max_tokens` parâmetro para evitar respostas truncadas. O número máximo de tokens do GPT-4 tem como padrão 4096.
Número máximo de cabeçalhos personalizados em solicitações de API¹	10
Limite de caracteres de mensagem	1048576
Tamanho da mensagem para arquivos de áudio	20 MB

1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Alguns clientes agora excedem essa contagem de cabeçalhos, resultando em erros HTTP 431. Não há solução para esse erro, a não ser reduzir o volume do cabeçalho. Em versões futuras da API, não passaremos mais por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados em futuras arquiteturas de sistema.

Observação

Os limites das quotas estão sujeitos a alterações.

Limites de lotes

Nome do limite	Valor limite
Máximo de arquivos por recurso	500
Tamanho máximo do arquivo de entrada	200 MB
Máximo de solicitações por arquivo	100,000

Limite de lotes

A tabela mostra o limite de cota de lote. Os valores de cota para lote global são representados em tokens enfileirados. Quando você envia um arquivo para processamento em lote, o número de tokens presentes no arquivo é contado. Até que o trabalho em lote atinja um estado terminal, esses tokens contarão para o seu limite total de tokens enfileirados.

Lote mundial

Modelo	Contrato Enterprise	Predefinido	Subscrições mensais baseadas em cartões de crédito	Assinaturas do MSDN	Azure para Estudantes, Versões Experimentais Gratuitas
`gpt-4.1`	5 B	200 milhões	50 milhões	90 K	N/A
`gpt-4.1 mini`	15 B	1 B	50 M.	90 mil	N/A
`gpt-4.1-nano`	15 B	1 B	50 milhões	90 K	N/A
`gpt-4o`	5 B	200 milhões	50 milhões	90 K	N/A
`gpt-4o-mini`	15 B	1 B	50 milhões	90 K	N/A
`gpt-4-turbo`	300 milhões	80 milhões	40 milhões	90 K	N/A
`gpt-4`	150 milhões	30 milhões	5 milhões	100 K	N/A
`gpt-35-turbo`	10 B	1 B	100 milhões	2 milhões	50 K
`o3-mini`	15 B	1 B	50 milhões	90 K	N/A
`o4-mini`	15 B	1 B	50 milhões	90 K	N/A

B = mil milhões | M = milhão | K = mil

Agrupamento de dados por zonas

Modelo	Contrato Enterprise	Predefinido	Subscrições mensais baseadas em cartões de crédito	Assinaturas do MSDN	Azure para Estudantes, Versões Experimentais Gratuitas
`gpt-4.1`	500 milhões	30 milhões	30 milhões	90 K	N/A
`gpt-4.1-mini`	1,5 B	100 milhões	50 milhões	90 K	N/A
`gpt-4o`	500 milhões	30 milhões	30 milhões	90 K	N/A
`gpt-4o-mini`	1,5 B	100 milhões	50 milhões	90 K	N/A
`o3-mini`	1,5 B	100 milhões	50 milhões	90 K	N/A

Restrições de utilização do GPT-4

GPT-4.5 preview padrão global

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4.5`	Nível empresarial	200 K	200
`gpt-4.5`	Predefinido	150 K	150

Padrão global da série GPT-4.1

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4.1` (2025-04-14)	Nível empresarial	5 milhões	5 K
`gpt-4.1` (2025-04-14)	Predefinido	1 milhão	1 K
`gpt-4.1-nano` (2025-04-14)	Nível empresarial	150 milhões	150 K
`gpt-4.1-nano` (2025-04-14)	Predefinido	5 milhões	5 K
`gpt-4.1-mini` (2025-04-14)	Nível empresarial	150 milhões	150 K
`gpt-4.1-mini` (2025-04-14)	Predefinido	5 milhões	5 K

Padrão de zona de dados da série GPT-4.1

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4.1` (2025-04-14)	Nível empresarial	2 milhões	2 K
`gpt-4.1` (2025-04-14)	Predefinido	300 Kelvin	300
`gpt-4.1-nano` (2025-04-14)	Nível empresarial	50 milhões	50 K
`gpt-4.1-nano` (2025-04-14)	Predefinido	2 milhões	2 K
`gpt-4.1-mini` (2025-04-14)	Nível empresarial	50 milhões	50 K
`gpt-4.1-mini` (2025-04-14)	Predefinido	2 milhões	2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) tem níveis de limite de taxa com limites mais elevados para determinados tipos de clientes.

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4` (turbo-2024-04-09)	Contrato Enterprise	2 milhões	12 K
`gpt-4` (turbo-2024-04-09)	Predefinido	450 K	2,7 K

Limitações de velocidade do roteador modelo

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`model-router` (2025-05-19)	Nível empresarial	10 milhões	10 mil
`model-router` (2025-05-19)	Predefinido	1 milhão	1 K

Limites de taxa padrão global de visualização de uso do computador

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`computer-use-preview`	Nível empresarial	30 milhões	300 Kelvin
`computer-use-preview`	Predefinido	450 K	4,5 K

Limites de taxa da série O

Importante

A proporção de solicitações por minuto (RPM) para tokens por minuto (TPM) na quota pode variar de acordo com o modelo. Quando você implanta um modelo programaticamente ou solicita um aumento de cota , não tem controle granular sobre TPM e RPM como valores independentes. A quota é atribuída em termos de unidades de capacidade que têm quantidades correspondentes de RPM e TPM:

Modelo	Capacidade	Solicitações por minuto (RPM)	Tokens por minuto (TPM)
Modelos de chat mais antigos:	1 Unidade	6 RPM	1.000 TPM
o1 & o1-pré-visualização:	1 Unidade	1 RPM	6.000 TPM
o3	1 Unidade	1 RPM	1.000 TPM
o4-mini	1 Unidade	1 RPM	1.000 TPM
O3-Mini:	1 Unidade	1 RPM	10.000 TPM
O1-Mini:	1 Unidade	1 RPM	10.000 TPM
O3-PRO:	1 Unidade	1 RPM	10.000 TPM

Isso é particularmente importante para a implantação de modelos programáticos, pois alterações na relação RPM/TPM podem resultar em alocação incorreta acidental de quota.

Padrão global da série O

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`codex-mini`	Contrato Enterprise	10 milhões	10 mil
`o3-pro`	Contrato Enterprise	16 milhões	1,6 K
`o4-mini`	Contrato Enterprise	10 milhões	10 mil
`o3`	Contrato Enterprise	10 milhões	10 mil
`o3-mini`	Contrato Enterprise	50 milhões	5 K
`o1` & `o1-preview`	Contrato Enterprise	30 milhões	5 K
`o1-mini`	Contrato Enterprise	50 milhões	5 K
`codex-mini`	Predefinido	1 milhão	1 K
`o3-pro`	Predefinido	1.6 milhões	160
`o4-mini`	Predefinido	1 milhão	1 K
`o3`	Predefinido	1 milhão	1 K
`o3-mini`	Predefinido	5 milhões	500
`o1` & `o1-preview`	Predefinido	3 milhões	500
`o1-mini`	Predefinido	5 milhões	500

Padrão de zona de dados da série O

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`o3-mini`	Contrato Enterprise	20 milhões	2 K
`o3-mini`	Predefinido	2 milhões	200
`o1`	Contrato Enterprise	6 milhões	1 K
`o1`	Predefinido	600 K	100

o1-preview e o1-mini padrão

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`o1-preview`	Contrato Enterprise	600 K	100
`o1-mini`	Contrato Enterprise	1 milhão	100
`o1-preview`	Predefinido	300 Kelvin	50
`o1-mini`	Predefinido	500 K	50

Limites de taxa GPT-4O

gpt-4o e gpt-4o-mini têm níveis de limite de taxa com limites mais elevados para determinados tipos de clientes.

Norma Global GPT-4O

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4o`	Contrato Enterprise	30 milhões	180 kB
`gpt-4o-mini`	Contrato Enterprise	50 milhões	300 Kelvin
`gpt-4o`	Predefinido	450 K	2,7 K
`gpt-4o-mini`	Predefinido	2 milhões	12 K

M = milhões | K = mil

Padrão de zona de dados GPT-4O

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4o`	Contrato Enterprise	10 milhões	60 K
`gpt-4o-mini`	Contrato Enterprise	20 milhões	120 K
`gpt-4o`	Predefinido	300 Kelvin	1,8 K
`gpt-4o-mini`	Predefinido	1 milhão	6 K

M = milhões | K = mil

Padrão GPT-4O

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4o`	Contrato Enterprise	1 milhão	6 K
`gpt-4o-mini`	Contrato Enterprise	2 milhões	12 K
`gpt-4o`	Predefinido	150 K	900
`gpt-4o-mini`	Predefinido	450 K	2,7 K

M = milhões | K = mil

Áudio GPT-4o

Os limites de velocidade para cada gpt-4o implementação de modelo de áudio são 100 K TPM e 1 K RPM. Durante a visualização, o portal e as APIs do Azure AI Foundry podem mostrar incorretamente limites de taxa diferentes. Mesmo se você tentar definir um limite de taxa diferente, o limite de taxa real é de 100 K TPM e 1 K RPM.

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-4o-audio-preview`	Predefinido	450 K	1 K
`gpt-4o-realtime-preview`	Predefinido	800 Kelvin	1 K
`gpt-4o-mini-audio-preview`	Predefinido	2 milhões	1 K
`gpt-4o-mini-realtime-preview`	Predefinido	800 Kelvin	1 K

M = milhões | K = mil

Limitação de taxa GPT-image-1

Padrão global GPT0-image-1

Modelo	Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
`gpt-image-1`	Contrato Enterprise	N/A	20
`gpt-image-1`	Predefinido	N/A	6

Níveis de utilização

As implantações padrão globais usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Da mesma forma, as implantações padrão da zona de dados permitem que você use a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. Isso permite uma latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver maior variabilidade na latência de resposta.

O Limite de Uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações, em todas as assinaturas e em todas as regiões, para um determinado inquilino.

Observação

As camadas de uso só se aplicam aos tipos de implantação padrão, padrão de zona de dados e padrão global. As camadas de uso não se aplicam a implantações globais em lote e largura de banda provisionada.

Padrão global, padrão de zona de dados e padrão

Modelo	Níveis de utilização por mês
`gpt-4` + `gpt-4-32k` (todas as versões)	6 mil milhões de tokens
`gpt-4o`	12 bilhões de tokens
`gpt-4o-mini`	85 bilhões de tokens
`o3-mini`	50 bilhões de tokens
`o1`	4 bilhões de tokens
`o4-mini`	50 bilhões de tokens
`o3`	5 mil milhões de tokens
`gpt-4.1`	30 bilhões de tokens
`gpt-4.1-mini`	150 bilhões de tokens
`gpt-4.1-nano`	550 bilhões de tokens

Outros tipos de oferta

Se sua assinatura do Azure estiver vinculada a determinados tipos de oferta, seus valores máximos de cota serão inferiores aos valores indicados nas tabelas acima.

Escalão de serviço	Limite de cota em tokens por minuto (TPM)
`Azure for Students`	1 K (todos os modelos) Exceção o-series & GPT-4.1 & GPT 4.5 Preview: 0
`MSDN`	GPT-4o-mini: 200 K GPT 3.5 Série Turbo: 200 K Série GPT-4: 50 K pré-visualização do uso do computador: 8 K gpt-4o-pré-visualização em tempo real: 1 K Série O: 0 GPT 4.5 Prévia: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Standard`	GPT-4o-mini: 200 K GPT 3.5 Série Turbo: 200 K Série GPT-4: 50 K Pré-visualização de Utilização do Computador: 30 K Série O: 0 GPT 4.5 Prévia: 0 GPT-4.1: 50 K GPT-4.1-nano: 200 K
`Azure_MS-AZR-0111P` `Azure_MS-AZR-0035P` `Azure_MS-AZR-0025P` `Azure_MS-AZR-0052P`	GPT-4o-mini: 200 K GPT 3.5 Série Turbo: 200 K Série GPT-4: 50 K
`CSP Integration Sandbox` ^*	Todos os modelos: 0
`Lightweight trial` `Free Trials` `Azure Pass`	Todos os modelos: 0

^*Isso só se aplica a um pequeno número de assinaturas legadas de ambiente de teste CSP. Use a consulta abaixo para determinar o que quotaId está associado à sua assinatura.

Para determinar o tipo de oferta associado à sua subscrição, pode verificar o seu quotaId. Se o seu quotaId não estiver listado nesta tabela, a sua subscrição qualifica-se para a quota padrão.

REST
CLI

Referência da API

az login
access_token=$(az account get-access-token --query accessToken -o tsv)

curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

az rest --method GET --uri "https://management.azure.com/subscriptions/{sub-id}?api-version=2020-01-01"

Resultado

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}

Atribuição de quotas/Tipo de oferta	ID da quota de subscrição
Enterprise	`EnterpriseAgreement_2014-09-01`
Pagamento conforme o consumo	`PayAsYouGo_2014-09-01`
MSDN	`MSDN_2014-09-01`
Sandbox de integração CSP	`CSPDEVTEST_2018-05-01`
Azure para Estudantes	`AzureForStudents_2018-01-01`
Avaliação Gratuita	`FreeTrial_2014-09-01`
Azure Pass	`AzurePass_2014-09-01`
Azure_MS-AZR-0111P	`AzureInOpen_2014-09-01`
Azure_MS-AZR-0150P	`LightweightTrial_2016-09-01`
Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P	`MPN_2014-09-01`
Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G	`MSDNDevTest_2014-09-01`
Predefinido	Qualquer ID de cota não listado nesta tabela

Melhores práticas gerais para se manter dentro dos limites das taxas

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:

Implemente a lógica de repetição na aplicação.
Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
Teste diferentes padrões de aumento de carga.
Aumente a cota atribuída para a sua implantação. Mova a quota de outra implantação, se necessário.

Como solicitar aumentos de cota

Os pedidos de aumento de quota podem ser apresentados através do formulário de pedido de aumento de quota. Devido à alta demanda, os pedidos de aumento de cota estão sendo aceitos e são preenchidos na ordem em que são recebidos. A prioridade é dada aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação pode ser negada se essa condição não for atendida.

Para outros limites de tarifa, envie uma solicitação de serviço.

Limites regionais de capacidade das quotas

Você pode exibir a disponibilidade de cota por região para sua assinatura no portal do Azure AI Foundry.

Como alternativa, para visualizar a capacidade de cota por região para um modelo/versão específico, você pode consultar a API de capacidade para sua assinatura. Forneça um subscriptionId, model_namee model_version e a API retorna a capacidade disponível para esse modelo em todas as regiões e tipos de implantação para sua assinatura.

Observação

Atualmente, o portal do Azure AI Foundry e a API de capacidade retornam informações de cota/capacidade para modelos que foram desativados e não estão mais disponíveis.

Referência da API

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Próximos passos

Explore como gerenciar a cota para suas implantações do Azure OpenAI. Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.

Compartilhar via

Azure OpenAI: Modelos do Azure AI Foundry - cotas e limites

Referência a quotas e limites

Limites de lotes

Limite de lotes

Lote mundial

Agrupamento de dados por zonas

Restrições de utilização do GPT-4

GPT-4.5 preview padrão global

Padrão global da série GPT-4.1

Padrão de zona de dados da série GPT-4.1

GPT-4 Turbo

Limitações de velocidade do roteador modelo

Limites de taxa padrão global de visualização de uso do computador

Limites de taxa da série O

Padrão global da série O

Padrão de zona de dados da série O

o1-preview e o1-mini padrão

Limites de taxa GPT-4O

Norma Global GPT-4O

Padrão de zona de dados GPT-4O

Padrão GPT-4O

Áudio GPT-4o

Limitação de taxa GPT-image-1

Padrão global GPT0-image-1

Níveis de utilização

Padrão global, padrão de zona de dados e padrão

Outros tipos de oferta

Resultado

Melhores práticas gerais para se manter dentro dos limites das taxas

Como solicitar aumentos de cota

Limites regionais de capacidade das quotas

Próximos passos

Comentários

Recursos adicionais