Cotas e limites do Serviço OpenAI do Azure

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites do Azure OpenAI nos serviços do Azure AI.

Referência a quotas e limites

As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao Azure OpenAI:

Nome do limite Valor limite
Recursos OpenAI por região por assinatura do Azure 30
Limites de cota DALL-E 2 padrão 2 pedidos simultâneos
Limites de cota DALL-E 3 padrão 2 unidades de capacidade (6 pedidos por minuto)
Máximo de tokens de prompt por solicitação Varia de acordo com o modelo. Para obter mais informações, consulte Modelos de Serviço OpenAI do Azure
Max implantações de modelo ajustadas 5
Número total de empregos de formação por recurso 100
Máximo de trabalhos de treinamento em execução simultânea por recurso 1
Máximo de trabalhos de treinamento na fila 20
Máximo de arquivos por recurso (ajuste fino) 50
Tamanho total de todos os arquivos por recurso (ajuste fino) 1 GB
Tempo máximo de trabalho de treinamento (o trabalho falhará se for excedido) 720 horas
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (# de épocas) 2 Mil Milhões
Tamanho máximo de todos os arquivos por carregamento (Azure OpenAI em seus dados) 16 MB
Número máximo ou entradas na matriz com /embeddings 2048
Número máximo de /chat/completions mensagens 2048
Número máximo de /chat/completions funções 128
Número máximo de /chat completions ferramentas 128
Número máximo de unidades de taxa de transferência provisionadas por implantação 100.000
Máximo de arquivos por assistente/thread 20
Tamanho máximo do ficheiro para Assistentes & ajuste fino 512 MB
Limite de token de assistentes Limite de 2.000.000 tokens

Limites regionais das quotas

A cota padrão para modelos varia de acordo com o modelo e a região. Os limites de cota padrão estão sujeitos a alterações.

A cota para implantações padrão é descrita em termos de Tokens por minuto (TPM).

País/Região GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V GPT-35-Turbo GPT-35-Turbo-Instruir Incorporação de texto-Ada-002 incorporação de texto-3-pequeno incorporação de texto-3-grande Babbage-002 Babbage-002 - ajuste fino Davinci-002 Davinci-002 - ajuste fino GPT-35-Turbo - ajuste fino GPT-35-Turbo-1106 - ajuste fino GPT-35-Turbo-0125 - ajuste fino
australiaeast 40 K 80 K 80 K 30 K 300 K - 350 K - - - - - - - - -
brazilsouth - - - - - - 350 K - - - - - - - - -
canadaeast 40 K 80 K 80 K - 300 K - 350 K 350 K 350 K - - - - - - -
eastus - - 80 K - 240 K 240 K 240 K 350 K 350 K - - - - - - -
eastus2 - - 80 K - 300 K - 350 K 350 K 350 K - - - - 250 K 250 K 250 K
francecentral 20 mil 60 K 80 K - 240 K - 240 K - - - - - - - - -
japaneast - - - 30 K 300 K - 350 K - - - - - - - - -
northcentralus - - 80 K - 300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - 150 K - - - 350 K - - - - - - - - -
southafricanorth - - - - - - 350 K - - - - - - - - -
E.U.A Centro-Sul - - 80 K - 240 K - 240 K - - - - - - - - -
southindia - - 150 K - 300 K - 350 K - - - - - - - - -
suécia central 40 K 80 K 150 K 30 K 300 K 240 K 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norte da suíça 40 K 80 K - 30 K 300 K - 350 K - - - - - - - - -
Suíça Oeste - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - 80 K - 240 K - 350 K - - - - - - - - -
westeurope - - - - 240 K - 240 K - - - - - - - - -
westus - - 80 K 30 K 300 K - 350 K - - - - - - - - -
westus3 - - 80 K - - - 350 K - - - - - - - - -

1 K = 1000 tokens por minuto (TPM). A relação entre TPM e solicitações por minuto (RPM) é atualmente definida como 6 RPM por 1000 TPM.

Melhores práticas gerais para se manter dentro dos limites das taxas

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:

  • Implemente a lógica de repetição na aplicação.
  • Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
  • Teste diferentes padrões de aumento de carga.
  • Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Como solicitar aumentos para as cotas e limites padrão

As solicitações de aumento de cota podem ser enviadas na página Cotas do Azure OpenAI Studio. Por favor, note que devido à grande procura, os pedidos de aumento de quota estão a ser aceites e serão preenchidos pela ordem em que forem recebidos. Será dada prioridade aos clientes que gerarem tráfego que consuma a alocação de cota existente, e sua solicitação poderá ser negada se essa condição não for atendida.

Para outros limites de tarifa, envie uma solicitação de serviço.

Próximos passos

Explore como gerenciar a cota para suas implantações do Azure OpenAI. Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.