Cotas e limites do Serviço OpenAI do Azure

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e dos limites do OpenAI do Azure nos serviços de IA do Azure.

Referência de cotas e limites

As seções a seguir fornecem um guia rápido para as cotas e os limites padrão que se aplicam ao OpenAI do Azure:

Nome do limite Valor do limite
Recursos do OpenAI por região na assinatura do Azure 30
Limites de cota DALL-E 2 padrão 2 solicitações simultâneas
Limites de cota DALL-E 3 padrão Duas unidades de capacidade (seis solicitações por minuto)
Máximo de tokens de prompt por solicitação Varia de acordo com o modelo. Para saber mais, confira Modelos do Serviço OpenAI do Azure
Máximo de ajuste de implantações de modelo 5
Número total de trabalhos de treinamento por recurso 100
Máximo de trabalhos de treinamento simultâneos em execução por recurso 1
Máximo de trabalhos de treinamento na fila 20
Máximo de arquivos por recurso (ajuste fino) 50
Tamanho total de todos os arquivos por recurso (ajuste fino) 1 GB
Tempo máximo do trabalho de treinamento (o trabalho falhará se ele for excedido) 720 horas
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (nº de épocas) 2 bilhões
Tamanho máximo de todos os arquivos por upload (OpenAI do Azure em seus dados) 16 MB
Número máximo ou entradas na matriz com /embeddings 2048
Número máximo de mensagens de /chat/completions 2048
Número máximo de funções de /chat/completions 128
Número máximo de ferramentas de /chat completions 128
Número máximo de unidades de taxa de transferência Provisionadas por implantação 100.000
Máximo de arquivos por Assistente/thread 20
Tamanho máximo do arquivo para Assistentes e ajuste fino 512 MB
Limite de token de assistentes Limite de token de 2.000.000

Limites de cota regional

A cota padrão para modelos varia de acordo com o modelo e a região. Os limites da cota padrão estão sujeitos a alterações.

A cota para implantações padrão é descrita em termos de TPM (Tokens por Minuto).

Region GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 – ajuste fino Davinci-002 Davinci-002 – ajuste fino GPT-35-Turbo – ajuste fino GPT-35-Turbo-1106 – ajuste fino GPT-35-Turbo-0125 – ajuste fino
australiaeast 40 mil 80 mil 80 mil 30 K 300 mil - 350 mil - - - - - - - - -
brazilsouth - - - - - - 350 mil - - - - - - - - -
canadaeast 40 mil 80 mil 80 mil - 300 mil - 350 mil 350 mil 350 mil - - - - - - -
eastus - - 80 mil - 240 mil 240 mil 240 mil 350 mil 350 mil - - - - - - -
eastus2 - - 80 mil - 300 mil - 350 mil 350 mil 350 mil - - - - 250 mil 250 mil 250 mil
francecentral 20 mil 60 K 80 mil - 240 mil - 240 mil - - - - - - - - -
japaneast - - - 30 K 300 mil - 350 mil - - - - - - - - -
northcentralus - - 80 mil - 300 mil - 350 mil - - 240 mil 250 mil 240 mil 250 mil 250 mil 250 mil 250 mil
norwayeast - - 150 mil - - - 350 mil - - - - - - - - -
southafricanorth - - - - - - 350 mil - - - - - - - - -
southcentralus - - 80 mil - 240 mil - 240 mil - - - - - - - - -
southindia - - 150 mil - 300 mil - 350 mil - - - - - - - - -
swedencentral 40 mil 80 mil 150 mil 30 K 300 mil 240 mil 350 mil - - 240 mil 250 mil 240 mil 250 mil 250 mil 250 mil 250 mil
switzerlandnorth 40 mil 80 mil - 30 K 300 mil - 350 mil - - - - - - - - -
switzerlandwest - - - - - - - - - - 250 mil - 250 mil 250 mil 250 mil 250 mil
uksouth - - 80 mil - 240 mil - 350 mil - - - - - - - - -
westeurope - - - - 240 mil - 240 mil - - - - - - - - -
westus - - 80 mil 30 K 300 mil - 350 mil - - - - - - - - -
westus3 - - 80 mil - - - 350 mil - - - - - - - - -

1 K = 1000 TPM (Tokens por Minuto). A relação entre TPM e RPM (Solicitações por Minuto) é definida atualmente como 6 RPM por 1000 TPM.

Práticas recomendadas gerais para permanecer dentro dos limites da taxa

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as técnicas a seguir:

  • Implemente a lógica de repetição no seu aplicativo.
  • Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente.
  • Teste padrões distintos de aumento de carga.
  • Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Como solicitar aumentos para as cotas e limites padrão

As solicitações de aumento de cota podem ser enviadas na página Cotas do Estúdio de OpenAI do Azure. Observe que, devido à demanda esmagadora, as solicitações de aumento de cota estão sendo aceitas e serão preenchidas na ordem em que forem recebidas. Será dada prioridade aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação poderá ser negada se esta condição não for atendida.

Para outros limites de taxa, envie uma solicitação de serviço .

Próximas etapas

Explore como gerenciar cotas para suas implantações do OpenAI do Azure. Saiba mais sobre os modelos subjacentes que alimentam o OpenAI do Azure.