Cotas e limites do Serviço OpenAI do Azure
Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites do Azure OpenAI nos serviços do Azure AI.
Referência a quotas e limites
As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao Azure OpenAI:
Nome do limite | Valor limite |
---|---|
Recursos OpenAI por região por assinatura do Azure | 30 |
Limites de cota DALL-E 2 padrão | 2 pedidos simultâneos |
Limites de cota DALL-E 3 padrão | 2 unidades de capacidade (6 pedidos por minuto) |
Máximo de tokens de prompt por solicitação | Varia de acordo com o modelo. Para obter mais informações, consulte Modelos de Serviço OpenAI do Azure |
Max implantações de modelo ajustadas | 5 |
Número total de empregos de formação por recurso | 100 |
Máximo de trabalhos de treinamento em execução simultânea por recurso | 1 |
Máximo de trabalhos de treinamento na fila | 20 |
Máximo de arquivos por recurso (ajuste fino) | 50 |
Tamanho total de todos os arquivos por recurso (ajuste fino) | 1 GB |
Tempo máximo de trabalho de treinamento (o trabalho falhará se for excedido) | 720 horas |
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (# de épocas) | 2 Mil Milhões |
Tamanho máximo de todos os arquivos por carregamento (Azure OpenAI em seus dados) | 16 MB |
Número máximo ou entradas na matriz com /embeddings |
2048 |
Número máximo de /chat/completions mensagens |
2048 |
Número máximo de /chat/completions funções |
128 |
Número máximo de /chat completions ferramentas |
128 |
Número máximo de unidades de taxa de transferência provisionadas por implantação | 100.000 |
Máximo de arquivos por assistente/thread | 20 |
Tamanho máximo do ficheiro para Assistentes & ajuste fino | 512 MB |
Limite de token de assistentes | Limite de 2.000.000 tokens |
Limites regionais das quotas
A cota padrão para modelos varia de acordo com o modelo e a região. Os limites de cota padrão estão sujeitos a alterações.
A cota para implantações padrão é descrita em termos de Tokens por minuto (TPM).
País/Região | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | GPT-35-Turbo | GPT-35-Turbo-Instruir | Incorporação de texto-Ada-002 | incorporação de texto-3-pequeno | incorporação de texto-3-grande | Babbage-002 | Babbage-002 - ajuste fino | Davinci-002 | Davinci-002 - ajuste fino | GPT-35-Turbo - ajuste fino | GPT-35-Turbo-1106 - ajuste fino | GPT-35-Turbo-0125 - ajuste fino |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | 20 mil | 60 K | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | 150 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
E.U.A Centro-Sul | - | - | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
suécia central | 40 K | 80 K | 150 K | 30 K | 300 K | 240 K | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norte da suíça | 40 K | 80 K | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
Suíça Oeste | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | 80 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
1 K = 1000 tokens por minuto (TPM). A relação entre TPM e solicitações por minuto (RPM) é atualmente definida como 6 RPM por 1000 TPM.
Melhores práticas gerais para se manter dentro dos limites das taxas
Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:
- Implemente a lógica de repetição na aplicação.
- Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
- Teste diferentes padrões de aumento de carga.
- Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.
Como solicitar aumentos para as cotas e limites padrão
As solicitações de aumento de cota podem ser enviadas na página Cotas do Azure OpenAI Studio. Por favor, note que devido à grande procura, os pedidos de aumento de quota estão a ser aceites e serão preenchidos pela ordem em que forem recebidos. Será dada prioridade aos clientes que gerarem tráfego que consuma a alocação de cota existente, e sua solicitação poderá ser negada se essa condição não for atendida.
Para outros limites de tarifa, envie uma solicitação de serviço.
Próximos passos
Explore como gerenciar a cota para suas implantações do Azure OpenAI. Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.