Cotas e limites do Serviço OpenAI do Azure
Este artigo contém uma referência rápida e uma descrição detalhada das cotas e dos limites do OpenAI do Azure nos serviços de IA do Azure.
Referência de cotas e limites
As seções a seguir fornecem um guia rápido para as cotas e os limites padrão que se aplicam ao OpenAI do Azure:
Nome do limite | Valor do limite |
---|---|
Recursos do OpenAI por região na assinatura do Azure | 30 |
Limites de cota DALL-E 2 padrão | 2 solicitações simultâneas |
Limites de cota DALL-E 3 padrão | Duas unidades de capacidade (seis solicitações por minuto) |
Máximo de tokens de prompt por solicitação | Varia de acordo com o modelo. Para saber mais, confira Modelos do Serviço OpenAI do Azure |
Máximo de ajuste de implantações de modelo | 5 |
Número total de trabalhos de treinamento por recurso | 100 |
Máximo de trabalhos de treinamento simultâneos em execução por recurso | 1 |
Máximo de trabalhos de treinamento na fila | 20 |
Máximo de arquivos por recurso (ajuste fino) | 50 |
Tamanho total de todos os arquivos por recurso (ajuste fino) | 1 GB |
Tempo máximo do trabalho de treinamento (o trabalho falhará se ele for excedido) | 720 horas |
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (nº de épocas) | 2 bilhões |
Tamanho máximo de todos os arquivos por upload (OpenAI do Azure em seus dados) | 16 MB |
Número máximo ou entradas na matriz com /embeddings |
2048 |
Número máximo de mensagens de /chat/completions |
2048 |
Número máximo de funções de /chat/completions |
128 |
Número máximo de ferramentas de /chat completions |
128 |
Número máximo de unidades de taxa de transferência Provisionadas por implantação | 100.000 |
Máximo de arquivos por Assistente/thread | 20 |
Tamanho máximo do arquivo para Assistentes e ajuste fino | 512 MB |
Limite de token de assistentes | Limite de token de 2.000.000 |
Limites de cota regional
A cota padrão para modelos varia de acordo com o modelo e a região. Os limites da cota padrão estão sujeitos a alterações.
A cota para implantações padrão é descrita em termos de TPM (Tokens por Minuto).
Region | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 – ajuste fino | Davinci-002 | Davinci-002 – ajuste fino | GPT-35-Turbo – ajuste fino | GPT-35-Turbo-1106 – ajuste fino | GPT-35-Turbo-0125 – ajuste fino |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 mil | 80 mil | 80 mil | 30 K | 300 mil | - | 350 mil | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - |
canadaeast | 40 mil | 80 mil | 80 mil | - | 300 mil | - | 350 mil | 350 mil | 350 mil | - | - | - | - | - | - | - |
eastus | - | - | 80 mil | - | 240 mil | 240 mil | 240 mil | 350 mil | 350 mil | - | - | - | - | - | - | - |
eastus2 | - | - | 80 mil | - | 300 mil | - | 350 mil | 350 mil | 350 mil | - | - | - | - | 250 mil | 250 mil | 250 mil |
francecentral | 20 mil | 60 K | 80 mil | - | 240 mil | - | 240 mil | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | 300 mil | - | 350 mil | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 mil | - | 300 mil | - | 350 mil | - | - | 240 mil | 250 mil | 240 mil | 250 mil | 250 mil | 250 mil | 250 mil |
norwayeast | - | - | 150 mil | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 mil | - | 240 mil | - | 240 mil | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 mil | - | 300 mil | - | 350 mil | - | - | - | - | - | - | - | - | - |
swedencentral | 40 mil | 80 mil | 150 mil | 30 K | 300 mil | 240 mil | 350 mil | - | - | 240 mil | 250 mil | 240 mil | 250 mil | 250 mil | 250 mil | 250 mil |
switzerlandnorth | 40 mil | 80 mil | - | 30 K | 300 mil | - | 350 mil | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | 250 mil | - | 250 mil | 250 mil | 250 mil | 250 mil |
uksouth | - | - | 80 mil | - | 240 mil | - | 350 mil | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | 240 mil | - | 240 mil | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 mil | 30 K | 300 mil | - | 350 mil | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 mil | - | - | - | 350 mil | - | - | - | - | - | - | - | - | - |
1 K = 1000 TPM (Tokens por Minuto). A relação entre TPM e RPM (Solicitações por Minuto) é definida atualmente como 6 RPM por 1000 TPM.
Práticas recomendadas gerais para permanecer dentro dos limites da taxa
Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as técnicas a seguir:
- Implemente a lógica de repetição no seu aplicativo.
- Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente.
- Teste padrões distintos de aumento de carga.
- Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.
Como solicitar aumentos para as cotas e limites padrão
As solicitações de aumento de cota podem ser enviadas na página Cotas do Estúdio de OpenAI do Azure. Observe que, devido à demanda esmagadora, as solicitações de aumento de cota estão sendo aceitas e serão preenchidas na ordem em que forem recebidas. Será dada prioridade aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação poderá ser negada se esta condição não for atendida.
Para outros limites de taxa, envie uma solicitação de serviço .
Próximas etapas
Explore como gerenciar cotas para suas implantações do OpenAI do Azure. Saiba mais sobre os modelos subjacentes que alimentam o OpenAI do Azure.