Cotas e limites do Serviço OpenAI do Azure

Artigo
04/07/2024

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites do Azure OpenAI nos serviços do Azure AI.

Referência a quotas e limites

As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao Azure OpenAI:

Nome do limite	Valor limite
Recursos OpenAI por região por assinatura do Azure	30
Limites de cota DALL-E 2 padrão	2 pedidos simultâneos
Limites de cota DALL-E 3 padrão	2 unidades de capacidade (6 pedidos por minuto)
Máximo de tokens de prompt por solicitação	Varia de acordo com o modelo. Para obter mais informações, consulte Modelos de Serviço OpenAI do Azure
Max implantações de modelo ajustadas	5
Número total de empregos de formação por recurso	100
Máximo de trabalhos de treinamento em execução simultânea por recurso	1
Máximo de trabalhos de treinamento na fila	20
Máximo de arquivos por recurso (ajuste fino)	50
Tamanho total de todos os arquivos por recurso (ajuste fino)	1 GB
Tempo máximo de trabalho de treinamento (o trabalho falhará se for excedido)	720 horas
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (# de épocas)	2 Mil Milhões
Tamanho máximo de todos os arquivos por carregamento (Azure OpenAI em seus dados)	16 MB
Número máximo ou entradas na matriz com `/embeddings`	2048
Número máximo de `/chat/completions` mensagens	2048
Número máximo de `/chat/completions` funções	128
Número máximo de `/chat completions` ferramentas	128
Número máximo de unidades de taxa de transferência provisionadas por implantação	100.000
Máximo de arquivos por assistente/thread	20
Tamanho máximo do ficheiro para Assistentes & ajuste fino	512 MB
Limite de token de assistentes	Limite de 2.000.000 tokens

Limites regionais das quotas

A cota padrão para modelos varia de acordo com o modelo e a região. Os limites de cota padrão estão sujeitos a alterações.

A cota para implantações padrão é descrita em termos de Tokens por minuto (TPM).

País/Região	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	GPT-35-Turbo	GPT-35-Turbo-Instruir	Incorporação de texto-Ada-002	incorporação de texto-3-pequeno	incorporação de texto-3-grande	Babbage-002	Babbage-002 - ajuste fino	Davinci-002	Davinci-002 - ajuste fino	GPT-35-Turbo - ajuste fino	GPT-35-Turbo-1106 - ajuste fino	GPT-35-Turbo-0125 - ajuste fino
australiaeast	40 K	80 K	80 K	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
canadaeast	40 K	80 K	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-
eastus	-	-	80 K	-	240 K	240 K	240 K	350 K	350 K	-	-	-	-	-	-	-
eastus2	-	-	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	250 K	250 K	250 K
francecentral	20 mil	60 K	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
northcentralus	-	-	80 K	-	300 K	-	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	150 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
E.U.A Centro-Sul	-	-	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-
suécia central	40 K	80 K	150 K	30 K	300 K	240 K	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norte da suíça	40 K	80 K	-	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
Suíça Oeste	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	80 K	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
westus	-	-	80 K	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
westus3	-	-	80 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-

1 K = 1000 tokens por minuto (TPM). A relação entre TPM e solicitações por minuto (RPM) é atualmente definida como 6 RPM por 1000 TPM.

Melhores práticas gerais para se manter dentro dos limites das taxas

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:

Implemente a lógica de repetição na aplicação.
Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
Teste diferentes padrões de aumento de carga.
Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Como solicitar aumentos para as cotas e limites padrão

As solicitações de aumento de cota podem ser enviadas na página Cotas do Azure OpenAI Studio. Por favor, note que devido à grande procura, os pedidos de aumento de quota estão a ser aceites e serão preenchidos pela ordem em que forem recebidos. Será dada prioridade aos clientes que gerarem tráfego que consuma a alocação de cota existente, e sua solicitação poderá ser negada se essa condição não for atendida.

Para outros limites de tarifa, envie uma solicitação de serviço.

Próximos passos

Explore como gerenciar a cota para suas implantações do Azure OpenAI. Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.