Cotas e limites do Serviço OpenAI do Azure

Artigo
07/01/2024

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e limites do Azure OpenAI nos serviços do Azure AI.

Referência a quotas e limites

As seções a seguir fornecem um guia rápido para as cotas e limites padrão que se aplicam ao Azure OpenAI:

Nome do limite	Valor limite
Recursos OpenAI por região por assinatura do Azure	30
Limites de cota DALL-E 2 padrão	2 pedidos simultâneos
Limites de cota DALL-E 3 padrão	2 unidades de capacidade (6 pedidos por minuto)
Limites de cota padrão do Whisper	3 pedidos por minuto
Máximo de tokens de prompt por solicitação	Varia de acordo com o modelo. Para obter mais informações, consulte Modelos de Serviço OpenAI do Azure
Max implantações de modelo ajustadas	5
Número total de empregos de formação por recurso	100
Máximo de trabalhos de treinamento em execução simultânea por recurso	1
Máximo de trabalhos de treinamento na fila	20
Máximo de arquivos por recurso (ajuste fino)	50
Tamanho total de todos os arquivos por recurso (ajuste fino)	1 GB
Tempo máximo de trabalho de treinamento (o trabalho falhará se for excedido)	720 horas
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (# de épocas)	2 Mil Milhões
Tamanho máximo de todos os arquivos por carregamento (Azure OpenAI em seus dados)	16 MB
Número máximo ou entradas na matriz com `/embeddings`	2048
Número máximo de `/chat/completions` mensagens	2048
Número máximo de `/chat/completions` funções	128
Número máximo de `/chat completions` ferramentas	128
Número máximo de unidades de taxa de transferência provisionadas por implantação	100.000
Máximo de arquivos por assistente/thread	20
Tamanho máximo do ficheiro para Assistentes & ajuste fino	512 MB
Limite de token de assistentes	Limite de 2.000.000 tokens
GPT-4o max imagens por solicitação (# de imagens na matriz de mensagens/histórico de conversas)	10
GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09` tokens máximos padrão	16 Aumente o valor do `max_tokens` parâmetro para evitar respostas truncadas. Os tokens máximos GPT-4o têm como padrão 4096.

Limites regionais das quotas

País/Região	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	GPT-4O	gpt-4o - GlobalStandard	GPT-35-Turbo	GPT-35-Turbo-Instruir	Incorporação de texto-Ada-002	incorporação de texto-3-pequeno	incorporação de texto-3-grande	Babbage-002	Babbage-002 - ajuste fino	Davinci-002	Davinci-002 - ajuste fino	GPT-35-Turbo - ajuste fino	GPT-35-Turbo-1106 - ajuste fino	GPT-35-Turbo-0125 - ajuste fino	GPT-4 - ajuste fino
australiaeast	40 K	80 K	80 K	30 K	-	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
canadaeast	40 K	80 K	80 K	-	-	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-
eastus	-	-	80 K	-	150 K 1 milh	450 K 10 milh	240 K	240 K	240 K	350 K	350 K	-	-	-	-	-	-	-	-
eastus2	-	-	80 K	-	150 K 1 milh	450 K 10 milh	300 K	-	350 K	350 K	350 K	-	-	-	-	250 K	250 K	250 K	-
francecentral	20 mil	60 K	80 K	-	-	-	240 K	-	240 K	-	350 K	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 K	-	-	300 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
northcentralus	-	-	80 K	-	150 K 1 milh	450 K 10 milh	300 K	-	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K	100 mil
norwayeast	-	-	150 K	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-
E.U.A Centro-Sul	-	-	80 K	-	150 K 1 milh	450 K 10 milh	240 K	-	240 K	-	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	-	-	300 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
suécia central	40 K	80 K	150 K	30 K	150 K 1 milh	-	300 K	240 K	350 K	-	350 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K	100 mil
norte da suíça	40 K	80 K	-	30 K	-	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
Suíça Oeste	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K	-
uksouth	-	-	80 K	-	-	-	240 K	-	350 K	-	350 K	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-	-
westus	-	-	80 K	30 K	150 K 1 milh	450 K 10 milh	300 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westus3	-	-	80 K	-	150 K 1 milh	450 K 10 milh	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-

Limites de taxa GPT-4O

gpt-4o introduz níveis de limite de taxa com limites mais elevados para determinados tipos de clientes.

Norma Global GPT-4O

Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
Contrato Enterprise	10 milh	60 K
Predefinido	450 K	2,7 K

M = milhões | K = mil

Padrão GPT-4O

Escalão de serviço	Limite de cota em tokens por minuto (TPM)	Pedidos por minuto
Contrato Enterprise	1 milh	6 K
Predefinido	150 K	900

M = milhões | K = mil

Níveis de utilização

As implantações do Global Standard usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Isso permite uma latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver mais variabilidade na latência de resposta.

O Limite de Uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas em todas as regiões para um determinado locatário.

GPT-4o padrão global & padrão

Modelo	Níveis de uso por mês
`GPT-4o`	1,5 mil milhões de tokens

Outros tipos de oferta

Se sua assinatura do Azure estiver vinculada a determinados tipos de oferta, seus valores máximos de cota serão inferiores aos valores indicados nas tabelas acima.

Escalão de serviço	Limite de cota em tokens por minuto (TPM)
Azure para Estudantes, Versões Experimentais Gratuitas	1 K (todos os modelos)
Assinaturas do MSDN	GPT 3.5 Série Turbo: 30 K Série GPT-4: 8 K
Subscrições ^{mensais baseadas em cartões de crédito 1}	GPT 3.5 Série Turbo: 30 K Série GPT-4: 8 K

1 Isto aplica-se atualmente ao tipo de oferta 0003P

No portal do Azure, você pode exibir qual tipo de oferta está associado à sua assinatura navegando até sua assinatura e verificando o painel de visão geral de assinaturas. O tipo de oferta corresponde ao campo do plano na visão geral da assinatura.

Melhores práticas gerais para se manter dentro dos limites das taxas

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as seguintes técnicas:

Implemente a lógica de repetição na aplicação.
Evite alterações acentuadas na carga de trabalho. Aumente a carga de trabalho gradualmente.
Teste diferentes padrões de aumento de carga.
Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Como solicitar aumentos para as cotas e limites padrão

As solicitações de aumento de cota podem ser enviadas na página Cotas do Azure OpenAI Studio. Por favor, note que devido à grande procura, os pedidos de aumento de quota estão a ser aceites e serão preenchidos pela ordem em que forem recebidos. Será dada prioridade aos clientes que gerarem tráfego que consuma a alocação de cota existente, e sua solicitação poderá ser negada se essa condição não for atendida.

Para outros limites de tarifa, envie uma solicitação de serviço.

Próximos passos

Explore como gerenciar a cota para suas implantações do Azure OpenAI. Saiba mais sobre os modelos subjacentes que alimentam o Azure OpenAI.

Partilhar via