Límites y cuotas de Azure OpenAI Service

Artículo
06/04/2024

Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites para Azure OpenAI en los servicios Azure AI.

Referencia de las cuotas y límites

En las secciones siguientes se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican a Azure OpenAI:

Nombre del límite	Límite de valor
Recursos de OpenAI por región y por suscripción de Azure	30
Límites de cuota de DALL-E 2 predeterminados	2 solicitudes simultáneas
Límites de cuota de DALL-E 3 predeterminados	2 unidades de capacidad (6 solicitudes por minuto)
Número máximo de tokens de solicitud por solicitud	Varía según el modelo. Para obtener más información, consulte Modelos de servicio de OpenAI de Azure
Número máximo de implementaciones de modelos ajustados	5
Número total de trabajos de entrenamiento por recurso	100
Número máximo de trabajos de entrenamiento en ejecución simultánea por recurso	1
Número máximo de trabajos de entrenamiento en cola	20
Máximo de archivos por recurso (ajuste preciso)	50
Tamaño total de todos los archivos por recurso (ajuste preciso)	1 GB
Tiempo máximo del trabajo de entrenamiento (se producirá un error en el trabajo si se supera)	720 horas
Tamaño máximo del trabajo de entrenamiento (tokens en el archivo de entrenamiento) x (número de épocas)	2 mil millones
Tamaño máximo de todos los archivos por carga (Azure OpenAI en los datos)	16 MB
Número máximo de entradas en la matriz con `/embeddings`	2048
Número máximo de mensajes `/chat/completions`	2048
Número máximo de funciones `/chat/completions`	128
Número máximo de herramientas `/chat completions`	128
Número máximo de unidades de procesamiento aprovisionadas por implementación	100 000
Número máximo de archivos por asistente o subproceso	20
Tamaño máximo de archivo para asistentes y ajuste preciso	512 MB
Límite de tokens de asistentes	Límite de 2 000 000 tokens

Límites de cuota regionales

La cuota predeterminada de los modelos varía según el modelo y la región. Los límites de cuota predeterminados están sujetos a cambios.

La cuota de las implementaciones estándar se describe en términos de tokens por minuto (TPM).

Region	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o - GlobalStandard	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune	GPT-4 - finetune
australiaeast	40 000	80 000	80 000	30 K	-	-	300 000	-	350 000	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	350 000	-	-	-	-	-	-	-	-	-	-
canadaeast	40 000	80 000	80 000	-	-	-	300 000	-	350 000	350 000	350 000	-	-	-	-	-	-	-	-
estado	-	-	80 000	-	150 000	450 K	240 000	240 000	240 000	350 000	350 000	-	-	-	-	-	-	-	-
eastus2	-	-	80 000	-	150 000	450 K	300 000	-	350 000	350 000	350 000	-	-	-	-	250 000	250 000	250 000	-
francecentral	20 000	60 000	80 000	-	-	-	240 000	-	240 000	-	350 000	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 K	-	-	300 000	-	350 000	-	350 000	-	-	-	-	-	-	-	-
northcentralus	-	-	80 000	-	150 000	450 K	300 000	-	350 000	-	-	240 000	250 000	240 000	250 000	250 000	250 000	250 000	100 000
norwayeast	-	-	150 000	-	-	-	-	-	350 000	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	350 000	-	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80 000	-	150 000	450 K	240 000	-	240 000	-	-	-	-	-	-	-	-	-	-
southindia	-	-	150 000	-	-	-	300 000	-	350 000	-	350 000	-	-	-	-	-	-	-	-
suecia central	40 000	80 000	150 000	30 K	-	-	300 000	240 000	350 000	-	350 000	240 000	250 000	240 000	250 000	250 000	250 000	250 000	100 000
norte de suiza	40 000	80 000	-	30 K	-	-	300 000	-	350 000	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	250 000	-	250 000	250 000	250 000	250 000	-
uksouth	-	-	80 000	-	-	-	240 000	-	350 000	-	350 000	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	240 000	-	240 000	-	-	-	-	-	-	-	-	-	-
westus	-	-	80 000	30 K	150 000	450 K	300 000	-	350 000	-	-	-	-	-	-	-	-	-	-
westus3	-	-	80 000	-	150 000	450 K	-	-	350 000	-	350 000	-	-	-	-	-	-	-	-

1 K = 1000 tokens por minuto (TPM). La relación entre TPM y las solicitudes por minuto (RPM) se define actualmente como 6 RPM por 1000 TPM.

Los valores para GPT-4o en la tabla anterior representan valores de cuota por defecto que están disponibles para todos los clientes. Los clientes empresariales tienen asignaciones de cuota mucho más grandes.

Límites de velocidad de GPT-4o

gpt-4o presenta niveles de límite de velocidad más altos para determinados tipos de clientes.

GPT-4o estándar global

Nota:

El tipo de implementación de modelos estándar global se encuentra actualmente en versión preliminar pública.

Nivel	Límite de cuota en tokens por minuto (TPM)	Solicitudes por minuto
Contrato Enterprise	10 M	60 000
Valor predeterminado	450 K	2,7 K

M = millones | K = miles

GPT-4o estándar

Nivel	Límite de cuota en tokens por minuto (TPM)	Solicitudes por minuto
Contrato Enterprise	1 M	6 K
Valor predeterminado	150 000	900

M = millones | K = miles

Niveles de uso

Las implementaciones globales estándar usan la infraestructura global de Azure, enrutando dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente. Esto permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles de uso sostenidos pueden ver más variabilidad en la latencia de respuesta.

El Límite de uso determina el nivel de uso por encima del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo y es el total de tokens consumidos en todas las implementaciones de todas las suscripciones de todas las regiones de un inquilino determinado.

GPT-4o global estándar y estándar

Modelo	Niveles de uso al mes
`GPT-4o`	1,5 mil millones de tokens

Procedimientos recomendados generales para permanecer dentro de los límites de frecuencia

Para minimizar los problemas relacionados con los límites de frecuencia, se recomienda usar las técnicas siguientes:

Implemente lógica de reintento en la aplicación.
Evite cambios bruscos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
Prueba de diferentes patrones de aumento de carga
Aumente la cuota asignada a la implementación. Mueva la cuota de otra implementación, si es necesario.

Cómo solicitar aumentos en las cuotas y límites predeterminados

Las solicitudes de aumento de cuota se pueden enviar desde la página Cuotas de Azure OpenAI Studio. Tenga en cuenta que, debido a la abrumadora demanda, se están aceptando solicitudes de aumento de cuota, que se atenderán en el orden en que se reciban. Se dará prioridad a los clientes que generen un tráfico que consuma la asignación de cuota existente, y su solicitud podrá ser denegada si no se cumple esta condición.

Para otros límites de frecuencia, envíe una solicitud de servicio.

Pasos siguientes

Explore cómo administrar la cuota de las implementaciones de Azure OpenAI. Más información sobre los modelos subyacentes que impulsan Azure OpenAI.

Compartir a través de