Límites y cuotas de Azure OpenAI Service
Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites para Azure OpenAI en los servicios Azure AI.
Referencia de las cuotas y límites
En las secciones siguientes se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican a Azure OpenAI:
Nombre del límite | Límite de valor |
---|---|
Recursos de OpenAI por región y por suscripción de Azure | 30 |
Límites de cuota de DALL-E 2 predeterminados | 2 solicitudes simultáneas |
Límites de cuota de DALL-E 3 predeterminados | 2 unidades de capacidad (6 solicitudes por minuto) |
Límites predeterminados de cuota de susurro | 3 solicitudes por minuto |
Número máximo de tokens de solicitud por solicitud | Varía según el modelo. Para obtener más información, consulte Modelos de servicio de OpenAI de Azure |
Número máximo de implementaciones de modelos ajustados | 5 |
Número total de trabajos de entrenamiento por recurso | 100 |
Número máximo de trabajos de entrenamiento en ejecución simultánea por recurso | 1 |
Número máximo de trabajos de entrenamiento en cola | 20 |
Máximo de archivos por recurso (ajuste preciso) | 50 |
Tamaño total de todos los archivos por recurso (ajuste preciso) | 1 GB |
Tiempo máximo del trabajo de entrenamiento (se producirá un error en el trabajo si se supera) | 720 horas |
Tamaño máximo del trabajo de entrenamiento (tokens en el archivo de entrenamiento) x (número de épocas) | 2 mil millones |
Tamaño máximo de todos los archivos por carga (Azure OpenAI en los datos) | 16 MB |
Número máximo de entradas en la matriz con /embeddings |
2048 |
Número máximo de mensajes /chat/completions |
2048 |
Número máximo de funciones /chat/completions |
128 |
Número máximo de herramientas /chat completions |
128 |
Número máximo de unidades de procesamiento aprovisionadas por implementación | 100 000 |
Número máximo de archivos por asistente o subproceso | 10 000 al usar la API o AI Studio. 20 al usar Azure OpenAI Studio. |
Tamaño máximo de archivo para asistentes y ajuste preciso | 512 MB |
Límite de tokens de asistentes | Límite de 2 000 000 tokens |
GPT-4o imágenes máximas por solicitud (nº de imágenes en la matriz de mensajes/historial de conversaciones) | 10 |
GPT-4 vision-preview y GPT-4 turbo-2024-04-09 tokens máximos predeterminados |
16 Aumente el valor del parámetro max_tokens para evitar las respuestas truncadas. GPT-4o max tokens tiene como valor predeterminado 4096. |
Límites de cuota regionales
Region | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o - GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - finetune | GPT-35-Turbo-1106 - finetune | GPT-4 - finetune | GPT-35-Turbo-0125 - finetune |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 000 | 80 000 | 80 000 | 30 K | - | 450 K 30 M |
300 000 | - | 350 000 | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | 450 K 30 M |
- | - | 350 000 | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 000 | 80 000 | 80 000 | - | - | 450 K 30 M |
300 000 | - | 350 000 | 350 000 | 350 000 | - | - | - | - | - | - | - | - |
estado | - | - | 80 000 | - | 150 000 1 M |
450 K 30 M |
240 000 | 240 000 | 240 000 | 350 000 | 350 000 | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 000 | - | 150 000 1 M |
450 K 30 M |
300 000 | - | 350 000 | 350 000 | 350 000 | - | - | - | - | 250 000 | 250 000 | - | 250 000 |
francecentral | 20 000 | 60 000 | 80 000 | - | - | 450 K 30 M |
240 000 | - | 240 000 | - | 350 000 | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | - | 450 K 30 M |
300 000 | - | 350 000 | - | 350 000 | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 000 | - | 150 000 1 M |
450 K 30 M |
300 000 | - | 350 000 | - | - | 240 000 | 250 000 | 240 000 | 250 000 | 250 000 | 250 000 | 100 000 | 250 000 |
norwayeast | - | - | 150 000 | - | - | 450 K 30 M |
- | - | 350 000 | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | 450 K 30 M |
- | - | 350 000 | - | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 000 | - | 150 000 1 M |
450 K 30 M |
240 000 | - | 240 000 | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 000 | - | - | 450 K 30 M |
300 000 | - | 350 000 | - | 350 000 | - | - | - | - | - | - | - | - |
suecia central | 40 000 | 80 000 | 150 000 | 30 K | 150 000 1 M |
450 K 30 M |
300 000 | 240 000 | 350 000 | - | 350 000 | 240 000 | 250 000 | 240 000 | 250 000 | 250 000 | 250 000 | 100 000 | 250 000 |
norte de suiza | 40 000 | 80 000 | - | 30 K | - | 450 K 30 M |
300 000 | - | 350 000 | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 000 | - | 250 000 | 250 000 | 250 000 | - | 250 000 |
uksouth | - | - | 80 000 | - | - | 450 K 30 M |
240 000 | - | 350 000 | - | 350 000 | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | 450 K 30 M |
240 000 | - | 240 000 | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 000 | 30 K | 150 000 1 M |
450 K 30 M |
300 000 | - | 350 000 | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 000 | - | 150 000 1 M |
450 K 30 M |
- | - | 350 000 | - | 350 000 | - | - | - | - | - | - | - | - |
Límites de velocidad de GPT-4o
gpt-4o
presenta niveles de límite de velocidad más altos para determinados tipos de clientes.
GPT-4o estándar global
Nivel | Límite de cuota en tokens por minuto (TPM) | Solicitudes por minuto |
---|---|---|
Contrato Enterprise | 30 M | 180 000 |
Valor predeterminado | 450 K | 2,7 K |
M = millones | K = miles
GPT-4o estándar
Nivel | Límite de cuota en tokens por minuto (TPM) | Solicitudes por minuto |
---|---|---|
Contrato Enterprise | 1 M | 6 K |
Valor predeterminado | 150 000 | 900 |
M = millones | K = miles
Niveles de uso
Las implementaciones globales estándar usan la infraestructura global de Azure, enrutando dinámicamente el tráfico de los clientes al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente. Esto permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles sostenidos de uso podrían ver más variabilidad en la latencia de respuesta.
El Límite de uso determina el nivel de uso por encima del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo y es el total de tokens consumidos en todas las implementaciones de todas las suscripciones de todas las regiones de un inquilino determinado.
GPT-4o global estándar y estándar
Modelo | Niveles de uso al mes |
---|---|
GPT-4o |
1,5 mil millones de tokens |
Otros tipos de oferta
Si la suscripción de Azure está vinculada a determinados tipos de ofertas los valores máximos de cuota son inferiores a los valores indicados en las tablas anteriores.
Nivel | Límite de cuota en tokens por minuto (TPM) |
---|---|
Azure for Students, pruebas gratuitas | 1 K (todos los modelos) |
Suscripciones de MSDN | Serie GPT 3.5 Turbo: 30 K Serie GPT-4: 8 K |
Suscripciones basadas en tarjetas de crédito mensuales 1 | Serie GPT 3.5 Turbo: 30 K Serie GPT-4: 8 K |
1 Esto se aplica actualmente altipo de oferta 0003P
En Azure Portal puede ver qué tipo de oferta está asociado a su suscripción; para ello, vaya a la suscripción y compruebe el panel de información general de las suscripciones. El tipo de oferta corresponde al campo plan de la información general de la suscripción.
Procedimientos recomendados generales para permanecer dentro de los límites de frecuencia
Para minimizar los problemas relacionados con los límites de frecuencia, se recomienda usar las técnicas siguientes:
- Implemente lógica de reintento en la aplicación.
- Evite cambios bruscos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
- Prueba de diferentes patrones de aumento de carga
- Aumente la cuota asignada a la implementación. Mueva la cuota de otra implementación, si es necesario.
Cómo solicitar aumentos en las cuotas y límites predeterminados
Las solicitudes de aumento de cuota se pueden enviar desde la página Cuotas de Azure OpenAI Studio. Tenga en cuenta que debido a una demanda abrumadora, se aceptan solicitudes de aumento de cuota y se rellenarán en el orden en que se reciben. Se dará prioridad a los clientes que generan tráfico que consume la asignación de cuota existente y es posible que se deniegue la solicitud si no se cumple esta condición.
Para otros límites de frecuencia, enviar una solicitud de servicio.
Pasos siguientes
Explore cómo administrar la cuota de las implementaciones de Azure OpenAI. Más información sobre los modelos subyacentes que impulsan Azure OpenAI.
Comentaris
https://aka.ms/ContentUserFeedback.
Properament: al llarg del 2024 eliminarem gradualment GitHub Issues com a mecanisme de retroalimentació del contingut i el substituirem per un nou sistema de retroalimentació. Per obtenir més informació, consulteu:Envieu i consulteu els comentaris de