Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Nota:
Este documento hace referencia al portal de Microsoft Foundry (clásico).
🔍 Consulte la documentación de Microsoft Foundry (nuevo) para obtener información sobre el nuevo portal.
Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites de Azure OpenAI.
Ámbito de cuota
Las cuotas y los límites no se aplican en el nivel de inquilino. En su lugar, el nivel más alto de restricciones de cuota se limita al nivel de suscripción de Azure.
Asignación de cuota regional
Los tokens por minuto (TPM) y las solicitudes por minuto (RPM) se definen por región, por suscripción y por modelo o tipo de implementación.
Por ejemplo, si el gpt-4.1 modelo estándar global aparece con una cuota de 5 millones de TPM y 5000 RPM, cada región donde ese modelo o tipo de implementación está disponible tiene su propio grupo de cuotas dedicado de esa cantidad para cada una de las suscripciones de Azure. Dentro de una sola suscripción de Azure, es posible usar una mayor cantidad de cuota total de TPM y RPM para un modelo y tipo de implementación determinado, siempre y cuando tenga recursos e implementaciones de modelos distribuidas entre varias regiones.
Referencia de cuotas y límites
En la sección siguiente se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican a Azure OpenAI:
| Nombre del límite | Valor del límite |
|---|---|
| Recursos de Azure OpenAI por región, por suscripción de Azure | 30. |
| Límites de cuota de DALL-E 2 predeterminados | 2 solicitudes simultáneas. |
| Límites de cuota de DALL-E 3 predeterminados | 2 unidades de capacidad (6 solicitudes por minuto). |
| Límites de cuota predeterminados de GPT-image-1 | 2 unidades de capacidad (6 solicitudes por minuto). |
| Límites de cuota predeterminados de Sora | 60 solicitudes por minuto. |
| Límites de cuota predeterminados de Sora 2 | 2 tareas paralelas |
| Límites predeterminados del API de conversión de voz a texto | 3 solicitudes por minuto. |
| Número máximo de tokens de mensaje por solicitud | Varía según el modelo. Para más información, consulte Modelos de Azure OpenAI. |
| Implementaciones estándar máximas por recurso | 32. |
| Despliegues máximos de modelos afinados | 5 |
| Número total de trabajos de entrenamiento por recurso | 100. |
| Número máximo de trabajos de entrenamiento en ejecución simultánea por recurso | 1. |
| Número máximo de trabajos de entrenamiento en cola | 20. |
| Máximo de archivos por recurso (ajuste preciso) | 50. |
| Tamaño total de todos los archivos por recurso (ajuste preciso) | 1 GB. |
| Tiempo máximo de tarea de entrenamiento (la tarea fallará si se excede) | 720 horas. |
Tamaño máximo del trabajo de entrenamiento (tokens in training file) x (# of epochs) |
2 mil millones. |
| Tamaño máximo de todos los archivos por subida (Azure OpenAI en tus datos) | 16 MB. |
Número máximo de entradas en la matriz con /embeddings |
2,048. |
Número máximo de /chat/completions mensajes |
2,048. |
Número máximo de /chat/completions funciones |
128. |
Número máximo de /chat completions herramientas |
128. |
| Número máximo de unidades de rendimiento aprovisionadas por implementación | 100,000. |
| Número máximo de archivos por asistente o subproceso | 10 000 al usar la API o el portal de Microsoft Foundry. |
| Tamaño máximo de archivo para asistentes y ajuste preciso | 512 MB 200 MB a través del portal de Foundry. |
| Número máximo de solicitudes de carga de archivos por recurso | 30 solicitudes por segundo. |
| Tamaño máximo para todos los archivos cargados para asistentes | 200 GB. |
| Límite de tokens de asistentes | Límite de 2000 000 tokens. |
GPT-4o y GPT-4.1 las imágenes máximas por solicitud (número de imágenes en la matriz de mensajes o el historial de conversaciones) |
50. |
GPT-4
vision-preview y GPT-4turbo-2024-04-09 los tokens máximos predeterminados |
16. Aumente el valor del parámetro max_tokens para evitar las respuestas truncadas.
GPT-4o el valor predeterminado de los tokens máximos es 4096. |
| Número máximo de encabezados personalizados en solicitudesde API 1 | 10. |
| Límite de caracteres de mensaje | 1,048,576. |
| Tamaño del mensaje para archivos de audio | 20 MB. |
1 Nuestras API actuales permiten hasta 10 encabezados personalizados, que se pasan a través de la canalización y se devuelven. Algunos clientes ahora superan este recuento de encabezados, lo que produce errores HTTP 431. No hay solución para este error, salvo reducir el volumen de la cabecera. En futuras versiones de API, no pasaremos por encabezados personalizados. Se recomienda que los clientes no dependan de encabezados personalizados en futuras arquitecturas del sistema.
Nota:
Los límites de cuota están sujetos a cambios.
Serie GPT-5.1
| Modelo | Tipo de implementación | RPM predeterminado | TPM predeterminado | Enterprise y MCA-E RPM | TPM empresarial y MCA-E |
|---|---|---|---|---|---|
gpt-5.1 |
DataZoneStandard | 3,000 | 300 000 | 30,000 | 3 000 000 |
gpt-5.1 |
GlobalStandard | 10 000 | 1,000,000 | 100 000 | 10.000.000 |
gpt-5.1-chat |
GlobalStandard | 10 000 | 1,000,000 | 50,000 | 5,000,000 |
gpt-5.1-codex |
GlobalStandard | 1,000 | 1,000,000 | 10 000 | 10.000.000 |
gpt-5.1-codex-mini |
GlobalStandard | 1,000 | 1,000,000 | 10 000 | 10.000.000 |
gpt-5.1-codex-max |
GlobalStandard | 10 000 | 1,000,000 | 100 000 | 10.000.000 |
Serie GPT-5
| Modelo | Tipo de implementación | RPM predeterminado | TPM predeterminado | Enterprise y MCA-E RPM | TPM empresarial y MCA-E |
|---|---|---|---|---|---|
gpt-5 |
DataZoneStandard | 3,000 | 300 000 | 30,000 | 3 000 000 |
gpt-5 |
GlobalStandard | 10 000 | 1,000,000 | 100 000 | 10.000.000 |
gpt-5-chat |
GlobalStandard | 1,000 | 1,000,000 | 5.000 | 5,000,000 |
gpt-5-mini |
DataZoneStandard | 300 | 300 000 | 3,000 | 3 000 000 |
gpt-5-mini |
GlobalStandard | 1,000 | 1,000,000 | 10 000 | 10.000.000 |
gpt-5-nano |
DataZoneStandard | 2,000 | 2,000,000 | 50,000 | 50 000 000 |
gpt-5-nano |
GlobalStandard | 5.000 | 5,000,000 | 150,000 | 150,000,000 |
gpt-5-codex |
GlobalStandard | 1,000 | 1,000,000 | 10 000 | 10.000.000 |
gpt-5-pro |
GlobalStandard | 1600 | 160 000 | 16 000 | 1 600 000 |
límites de velocidad del enrutador de modelos
| Modelo | Tipo de implementación | RPM predeterminado | TPM predeterminado | Enterprise y MCA-E RPM | TPM empresarial y MCA-E |
|---|---|---|---|---|---|
model-router (2025-11-18) |
DataZoneStandard | 150 | 150,000 | 300 | 300 000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250 000 | 400 | 400 000 |
Límites de lotes
| Nombre del límite | Valor del límite |
|---|---|
| Máximo de archivos por recurso | 500 |
| Tamaño máximo de archivo de entrada | 200 MB |
| Número máximo de solicitudes por archivo | 100 000 |
Cuota de lote
En la tabla se muestra el límite de cuota por lotes. Los valores de cuota para lote global se representan en términos de tokens en cola. Al enviar un archivo para el procesamiento por lotes, se cuenta el número de tokens del archivo. Hasta que el trabajo por lotes alcance un estado de terminal, esos tokens cuentan para el límite total de tokens en cola.
Lote global
| Modelo | Enterprise y MCA-E | Predeterminado | Suscripciones mensuales basadas en tarjetas de crédito | Suscripciones de MSDN | Azure for Students, pruebas gratuitas |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200 millones | 50 millones | 90 000 | No disponible |
gpt-4.1 mini |
15B | 1B | 50 millones | 90 000 | No disponible |
gpt-4.1-nano |
15B | 1B | 50 millones | 90 000 | No disponible |
gpt-4o |
5B | 200 millones | 50 millones | 90 000 | No disponible |
gpt-4o-mini |
15B | 1B | 50 millones | 90 000 | No disponible |
gpt-4-turbo |
300 M | 80 M | 40 M | 90 000 | No disponible |
gpt-4 |
150 M | 30 M | 5 M | 100 k | No disponible |
gpt-35-turbo |
10B | 1B | 100 M | 2M | 50 K |
o3-mini |
15B | 1B | 50 millones | 90 000 | No disponible |
o4-mini |
15B | 1B | 50 millones | 90 000 | No disponible |
gpt-5 |
5B | 200 millones | 50 millones | 90 000 | No disponible |
B = mil millones | M = millones | K = mil
Lote de zona de datos
| Modelo | Enterprise y MCA-E | Predeterminado | Suscripciones mensuales basadas en tarjetas de crédito | Suscripciones de MSDN | Azure for Students, pruebas gratuitas |
|---|---|---|---|---|---|
gpt-4.1 |
500 M | 30 M | 30 M | 90 000 | No disponible |
gpt-4.1-mini |
1.500 millones | 100 M | 50 millones | 90 000 | No disponible |
gpt-4o |
500 M | 30 M | 30 M | 90 000 | No disponible |
gpt-4o-mini |
1.500 millones | 100 M | 50 millones | 90 000 | No disponible |
o3-mini |
1.500 millones | 100 M | 50 millones | 90 000 | No disponible |
gpt-5 |
5B | 200 millones | 50 millones | 90 000 | No disponible |
gpt-oss
| Modelo | Tokens por minuto (TPM) | Solicitudes por minuto (RPM) |
|---|---|---|
gpt-oss-120b |
5 millones | 5000 |
Límites de velocidad de GPT-4
GPT-4.5 vista previa Global Standard
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
gpt-4.5 |
Enterprise y MCA-E | 200 K | 200 |
gpt-4.5 |
Predeterminado | 150 000 | 150 |
Serie estándar global GPT-4.1
| Modelo | Nivel | Límite de cuota en tokens por minuto (TPM) | Solicitudes por minuto |
|---|---|---|---|
gpt-4.1 (2025-04-14) |
Enterprise y MCA-E | 5 M | 5000 |
gpt-4.1 (2025-04-14) |
Predeterminado | 1 M | 1000 |
gpt-4.1-nano (2025-04-14) |
Enterprise y MCA-E | 150 M | 150 000 |
gpt-4.1-nano (2025-04-14) |
Predeterminado | 5 M | 5000 |
gpt-4.1-mini (2025-04-14) |
Enterprise y MCA-E | 150 M | 150 000 |
gpt-4.1-mini (2025-04-14) |
Predeterminado | 5 M | 5000 |
Serie GPT-4.1 Estándar de zona de datos
| Modelo | Nivel | Límite de cuota en tokens por minuto (TPM) | Solicitudes por minuto |
|---|---|---|---|
gpt-4.1 (2025-04-14) |
Enterprise y MCA-E | 2M | 2K |
gpt-4.1 (2025-04-14) |
Predeterminado | 300 0000 | 300 |
gpt-4.1-nano (2025-04-14) |
Enterprise y MCA-E | 50 millones | 50 K |
gpt-4.1-nano (2025-04-14) |
Predeterminado | 2M | 2K |
gpt-4.1-mini (2025-04-14) |
Enterprise y MCA-E | 50 millones | 50 K |
gpt-4.1-mini (2025-04-14) |
Predeterminado | 2M | 2K |
GPT-4 Turbo
gpt-4 (turbo-2024-04-09) tiene niveles de límite de velocidad con límites más altos para determinados tipos de clientes.
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
gpt-4 (turbo-2024-04-09) |
Enterprise y MCA-E | 2M | 12 000 |
gpt-4 (turbo-2024-04-09) |
Predeterminado | 450 000 | 2.7K |
límites de velocidad estándar globales de computer-use-preview
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
computer-use-preview |
Enterprise y MCA-E | 30 M | 300 0000 |
computer-use-preview |
Predeterminado | 450 000 | 4.5K |
Límites de velocidad de la serie o
Importante
La proporción de solicitudes por minuto a tokens por minuto para la cuota puede variar según el modelo. Al implementar un modelo mediante programación o solicitar un aumento de cuota, no tiene control pormenorizado sobre tokens por minuto y solicitudes por minuto como valores independientes. La cuota se asigna en términos de unidades de capacidad, que tienen cantidades correspondientes de solicitudes por minuto y fichas por minuto.
| Modelo | Capacidad | Solicitudes por minuto (RPM) | Tokens por minuto (TPM) |
|---|---|---|---|
| Modelos de chat más antiguos | 1 unidad | 6 RPM (Revoluciones Por Minuto) | 1000 TPM |
o1 y o1-preview |
1 unidad | 1 revolución por minuto (RPM) | 6000 TPM |
o3 |
1 unidad | 1 revolución por minuto (RPM) | 1000 TPM |
o4-mini |
1 unidad | 1 revolución por minuto (RPM) | 1000 TPM |
o3-mini |
1 unidad | 1 revolución por minuto (RPM) | 10 000 TPM |
o1-mini |
1 unidad | 1 revolución por minuto (RPM) | 10 000 TPM |
o3-pro |
1 unidad | 1 revolución por minuto (RPM) | 10 000 TPM |
Este concepto es importante para la implementación de modelos mediante programación, ya que los cambios en la relación RPM a TPM pueden dar lugar a una asignación incorrecta accidental de la cuota.
Estándar global de la serie o
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
codex-mini |
Enterprise y MCA-E | 10 millones | 10 000 |
o3-pro |
Enterprise y MCA-E | 16 M | 1.6K |
o4-mini |
Enterprise y MCA-E | 10 millones | 10 000 |
o3 |
Enterprise y MCA-E | 10 millones | 10 000 |
o3-mini |
Enterprise y MCA-E | 50 millones | 5000 |
o1 y o1-preview |
Enterprise y MCA-E | 30 M | 5000 |
o1-mini |
Enterprise y MCA-E | 50 millones | 5000 |
codex-mini |
Predeterminado | 1 M | 1000 |
o3-pro |
Predeterminado | 1,6 M | 160 |
o4-mini |
Predeterminado | 1 M | 1000 |
o3 |
Predeterminado | 1 M | 1000 |
o3-mini |
Predeterminado | 5 M | 500 |
o1 y o1-preview |
Predeterminado | 3M | 500 |
o1-mini |
Predeterminado | 5 M | 500 |
Estándar de zona de datos de la serie O
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
o3 |
Predeterminado | 10 millones | 10 000 |
o4-mini |
Predeterminado | 10 millones | 10 000 |
o3-mini |
Enterprise y MCA-E | 20 M | 2K |
o3-mini |
Predeterminado | 2M | 200 |
o1 |
Enterprise y MCA-E | 6 M | 1000 |
o1 |
Predeterminado | 600 000 | 100 |
o1-preview y o1-mini Standard
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
o1-preview |
Enterprise y MCA-E | 600 000 | 100 |
o1-mini |
Enterprise y MCA-E | 1 M | 100 |
o1-preview |
Predeterminado | 300 0000 | 50 |
o1-mini |
Predeterminado | 500 000 | 50 |
Límites de velocidad de gpt-4o
gpt-4o y gpt-4o-mini tienen niveles de límite de velocidad con límites más altos para determinados tipos de clientes.
gpt-4o Global Standard
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
gpt-4o |
Enterprise y MCA-E | 30 M | 180 000 |
gpt-4o-mini |
Enterprise y MCA-E | 150 M | 1,5 millones |
gpt-4o |
Predeterminado | 450 000 | 2.7K |
gpt-4o-mini |
Predeterminado | 2M | 12 000 |
Estándar de zona de datos gpt-4o
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
gpt-4o |
Enterprise y MCA-E | 10 millones | 60 000 |
gpt-4o-mini |
Enterprise y MCA-E | 20 M | 120 000 |
gpt-4o |
Predeterminado | 300 0000 | 1.8K |
gpt-4o-mini |
Predeterminado | 1 M | 6 000 |
gpt-4o Standard
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
gpt-4o |
Enterprise y MCA-E | 1 M | 6 000 |
gpt-4o-mini |
Enterprise y MCA-E | 2M | 12 000 |
gpt-4o |
Predeterminado | 150 000 | 900 |
gpt-4o-mini |
Predeterminado | 450 000 | 2.7K |
GPT-4o audio
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
gpt-4o-audio-preview |
Predeterminado | 450 000 | 1000 |
gpt-4o-realtime-preview |
Predeterminado | 800 K | 1000 |
gpt-4o-mini-audio-preview |
Predeterminado | 2M | 1000 |
gpt-4o-mini-realtime-preview |
Predeterminado | 800 K | 1000 |
gpt-audio |
Predeterminado | 100 k | 30 |
gpt-audio-mini |
Predeterminado | 100 k | 30 |
gpt-realtime |
Predeterminado | 100 k | 100 |
gpt-realtime-mini |
Predeterminado | 100 k | 100 |
Límites de velocidad de GPT-image-1
GPT-image-1 Global Standard
| Modelo | Nivel | Límite de cuota en tokens por minuto | Solicitudes por minuto |
|---|---|---|---|
gpt-image-1 |
Enterprise y MCA-E | No disponible | 60 |
gpt-image-1 |
Predeterminado | No disponible | 18 |
gpt-image-1-mini |
Low | No disponible | 36 |
gpt-image-1-mini |
Media | No disponible | 108 |
gpt-image-1-mini |
High | No disponible | 360 |
Niveles de uso
Las implementaciones estándar globales usan la infraestructura global de Azure. Enrutan dinámicamente el tráfico del cliente al centro de datos que ofrezca la mejor disponibilidad para las solicitudes de inferencia del cliente. De forma similar, las implementaciones estándar de zona de datos permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. Esta práctica permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles de uso sostenidos podrían ver una mayor variabilidad en la latencia de respuesta.
Los niveles de uso de Azure OpenAI están diseñados para proporcionar un rendimiento coherente para la mayoría de los clientes con niveles bajos y medios de tráfico. Cada nivel de uso define el rendimiento máximo (tokens por minuto) que puede esperar con una latencia predecible. Cuando el uso permanece dentro del nivel asignado, la latencia permanece estable y los tiempos de respuesta son coherentes.
¿Qué ocurre si supera el nivel de uso?
- Si el rendimiento de la solicitud supera el nivel de uso (especialmente durante períodos de alta demanda), la latencia de respuesta puede aumentar significativamente.
- La latencia puede variar y, en algunos casos, puede ser más de dos veces mayor que cuando se trabaja dentro del nivel de uso.
- Esta variabilidad es más notable para los clientes con un uso sostenido elevado o patrones de tráfico irregular.
Acciones recomendadas si superas el nivel de uso
Si encuentra errores 429 o observa una mayor variabilidad de latencia, esto es lo que debe hacer:
- Solicitar un aumento de cuota: visite Azure Portal para solicitar una cuota mayor para su suscripción.
- Considere la posibilidad de actualizar a una oferta premium (PTU): para cargas de trabajo de gran volumen o latencia crítica, actualice a unidades de procesamiento aprovisionadas (PTU). PTU proporciona recursos dedicados, capacidad garantizada y latencia predecible, incluso a escala. Esta es la mejor opción para las aplicaciones críticas que requieren un rendimiento coherente.
- Supervisión del uso: revise periódicamente las métricas de uso en Azure Portal para asegurarse de que está trabajando dentro de los límites del nivel. Ajuste la carga de trabajo o la estrategia de implementación según sea necesario.
El límite de uso determina el nivel de uso por encima del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo. Es el número total de todos los tokens consumidos en todas las implementaciones de todas las suscripciones de todas las regiones para un inquilino determinado.
Nota:
Los niveles de uso solo se aplican a los tipos de implementación Estándar, Estándar de zona de datos y Estándar global. Los niveles de uso no se aplican a las implementaciones globales de rendimiento por lotes y aprovisionadas.
Estándar global, Estándar de zona de datos y Estándar
| Modelo | Niveles de uso por mes |
|---|---|
gpt-5 |
32 000 millones de tokens |
gpt-5-mini |
160 mil millones de tokens |
gpt-5-nano |
800 mil millones de tokens |
gpt-5-chat |
32 000 millones de tokens |
gpt-4
+
gpt-4-32k (todas las versiones) |
6 mil millones de tokens |
gpt-4o |
12 mil millones de tokens |
gpt-4o-mini |
85 000 millones de tokens |
o3-mini |
50 000 millones de tokens |
o1 |
4 mil millones de tokens |
o4-mini |
50 000 millones de tokens |
o3 |
5 mil millones de tokens |
gpt-4.1 |
30 000 millones de tokens |
gpt-4.1-mini |
150 mil millones de tokens |
gpt-4.1-nano |
550 mil millones de tokens |
Otros tipos de oferta
Si la suscripción de Azure está vinculada a determinados tipos de ofertas, los valores máximos de cuota son inferiores a los valores indicados en las tablas anteriores.
La cuota GPT-5-pro solo está disponible para MCA-E y las suscripciones de cuota predeterminadas. Todos los demás tipos de oferta tienen una cuota cero para este modelo de forma predeterminada.
La cuota del modelo de razonamiento GPT-5 es de 20 000 RPM y 200 RPM para todos los tipos de oferta que no tienen acceso a MCA-E o a la cuota predeterminada. GPT-5-chat es 50 000 y 50 RPM.
Algunos tipos de ofertas están restringidos solo a implementaciones estándar globales en las regiones Este de EE. UU. 2 y Centro de Suecia.
| Nivel | Límite de cuota en tokens por minuto |
|---|---|
Azure for Students |
1K (todos los modelos) Serie O de excepción, GPT-4.1 y Vista previa de GPT-4.5: 0 |
MSDN |
GPT-4o-mini: 200K Serie GPT 3.5 Turbo: 200K Serie GPT-4: 50 000 vista previa del uso de la computadora: 8K gpt-4o-realtime-preview: 1K serie o: 0 GPT 4.5 Preview: 0 GPT-4.1: 50 000 GPT-4.1-nano: 200K |
Standard& Pay-as-you-go |
GPT-4o-mini: 200K Serie GPT 3.5 Turbo: 200K Serie GPT-4: 50 000 computer-use-preview: 30 K serie o: 0 GPT 4.5 Preview: 0 GPT-4.1: 50 000 GPT-4.1-nano: 200K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini: 200K Serie GPT 3.5 Turbo: 200K Serie GPT-4: 50 000 |
CSP Integration Sandbox
*
|
Todos los modelos: 0 |
Lightweight trialFree trialsAzure Pass |
Todos los modelos: 0 |
*Este límite solo se aplica a un pequeño número de suscripciones heredadas de sandbox CSP. Use la consulta siguiente para determinar qué quotaId valor está asociado a la suscripción.
Para determinar el tipo de oferta asociado a la suscripción, puede comprobar su quotaId valor. Si el valor quotaId no aparece en esta tabla, su suscripción califica para la cuota predeterminada.
Consulte la referencia de API.
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
Salida
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
| Tipo de asignación de cuota/Tipo de oferta | Identificador de cuota de suscripción |
|---|---|
| Enterprise y MCA-E | EnterpriseAgreement_2014-09-01 |
| Pago por uso | PayAsYouGo_2014-09-01 |
| MSDN | MSDN_2014-09-01 |
| Espacio aislado de integración de CSP | CSPDEVTEST_2018-05-01 |
| Azure for Students | AzureForStudents_2018-01-01 |
| Evaluación gratuita | FreeTrial_2014-09-01 |
| Pase para Azure | AzurePass_2014-09-01 |
| Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
| Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
| Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
| Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
| Predeterminado | Cualquier identificador de cuota que no aparezca en esta tabla |
Procedimientos recomendados generales para mantenerse dentro de los límites de tasa
Para minimizar los problemas relacionados con los límites de frecuencia, se recomienda usar las técnicas siguientes:
- Implemente lógica de reintento en la aplicación.
- Evite cambios bruscos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
- Prueba de diferentes patrones de aumento de carga
- Aumente la cuota asignada al despliegue. Mueva la cuota de otra implementación, si es necesario.
Solicitud de aumento de cuota
Las solicitudes de aumento de cuota se pueden enviar mediante el formulario de solicitud de aumento de cuota. Debido a la alta demanda, las solicitudes de aumento de cuota se aceptan y rellenan en el orden en que se reciben. Se da prioridad a los clientes que generan tráfico que consume la asignación de cuota existente. Es posible que se deniegue la solicitud si no se cumple esta condición.
Puede enviar una solicitud de servicio para otros límites de frecuencia.
Límites de capacidad de cuota regional
Puede ver la disponibilidad de cuota por región de la suscripción en el portal de Foundry.
Para ver la capacidad de cuota por región para un modelo o versión específicos, puede consultar la API de capacidad de la suscripción. Proporcione un subscriptionId, model_name y model_version y la API devuelve la capacidad disponible para ese modelo en todas las regiones y tipos de implementación de su suscripción.
Nota:
Actualmente, tanto el portal de Foundry como la API de capacidad devuelven información sobre la cuota/capacidad de los modelos que están retirados y ya no están disponibles.
Consulte la referencia de API.
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
Contenido relacionado
- Explore cómo administrar la cuota de las implementaciones de Azure OpenAI.
- Obtenga más información sobre los modelos subyacentes que impulsan Azure OpenAI.