Compartir a través de


Límites y cuotas de Azure OpenAI en Microsoft Foundry Models

Nota:

Este documento hace referencia al portal de Microsoft Foundry (clásico).

🔍 Consulte la documentación de Microsoft Foundry (nuevo) para obtener información sobre el nuevo portal.

Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites de Azure OpenAI.

Ámbito de cuota

Las cuotas y los límites no se aplican en el nivel de inquilino. En su lugar, el nivel más alto de restricciones de cuota se limita al nivel de suscripción de Azure.

Asignación de cuota regional

Los tokens por minuto (TPM) y las solicitudes por minuto (RPM) se definen por región, por suscripción y por modelo o tipo de implementación.

Por ejemplo, si el gpt-4.1 modelo estándar global aparece con una cuota de 5 millones de TPM y 5000 RPM, cada región donde ese modelo o tipo de implementación está disponible tiene su propio grupo de cuotas dedicado de esa cantidad para cada una de las suscripciones de Azure. Dentro de una sola suscripción de Azure, es posible usar una mayor cantidad de cuota total de TPM y RPM para un modelo y tipo de implementación determinado, siempre y cuando tenga recursos e implementaciones de modelos distribuidas entre varias regiones.

Referencia de cuotas y límites

En la sección siguiente se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican a Azure OpenAI:

Nombre del límite Valor del límite
Recursos de Azure OpenAI por región, por suscripción de Azure 30.
Límites de cuota de DALL-E 2 predeterminados 2 solicitudes simultáneas.
Límites de cuota de DALL-E 3 predeterminados 2 unidades de capacidad (6 solicitudes por minuto).
Límites de cuota predeterminados de GPT-image-1 2 unidades de capacidad (6 solicitudes por minuto).
Límites de cuota predeterminados de Sora 60 solicitudes por minuto.
Límites de cuota predeterminados de Sora 2 2 tareas paralelas
Límites predeterminados del API de conversión de voz a texto 3 solicitudes por minuto.
Número máximo de tokens de mensaje por solicitud Varía según el modelo. Para más información, consulte Modelos de Azure OpenAI.
Implementaciones estándar máximas por recurso 32.
Despliegues máximos de modelos afinados 5
Número total de trabajos de entrenamiento por recurso 100.
Número máximo de trabajos de entrenamiento en ejecución simultánea por recurso 1.
Número máximo de trabajos de entrenamiento en cola 20.
Máximo de archivos por recurso (ajuste preciso) 50.
Tamaño total de todos los archivos por recurso (ajuste preciso) 1 GB.
Tiempo máximo de tarea de entrenamiento (la tarea fallará si se excede) 720 horas.
Tamaño máximo del trabajo de entrenamiento (tokens in training file) x (# of epochs) 2 mil millones.
Tamaño máximo de todos los archivos por subida (Azure OpenAI en tus datos) 16 MB.
Número máximo de entradas en la matriz con /embeddings 2,048.
Número máximo de /chat/completions mensajes 2,048.
Número máximo de /chat/completions funciones 128.
Número máximo de /chat completions herramientas 128.
Número máximo de unidades de rendimiento aprovisionadas por implementación 100,000.
Número máximo de archivos por asistente o subproceso 10 000 al usar la API o el portal de Microsoft Foundry.
Tamaño máximo de archivo para asistentes y ajuste preciso 512 MB

200 MB a través del portal de Foundry.
Número máximo de solicitudes de carga de archivos por recurso 30 solicitudes por segundo.
Tamaño máximo para todos los archivos cargados para asistentes 200 GB.
Límite de tokens de asistentes Límite de 2000 000 tokens.
GPT-4o y GPT-4.1 las imágenes máximas por solicitud (número de imágenes en la matriz de mensajes o el historial de conversaciones) 50.
GPT-4 vision-preview y GPT-4turbo-2024-04-09 los tokens máximos predeterminados 16.

Aumente el valor del parámetro max_tokens para evitar las respuestas truncadas. GPT-4o el valor predeterminado de los tokens máximos es 4096.
Número máximo de encabezados personalizados en solicitudesde API 1 10.
Límite de caracteres de mensaje 1,048,576.
Tamaño del mensaje para archivos de audio 20 MB.

1 Nuestras API actuales permiten hasta 10 encabezados personalizados, que se pasan a través de la canalización y se devuelven. Algunos clientes ahora superan este recuento de encabezados, lo que produce errores HTTP 431. No hay solución para este error, salvo reducir el volumen de la cabecera. En futuras versiones de API, no pasaremos por encabezados personalizados. Se recomienda que los clientes no dependan de encabezados personalizados en futuras arquitecturas del sistema.

Nota:

Los límites de cuota están sujetos a cambios.

Serie GPT-5.1

Modelo Tipo de implementación RPM predeterminado TPM predeterminado Enterprise y MCA-E RPM TPM empresarial y MCA-E
gpt-5.1 DataZoneStandard 3,000 300 000 30,000 3 000 000
gpt-5.1 GlobalStandard 10 000 1,000,000 100 000 10.000.000
gpt-5.1-chat GlobalStandard 10 000 1,000,000 50,000 5,000,000
gpt-5.1-codex GlobalStandard 1,000 1,000,000 10 000 10.000.000
gpt-5.1-codex-mini GlobalStandard 1,000 1,000,000 10 000 10.000.000
gpt-5.1-codex-max GlobalStandard 10 000 1,000,000 100 000 10.000.000

Serie GPT-5

Modelo Tipo de implementación RPM predeterminado TPM predeterminado Enterprise y MCA-E RPM TPM empresarial y MCA-E
gpt-5 DataZoneStandard 3,000 300 000 30,000 3 000 000
gpt-5 GlobalStandard 10 000 1,000,000 100 000 10.000.000
gpt-5-chat GlobalStandard 1,000 1,000,000 5.000 5,000,000
gpt-5-mini DataZoneStandard 300 300 000 3,000 3 000 000
gpt-5-mini GlobalStandard 1,000 1,000,000 10 000 10.000.000
gpt-5-nano DataZoneStandard 2,000 2,000,000 50,000 50 000 000
gpt-5-nano GlobalStandard 5.000 5,000,000 150,000 150,000,000
gpt-5-codex GlobalStandard 1,000 1,000,000 10 000 10.000.000
gpt-5-pro GlobalStandard 1600 160 000 16 000 1 600 000

límites de velocidad del enrutador de modelos

Modelo Tipo de implementación RPM predeterminado TPM predeterminado Enterprise y MCA-E RPM TPM empresarial y MCA-E
model-router
(2025-11-18)
DataZoneStandard 150 150,000 300 300 000
model-router
(2025-11-18)
GlobalStandard 250 250 000 400 400 000

Límites de lotes

Nombre del límite Valor del límite
Máximo de archivos por recurso 500
Tamaño máximo de archivo de entrada 200 MB
Número máximo de solicitudes por archivo 100 000

Cuota de lote

En la tabla se muestra el límite de cuota por lotes. Los valores de cuota para lote global se representan en términos de tokens en cola. Al enviar un archivo para el procesamiento por lotes, se cuenta el número de tokens del archivo. Hasta que el trabajo por lotes alcance un estado de terminal, esos tokens cuentan para el límite total de tokens en cola.

Lote global

Modelo Enterprise y MCA-E Predeterminado Suscripciones mensuales basadas en tarjetas de crédito Suscripciones de MSDN Azure for Students, pruebas gratuitas
gpt-4.1 5B 200 millones 50 millones 90 000 No disponible
gpt-4.1 mini 15B 1B 50 millones 90 000 No disponible
gpt-4.1-nano 15B 1B 50 millones 90 000 No disponible
gpt-4o 5B 200 millones 50 millones 90 000 No disponible
gpt-4o-mini 15B 1B 50 millones 90 000 No disponible
gpt-4-turbo 300 M 80 M 40 M 90 000 No disponible
gpt-4 150 M 30 M 5 M 100 k No disponible
gpt-35-turbo 10B 1B 100 M 2M 50 K
o3-mini 15B 1B 50 millones 90 000 No disponible
o4-mini 15B 1B 50 millones 90 000 No disponible
gpt-5 5B 200 millones 50 millones 90 000 No disponible

B = mil millones | M = millones | K = mil

Lote de zona de datos

Modelo Enterprise y MCA-E Predeterminado Suscripciones mensuales basadas en tarjetas de crédito Suscripciones de MSDN Azure for Students, pruebas gratuitas
gpt-4.1 500 M 30 M 30 M 90 000 No disponible
gpt-4.1-mini 1.500 millones 100 M 50 millones 90 000 No disponible
gpt-4o 500 M 30 M 30 M 90 000 No disponible
gpt-4o-mini 1.500 millones 100 M 50 millones 90 000 No disponible
o3-mini 1.500 millones 100 M 50 millones 90 000 No disponible
gpt-5 5B 200 millones 50 millones 90 000 No disponible

gpt-oss

Modelo Tokens por minuto (TPM) Solicitudes por minuto (RPM)
gpt-oss-120b 5 millones 5000

Límites de velocidad de GPT-4

GPT-4.5 vista previa Global Standard

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
gpt-4.5 Enterprise y MCA-E 200 K 200
gpt-4.5 Predeterminado 150 000 150

Serie estándar global GPT-4.1

Modelo Nivel Límite de cuota en tokens por minuto (TPM) Solicitudes por minuto
gpt-4.1 (2025-04-14) Enterprise y MCA-E 5 M 5000
gpt-4.1 (2025-04-14) Predeterminado 1 M 1000
gpt-4.1-nano (2025-04-14) Enterprise y MCA-E 150 M 150 000
gpt-4.1-nano (2025-04-14) Predeterminado 5 M 5000
gpt-4.1-mini (2025-04-14) Enterprise y MCA-E 150 M 150 000
gpt-4.1-mini (2025-04-14) Predeterminado 5 M 5000

Serie GPT-4.1 Estándar de zona de datos

Modelo Nivel Límite de cuota en tokens por minuto (TPM) Solicitudes por minuto
gpt-4.1 (2025-04-14) Enterprise y MCA-E 2M 2K
gpt-4.1 (2025-04-14) Predeterminado 300 0000 300
gpt-4.1-nano (2025-04-14) Enterprise y MCA-E 50 millones 50 K
gpt-4.1-nano (2025-04-14) Predeterminado 2M 2K
gpt-4.1-mini (2025-04-14) Enterprise y MCA-E 50 millones 50 K
gpt-4.1-mini (2025-04-14) Predeterminado 2M 2K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) tiene niveles de límite de velocidad con límites más altos para determinados tipos de clientes.

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
gpt-4 (turbo-2024-04-09) Enterprise y MCA-E 2M 12 000
gpt-4 (turbo-2024-04-09) Predeterminado 450 000 2.7K

límites de velocidad estándar globales de computer-use-preview

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
computer-use-preview Enterprise y MCA-E 30 M 300 0000
computer-use-preview Predeterminado 450 000 4.5K

Límites de velocidad de la serie o

Importante

La proporción de solicitudes por minuto a tokens por minuto para la cuota puede variar según el modelo. Al implementar un modelo mediante programación o solicitar un aumento de cuota, no tiene control pormenorizado sobre tokens por minuto y solicitudes por minuto como valores independientes. La cuota se asigna en términos de unidades de capacidad, que tienen cantidades correspondientes de solicitudes por minuto y fichas por minuto.

Modelo Capacidad Solicitudes por minuto (RPM) Tokens por minuto (TPM)
Modelos de chat más antiguos 1 unidad 6 RPM (Revoluciones Por Minuto) 1000 TPM
o1 y o1-preview 1 unidad 1 revolución por minuto (RPM) 6000 TPM
o3 1 unidad 1 revolución por minuto (RPM) 1000 TPM
o4-mini 1 unidad 1 revolución por minuto (RPM) 1000 TPM
o3-mini 1 unidad 1 revolución por minuto (RPM) 10 000 TPM
o1-mini 1 unidad 1 revolución por minuto (RPM) 10 000 TPM
o3-pro 1 unidad 1 revolución por minuto (RPM) 10 000 TPM

Este concepto es importante para la implementación de modelos mediante programación, ya que los cambios en la relación RPM a TPM pueden dar lugar a una asignación incorrecta accidental de la cuota.

Estándar global de la serie o

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
codex-mini Enterprise y MCA-E 10 millones 10 000
o3-pro Enterprise y MCA-E 16 M 1.6K
o4-mini Enterprise y MCA-E 10 millones 10 000
o3 Enterprise y MCA-E 10 millones 10 000
o3-mini Enterprise y MCA-E 50 millones 5000
o1 y o1-preview Enterprise y MCA-E 30 M 5000
o1-mini Enterprise y MCA-E 50 millones 5000
codex-mini Predeterminado 1 M 1000
o3-pro Predeterminado 1,6 M 160
o4-mini Predeterminado 1 M 1000
o3 Predeterminado 1 M 1000
o3-mini Predeterminado 5 M 500
o1 y o1-preview Predeterminado 3M 500
o1-mini Predeterminado 5 M 500

Estándar de zona de datos de la serie O

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
o3 Predeterminado 10 millones 10 000
o4-mini Predeterminado 10 millones 10 000
o3-mini Enterprise y MCA-E 20 M 2K
o3-mini Predeterminado 2M 200
o1 Enterprise y MCA-E 6 M 1000
o1 Predeterminado 600 000 100

o1-preview y o1-mini Standard

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
o1-preview Enterprise y MCA-E 600 000 100
o1-mini Enterprise y MCA-E 1 M 100
o1-preview Predeterminado 300 0000 50
o1-mini Predeterminado 500 000 50

Límites de velocidad de gpt-4o

gpt-4o y gpt-4o-mini tienen niveles de límite de velocidad con límites más altos para determinados tipos de clientes.

gpt-4o Global Standard

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
gpt-4o Enterprise y MCA-E 30 M 180 000
gpt-4o-mini Enterprise y MCA-E 150 M 1,5 millones
gpt-4o Predeterminado 450 000 2.7K
gpt-4o-mini Predeterminado 2M 12 000

Estándar de zona de datos gpt-4o

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
gpt-4o Enterprise y MCA-E 10 millones 60 000
gpt-4o-mini Enterprise y MCA-E 20 M 120 000
gpt-4o Predeterminado 300 0000 1.8K
gpt-4o-mini Predeterminado 1 M 6 000

gpt-4o Standard

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
gpt-4o Enterprise y MCA-E 1 M 6 000
gpt-4o-mini Enterprise y MCA-E 2M 12 000
gpt-4o Predeterminado 150 000 900
gpt-4o-mini Predeterminado 450 000 2.7K

GPT-4o audio

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
gpt-4o-audio-preview Predeterminado 450 000 1000
gpt-4o-realtime-preview Predeterminado 800 K 1000
gpt-4o-mini-audio-preview Predeterminado 2M 1000
gpt-4o-mini-realtime-preview Predeterminado 800 K 1000
gpt-audio Predeterminado 100 k 30
gpt-audio-mini Predeterminado 100 k 30
gpt-realtime Predeterminado 100 k 100
gpt-realtime-mini Predeterminado 100 k 100

Límites de velocidad de GPT-image-1

GPT-image-1 Global Standard

Modelo Nivel Límite de cuota en tokens por minuto Solicitudes por minuto
gpt-image-1 Enterprise y MCA-E No disponible 60
gpt-image-1 Predeterminado No disponible 18
gpt-image-1-mini Low No disponible 36
gpt-image-1-mini Media No disponible 108
gpt-image-1-mini High No disponible 360

Niveles de uso

Las implementaciones estándar globales usan la infraestructura global de Azure. Enrutan dinámicamente el tráfico del cliente al centro de datos que ofrezca la mejor disponibilidad para las solicitudes de inferencia del cliente. De forma similar, las implementaciones estándar de zona de datos permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. Esta práctica permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles de uso sostenidos podrían ver una mayor variabilidad en la latencia de respuesta.

Los niveles de uso de Azure OpenAI están diseñados para proporcionar un rendimiento coherente para la mayoría de los clientes con niveles bajos y medios de tráfico. Cada nivel de uso define el rendimiento máximo (tokens por minuto) que puede esperar con una latencia predecible. Cuando el uso permanece dentro del nivel asignado, la latencia permanece estable y los tiempos de respuesta son coherentes.

¿Qué ocurre si supera el nivel de uso?

  • Si el rendimiento de la solicitud supera el nivel de uso (especialmente durante períodos de alta demanda), la latencia de respuesta puede aumentar significativamente.
  • La latencia puede variar y, en algunos casos, puede ser más de dos veces mayor que cuando se trabaja dentro del nivel de uso.
  • Esta variabilidad es más notable para los clientes con un uso sostenido elevado o patrones de tráfico irregular.

Si encuentra errores 429 o observa una mayor variabilidad de latencia, esto es lo que debe hacer:

  • Solicitar un aumento de cuota: visite Azure Portal para solicitar una cuota mayor para su suscripción.
  • Considere la posibilidad de actualizar a una oferta premium (PTU): para cargas de trabajo de gran volumen o latencia crítica, actualice a unidades de procesamiento aprovisionadas (PTU). PTU proporciona recursos dedicados, capacidad garantizada y latencia predecible, incluso a escala. Esta es la mejor opción para las aplicaciones críticas que requieren un rendimiento coherente.
  • Supervisión del uso: revise periódicamente las métricas de uso en Azure Portal para asegurarse de que está trabajando dentro de los límites del nivel. Ajuste la carga de trabajo o la estrategia de implementación según sea necesario.

El límite de uso determina el nivel de uso por encima del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo. Es el número total de todos los tokens consumidos en todas las implementaciones de todas las suscripciones de todas las regiones para un inquilino determinado.

Nota:

Los niveles de uso solo se aplican a los tipos de implementación Estándar, Estándar de zona de datos y Estándar global. Los niveles de uso no se aplican a las implementaciones globales de rendimiento por lotes y aprovisionadas.

Estándar global, Estándar de zona de datos y Estándar

Modelo Niveles de uso por mes
gpt-5 32 000 millones de tokens
gpt-5-mini 160 mil millones de tokens
gpt-5-nano 800 mil millones de tokens
gpt-5-chat 32 000 millones de tokens
gpt-4 + gpt-4-32k (todas las versiones) 6 mil millones de tokens
gpt-4o 12 mil millones de tokens
gpt-4o-mini 85 000 millones de tokens
o3-mini 50 000 millones de tokens
o1 4 mil millones de tokens
o4-mini 50 000 millones de tokens
o3 5 mil millones de tokens
gpt-4.1 30 000 millones de tokens
gpt-4.1-mini 150 mil millones de tokens
gpt-4.1-nano 550 mil millones de tokens

Otros tipos de oferta

Si la suscripción de Azure está vinculada a determinados tipos de ofertas, los valores máximos de cuota son inferiores a los valores indicados en las tablas anteriores.

  • La cuota GPT-5-pro solo está disponible para MCA-E y las suscripciones de cuota predeterminadas. Todos los demás tipos de oferta tienen una cuota cero para este modelo de forma predeterminada.

  • La cuota del modelo de razonamiento GPT-5 es de 20 000 RPM y 200 RPM para todos los tipos de oferta que no tienen acceso a MCA-E o a la cuota predeterminada. GPT-5-chat es 50 000 y 50 RPM.

  • Algunos tipos de ofertas están restringidos solo a implementaciones estándar globales en las regiones Este de EE. UU. 2 y Centro de Suecia.

Nivel Límite de cuota en tokens por minuto
Azure for Students 1K (todos los modelos)
Serie O de excepción, GPT-4.1 y Vista previa de GPT-4.5: 0
MSDN GPT-4o-mini: 200K
Serie GPT 3.5 Turbo: 200K
Serie GPT-4: 50 000
vista previa del uso de la computadora: 8K
gpt-4o-realtime-preview: 1K
serie o: 0
GPT 4.5 Preview: 0
GPT-4.1: 50 000
GPT-4.1-nano: 200K
Standard& Pay-as-you-go GPT-4o-mini: 200K
Serie GPT 3.5 Turbo: 200K
Serie GPT-4: 50 000
computer-use-preview: 30 K
serie o: 0
GPT 4.5 Preview: 0
GPT-4.1: 50 000
GPT-4.1-nano: 200K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200K
Serie GPT 3.5 Turbo: 200K
Serie GPT-4: 50 000
CSP Integration Sandbox * Todos los modelos: 0
Lightweight trial
Free trials
Azure Pass
Todos los modelos: 0

*Este límite solo se aplica a un pequeño número de suscripciones heredadas de sandbox CSP. Use la consulta siguiente para determinar qué quotaId valor está asociado a la suscripción.

Para determinar el tipo de oferta asociado a la suscripción, puede comprobar su quotaId valor. Si el valor quotaId no aparece en esta tabla, su suscripción califica para la cuota predeterminada.

Consulte la referencia de API.

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Salida

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Tipo de asignación de cuota/Tipo de oferta Identificador de cuota de suscripción
Enterprise y MCA-E EnterpriseAgreement_2014-09-01
Pago por uso PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
Espacio aislado de integración de CSP CSPDEVTEST_2018-05-01
Azure for Students AzureForStudents_2018-01-01
Evaluación gratuita FreeTrial_2014-09-01
Pase para Azure AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
Predeterminado Cualquier identificador de cuota que no aparezca en esta tabla

Procedimientos recomendados generales para mantenerse dentro de los límites de tasa

Para minimizar los problemas relacionados con los límites de frecuencia, se recomienda usar las técnicas siguientes:

  • Implemente lógica de reintento en la aplicación.
  • Evite cambios bruscos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
  • Prueba de diferentes patrones de aumento de carga
  • Aumente la cuota asignada al despliegue. Mueva la cuota de otra implementación, si es necesario.

Solicitud de aumento de cuota

Las solicitudes de aumento de cuota se pueden enviar mediante el formulario de solicitud de aumento de cuota. Debido a la alta demanda, las solicitudes de aumento de cuota se aceptan y rellenan en el orden en que se reciben. Se da prioridad a los clientes que generan tráfico que consume la asignación de cuota existente. Es posible que se deniegue la solicitud si no se cumple esta condición.

Puede enviar una solicitud de servicio para otros límites de frecuencia.

Límites de capacidad de cuota regional

Puede ver la disponibilidad de cuota por región de la suscripción en el portal de Foundry.

Para ver la capacidad de cuota por región para un modelo o versión específicos, puede consultar la API de capacidad de la suscripción. Proporcione un subscriptionId, model_name y model_version y la API devuelve la capacidad disponible para ese modelo en todas las regiones y tipos de implementación de su suscripción.

Nota:

Actualmente, tanto el portal de Foundry como la API de capacidad devuelven información sobre la cuota/capacidad de los modelos que están retirados y ya no están disponibles.

Consulte la referencia de API.

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))