Administración de la cuota de Azure OpenAI Service

Artículo
09/03/2024

La cuota proporciona flexibilidad para administrar activamente la asignación de límites de velocidad en las implementaciones de la suscripción. En este artículo se explica el proceso de administración de la cuota de Azure OpenAI.

Prerrequisitos

Importante

La visualización de la cuota y la implementación de modelos requiere el rol Lector de usos de Cognitive Services. Este rol proporciona el acceso mínimo necesario para ver el uso de la cuota en una suscripción de Azure. Para saber más sobre este rol y los demás roles que necesitará para acceder a Azure OpenAI, consulte nuestra guía de acceso basado en roles de Azure (RBAC de Azure).

Este rol se puede encontrar en el Azure Portal en Subscripciones>Control de acceso (IAM)>Añadir asignación de roles>buscar el Lector de usos de Cognitive Services. Este rol se debe aplicar en el nivel de suscripción, no existe en el nivel de recurso.

Si no desea usar este rol, el rol Lector de la suscripción le proporcionará acceso equivalente, pero también le concederá acceso de lectura más allá del ámbito de lo que se necesita para ver la cuota y la implementación del modelo.

Introducción a la cuota

La característica de cuota de Azure OpenAI permite la asignación de límites de velocidad a las implementaciones, hasta un límite global denominado "cuota". La cuota se asigna a la suscripción por región, por modelo, en unidades de Tokens por minuto (TPM). Al incorporar una suscripción a Azure OpenAI, recibirá la cuota predeterminada para la mayoría de los modelos disponibles. A continuación, asignará TPM a cada implementación a medida que se crean y la cuota disponible para ese modelo se reducirá en esa cantidad. Puede seguir creando implementaciones y asignarlas a TPM hasta que alcance el límite de cuota. Una vez que esto suceda, solo puede crear nuevas implementaciones de ese modelo reduciendo el TPM asignado a otras implementaciones del mismo modelo (lo que libera TPM para su uso), o solicitando y siendo aprobado para un aumento de cuota de modelo en la región deseada.

Nota

Con una cuota de 240 000 TPM para GPT-35-Turbo en el Este de EE. UU., un cliente puede crear una única implementación de 240 000 TPM, 2 implementaciones de 120 000 TPM cada una, o cualquier número de implementaciones en uno o varios recursos de Azure OpenAI siempre que su TPM alcance un total inferior a 240 000 en esa región.

Cuando se crea una implementación, el TPM asignado se asignará directamente al límite de velocidad de tokens por minuto aplicado en sus solicitudes de inferencia. También se aplicará un límite de velocidad de Solicitudes por minuto (RPM) cuyo valor se establece proporcionalmente en la asignación de TPM mediante la siguiente relación:

6 RPM por 1000 TPM.

La flexibilidad para distribuir TPM globalmente dentro de una suscripción y región ha permitido a Azure OpenAI Service flexibilizar otras restricciones:

Los recursos máximos por región se incrementan a 30.
Se ha quitado el límite de creación de más de una implementación del mismo modelo en un recurso.

Asignar cuota

Al crear una implementación de modelo, tiene la opción de asignar Tokens por minuto (TPM) a esa implementación. TPM se puede modificar en incrementos de 1000 y se asignará a los límites de velocidad de TPM y RPM aplicados en la implementación, como se ha descrito anteriormente.

Para crear una nueva implementación desde Estudio de IA de Azure en Recursos compartidos, seleccione Implementaciones>Implementar modelo>Implementar modelo base>Seleccionar modelo>Confirmar.

Después de la implementación, puede ajustar la asignación de TPM seleccionando Editar en Recursos compartidos>Implementaciones en Azure OpenAI Studio. También puede modificar esta selección dentro de la nueva experiencia de administración de cuotas en Administración>Cuotas.

Importante

Las cuotas y los límites están sujetos a cambios, para obtener la información más actualizada, consulte nuestro artículo sobre cuotas y límites.

Configuración específica del modelo

Las distintas implementaciones de modelos, también denominadas clases de modelo, tienen valores máximos de TPM únicos que ahora puede controlar. Representa la cantidad máxima de TPM que se puede asignar a ese tipo de implementación de modelos en una región determinada.

Todas las demás clases de modelo tienen un valor máximo de TPM común.

Nota

La asignación de tokens por minuto (TPM) de cuota no está relacionada con el límite máximo de tokens de entrada de un modelo. Los límites del token de entrada del modelo se definen en la tabla de modelos y no se ven afectados por los cambios realizados en TPM.

Visualización y solicitud de cuota

Para ver todas las asignaciones de cuota en implementaciones de una región determinada, seleccione Administración>Cuota en Azure AI Studio:

Implementación: implementaciones de modelos divididas por clase de modelo.
Tipo de cuota: hay un valor de cuota por región para cada tipo de modelo. La cuota cubre todas las versiones de ese modelo.
Asignación de cuota: para el nombre de la cuota, se muestra la cantidad de cuota que usan las implementaciones y la cuota total aprobada para esta suscripción y región. Esta cantidad de cuota usada también se representa en el gráfico de barras.
Cuota de solicitud: el icono navega a un formulario donde se pueden enviar solicitudes para aumentar la cuota.

Migración de implementaciones existentes

Como parte de la transición al nuevo sistema de cuotas y a la asignación basada en TPM, todas las implementaciones de modelos de Azure OpenAI existentes se han migrado automáticamente para usar la cuota. En los casos en los que la asignación de TPM/RPM existente supera los valores predeterminados debido a aumentos de límite de velocidad personalizados anteriores, se asignó un TPM equivalente a las implementaciones afectadas.

Descripción de los límites de frecuencia

La asignación de TPM a una implementación establece los límites de velocidad tokens por minuto (TPM) y solicitudes por minuto (RPM) para la implementación, como se ha descrito anteriormente. Los límites de velocidad de TPM se basan en el número máximo de tokens que se estima que se van a procesar mediante una solicitud en el momento en que se recibe la solicitud. No es lo mismo que el recuento de tokens usado para la facturación, que se calcula una vez completado todo el procesamiento.

A medida que se recibe cada solicitud, Azure OpenAI calcula un recuento máximo estimado de tokens procesados que incluye lo siguiente:

Mensaje de texto y recuento
Configuración del parámetro max_tokens
Configuración del parámetro best_of

A medida que las solicitudes entran en el punto de conexión de implementación, el recuento de tokens máximos procesados estimado se agrega a un recuento de tokens en ejecución de todas las solicitudes que se restablecen cada minuto. Si en cualquier momento durante ese minuto, se alcanza el valor del límite de velocidad de TPM, las solicitudes adicionales recibirán un código de respuesta 429 hasta que se restablezca el contador.

Importante

El recuento de tokens usado en el cálculo del límite de velocidad es una estimación basada en parte en el recuento de caracteres de la solicitud de API. La estimación del token de límite de velocidad no es la misma que el cálculo del token que se usa para la facturación o para determinar que una solicitud está por debajo del límite de tokens de entrada de un modelo. Debido a la naturaleza aproximada del cálculo del token de límite de velocidad, es un comportamiento esperado que un límite de velocidad pueda activarse antes de lo que cabría esperar en comparación con una medición exacta del recuento de tokens para cada solicitud.

Los límites de velocidad RPM se basan en el número de solicitudes recibidas con el tiempo. El límite de velocidad espera que las solicitudes se distribuyan uniformemente durante un período de un minuto. Si no se mantiene este flujo medio, las solicitudes pueden recibir una respuesta 429 aunque el límite no se cumpla cuando se mida durante un minuto. Para implementar este comportamiento, Azure OpenAI Service evalúa la tasa de solicitudes entrantes durante un pequeño período de tiempo, normalmente de 1 o 10 segundos. Si el número de solicitudes recibidas durante ese tiempo supera lo que se esperaría en el límite de RPM establecido, las nuevas solicitudes recibirán un código de respuesta 429 hasta el siguiente período de evaluación. Por ejemplo, si Azure OpenAI supervisa la tasa de solicitudes en intervalos de 1 segundo, la limitación de velocidad se producirá para una implementación de 600 RPM si se reciben más de 10 solicitudes durante cada período de 1 segundo (600 solicitudes por minuto = 10 solicitudes por segundo).

Procedimientos recomendados de límites de frecuencia

Para minimizar los problemas relacionados con los límites de frecuencia, se recomienda usar las técnicas siguientes:

Establezca max_tokens y best_of en los valores mínimos que satisfacen las necesidades de su escenario. Por ejemplo, no establezca un valor de max-tokens grande si espera que las respuestas sean pequeñas.
Use la administración de cuotas para aumentar el TPM en las implementaciones con tráfico elevado y reducir el TPM en implementaciones con necesidades limitadas.
Implemente lógica de reintento en la aplicación.
Evite cambios bruscos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
Prueba de diferentes patrones de aumento de carga

Automatizar la implementación

Esta sección contiene plantillas de ejemplo breves para ayudarle a empezar a crear implementaciones mediante programación que usan la cuota para establecer límites de velocidad de TPM. Con la introducción de la cuota, debe usar la versión 2023-05-01 de API para las actividades relacionadas con la administración de recursos. Esta versión de API solo es para administrar los recursos y no afecta a la versión de API que se usa para la inferencia de llamadas como finalizaciones, finalizaciones de chat, inserción, generación de imágenes, etc.

Implementación

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

Parámetros de la ruta de acceso

Parámetro	Tipo	¿Necesario?	Descripción
`accountName`	string	Obligatorio	Nombre del recurso de Azure OpenAI.
`deploymentName`	string	Obligatorio	Nombre de la implementación que eligió al implementar un modelo existente o el nombre que desea que tenga una nueva implementación de modelo.
`resourceGroupName`	string	Obligatorio	Nombre del grupo de recursos asociado para esta implementación de modelo.
`subscriptionId`	string	Obligatorio	Identificador de suscripción de la suscripción asociada.
`api-version`	string	Obligatorio	Versión de API que se usará para la operación. Sigue el formato AAAA-MM-DD.

Versiones compatibles

2023-05-01 Especificaciones de Swagger

Cuerpo de la solicitud

Este es solo un subconjunto de los parámetros del cuerpo de la solicitud disponibles. Para obtener la lista completa de los parámetros, puede consultar la Documentación de referencia de API de REST.

Parámetro	Tipo	Descripción
sku	SKU	Definición del modelo de recursos que representa la SKU.
capacity	integer	Esto representa la cantidad de cuota que va a asignar a esta implementación. Un valor de 1 es igual a 1000 tokens por minuto (TPM). Un valor de 10 equivale a 10 000 tokens por minuto (TPM).

Solicitud de ejemplo

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-35-turbo-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-35-turbo","version": "0613"}}}'

Nota:

Hay varias maneras de generar un token de autorización. El método más sencillo para las pruebas iniciales es iniciar Cloud Shell desde Azure Portal. A continuación, ejecute az account get-access-token. Puede usar este token como token de autorización temporal para las pruebas de API.

Para obtener más información, consulte la documentación de referencia de la API de REST para usos e implementación.

Uso

Para consultar el uso de la cuota en una región determinada, para una suscripción específica

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

Parámetros de la ruta de acceso

Parámetro	Tipo	¿Necesario?	Descripción
`subscriptionId`	string	Obligatorio	Identificador de suscripción de la suscripción asociada.
`location`	string	Obligatorio	Ubicación para ver el uso, por ejemplo: `eastus`
`api-version`	string	Obligatorio	Versión de API que se usará para la operación. Sigue el formato AAAA-MM-DD.

Versiones compatibles

2023-05-01 Especificaciones de Swagger

Solicitud de ejemplo

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN'

Instale la CLI de Azure. La cuota requiere Azure CLI version 2.51.0. Si ya tiene instalada la CLI de Azure, ejecute localmente az upgrade para actualizar a la versión más reciente.

Para comprobar qué versión de la CLI de Azure está ejecutando, use az version. Azure Cloud Shell sigue ejecutando la versión 2.50.0, por lo que, en la instalación local provisional de la CLI de Azure, debe aprovechar las características más recientes de Azure OpenAI.

Implementación

az cognitiveservices account deployment create --model-format
                                               --model-name
                                               --model-version
                                               --name
                                               --resource-group
                                               [--capacity]
                                               [--deployment-name]
                                               [--scale-capacity]
                                               [--scale-settings-scale-type {Manual, Standard}]
                                               [--sku]

Para iniciar sesión en la instalación local de la CLI, ejecute el comando az login:

az login

Al establecer la capacidad de SKU en 10 en el comando siguiente, esta implementación se establecerá con un límite de 10 000 TPM.

az cognitiveservices account deployment create -g test-resource-group -n test-resource-name --deployment-name test-deployment-name --model-name gpt-35-turbo --model-version "0613" --model-format OpenAI --sku-capacity 10 --sku-name "Standard"

Uso

Para consultar el uso de la cuota en una región determinada, para una suscripción específica

az cognitiveservices usage list --location

Ejemplo

az cognitiveservices usage list -l eastus

Este comando se ejecuta en el contexto de la suscripción activa actualmente para la CLI de Azure. Use az-account-set --subscription para modificar la suscripción activa.

Para más información sobre az cognitiveservices account y az cognitivesservices usage consulte la documentación de referencia de la CLI de Azure

//
// This Azure Resource Manager template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
{
    "type": "Microsoft.CognitiveServices/accounts/deployments",
    "apiVersion": "2023-05-01",
    "name": "arm-je-aoai-test-resource/arm-je-std-deployment",    // Update reference to parent Azure OpenAI resource
    "dependsOn": [
        "[resourceId('Microsoft.CognitiveServices/accounts', 'arm-je-aoai-test-resource')]"  // Update reference to parent Azure OpenAI resource
    ],
    "sku": {
        "name": "Standard",      
        "capacity": 10            // The deployment will be created with a 10K TPM limit
    },
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-35-turbo",
            "version": "0613"        // Version 0613 of gpt-35-turbo will be used
        }
    }
}

Para saber más, consulte la documentación de referencia completa de Azure Resource Manager.

//
// This Bicep template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
resource arm_je_std_deployment 'Microsoft.CognitiveServices/accounts/deployments@2023-05-01' = {
  parent: arm_je_aoai_resource   // Replace this with a reference to the parent Azure OpenAI resource
  name: 'arm-je-std-deployment'
  sku: {
    name: 'Standard'            
    capacity: 10                 // The deployment will be created with a 10K TPM limit
  }
  properties: {
    model: {
      format: 'OpenAI'
      name: 'gpt-35-turbo'
      version: '0613'           // gpt-35-turbo version 0613 will be used
    }
  }
}

Para saber más, consulte la documentación completa de referencia de Bicep.

# This Terraform template shows how to use the new schema introduced in the 2023-05-01 API version to 
# create deployments that set the model version and the TPM limits for standard deployments.
# 
# The new schema is not yet available in the AzureRM provider (target v4.0), so this template uses the AzAPI
# provider, which provides a Terraform-compatible interface to the underlying ARM structures.
# 
# For more details on these providers:
#     AzureRM: https://registry.terraform.io/providers/hashicorp/azurerm/latest/docs
#     AzAPI: https://registry.terraform.io/providers/azure/azapi/latest/docs
#

# 
terraform {
  required_providers {
    azapi   = { source  = "Azure/azapi" }
    azurerm = { source  = "hashicorp/azurerm" }
  }
}

provider "azapi" {
  # Insert auth info here as necessary
}

provider "azurerm" {
    # Insert auth info here as necessary  
    features {
    }
}

# 
# To create a complete example, AzureRM is used to create a new resource group and Azure OpenAI Resource
# 
resource "azurerm_resource_group" "TERRAFORM-AOAI-TEST-GROUP" {
  name     = "TERRAFORM-AOAI-TEST-GROUP"
  location = "canadaeast"
}

resource "azurerm_cognitive_account" "TERRAFORM-AOAI-TEST-ACCOUNT" {
  name                  = "terraform-aoai-test-account"
  location              = "canadaeast"
  resource_group_name   = azurerm_resource_group.TERRAFORM-AOAI-TEST-GROUP.name
  kind                  = "OpenAI"
  sku_name              = "S0"
  custom_subdomain_name = "terraform-test-account-"
  }


# 
# AzAPI is used to create the deployment so that the TPM limit and model versions can be set
#
resource "azapi_resource" "TERRAFORM-AOAI-STD-DEPLOYMENT" {
  type      = "Microsoft.CognitiveServices/accounts/deployments@2023-05-01"
  name      = "TERRAFORM-AOAI-STD-DEPLOYMENT"
  parent_id = azurerm_cognitive_account.TERRAFORM-AOAI-TEST-ACCOUNT.id

  body = jsonencode({
    sku = {                            # The sku object specifies the deployment type and limit in 2023-05-01
        name = "Standard",             
        capacity = 10                  # This deployment will be set with a 10K TPM limit
    },
    properties = {
        model = {
            format = "OpenAI",
            name = "gpt-35-turbo",
            version = "0613"           # Deploy gpt-35-turbo version 0613
        }
    }
  })
}

Para saber más, consulte la documentación completa de referencia de Terraform.

Eliminación de recursos

Cuando se intenta eliminar un recurso de Azure OpenAI desde Azure Portal si alguna implementación todavía está presente, se bloquea hasta que se eliminan las implementaciones asociadas. La eliminación de las implementaciones en primer lugar permite liberar correctamente las asignaciones de la cuota para que se puedan usar en nuevas implementaciones.

Sin embargo, si elimina un recurso mediante la API de REST o algún otro método de programación, esto omite primero la necesidad de eliminar las implementaciones. Cuando esto ocurre, la asignación de la cuota asociada seguirá sin estar disponible para asignarla a una nueva implementación durante 48 horas hasta que se purgue el recurso. Para desencadenar una purga inmediata de un recurso eliminado para liberar cuota, siga las instrucciones de purga de un recurso eliminado.

Pasos siguientes

Para revisar los valores predeterminados de cuota para Azure OpenAI, consulte el artículo sobre límites de cuotas

Compartir a través de

Administración de la cuota de Azure OpenAI Service

Prerrequisitos

Introducción a la cuota

Asignar cuota

Configuración específica del modelo

Visualización y solicitud de cuota

Migración de implementaciones existentes

Descripción de los límites de frecuencia

Procedimientos recomendados de límites de frecuencia

Automatizar la implementación

Implementación

Solicitud de ejemplo

Uso

Solicitud de ejemplo

Implementación

Uso

Ejemplo

Eliminación de recursos

Pasos siguientes

Comentarios

Recursos adicionales