Compartir a través de


Emisión de métricas para el consumo de tokens de modelo de lenguaje grande

SE APLICA A: todos los niveles de API Management

La directiva llm-emit-token-metric envía métricas personalizadas a Application Insights sobre el consumo de tokens de modelo de lenguaje grande (LLM) mediante las API de LLM. Las métricas de recuento de tokens incluyen: Tokens totales, Tokens de solicitud y Tokens de finalización.

Nota:

Esta directiva está actualmente en versión preliminar.

Nota:

Establezca los elementos de la directiva y los elementos secundarios en el orden proporcionado en la instrucción de directiva. Obtenga más información sobre el establecimiento o modificación de directivas de API Management.

Modelos admitidos

Use la directiva con las API de LLM agregadas a Azure API Management que están disponibles a través de la API de inferencia de modelos de Azure AI.

Límites de métricas personalizadas

Azure Monitor impone límites de uso para métricas personalizadas que pueden afectar la capacidad de emitir métricas de API Management. Por ejemplo, Azure Monitor establece actualmente un límite de 10 claves de dimensión por métrica y un límite de 50 000 series temporales activas totales por región en una suscripción (dentro de un período de 12 horas).

Estos límites tienen las siguientes implicaciones para configurar métricas personalizadas en una directiva de API Management como emit-metric o azure-openai-emit-token-metric:

  • Puede configurar un máximo de 10 dimensiones personalizadas por directiva .

  • El número de series temporales activas generadas por la directiva en un período de 12 horas es el producto del número de valores únicos de cada dimensión configurada durante el período. Por ejemplo, si se configuraron tres dimensiones personalizadas en la directiva y cada dimensión tenía 10 valores posibles en el período, la directiva contribuiría a 1000 (10 x 10 x 10) series temporales activas.

  • Si configura la directiva en varias instancias de API Management que se encuentran en la misma región de una suscripción, todas las instancias pueden contribuir al límite regional de series temporales activas.

Obtenga más información sobre las limitaciones y consideraciones de diseño para las métricas personalizadas en Azure Monitor.

Requisitos previos

Instrucción de la directiva

<llm-emit-token-metric
        namespace="metric namespace" >      
        <dimension name="dimension name" value="dimension value" />
        ...additional dimensions...
</llm-emit-token-metric>

Atributos

Atributo Descripción Obligatorio Valor predeterminado
espacio de nombres Una cadena. Espacio de nombres de la métrica. No se permiten expresiones de directiva. No API Management

Elementos

Elemento Descripción Obligatorio
dimensión Agregue uno o varios de estos elementos para cada dimensión incluida en la métrica.

Atributos de dimensión

Atributo Descripción Obligatorio Valor predeterminado
name Una cadena o expresión de directiva. Nombre de la dimensión. N/D
value Una cadena o expresión de directiva. Valor de la dimensión. Solo se puede omitir si name coincide con una de las dimensiones predeterminadas. Si es así, el valor se proporciona según el nombre de la dimensión. No N/D

Nombres de las dimensiones predeterminadas que se pueden usar sin valor

  • Id. de API
  • Id. de operación
  • Product ID
  • Identificador de usuario
  • Id. de suscripción
  • Location
  • Id. de puerta de enlace

Uso

Notas de uso

  • Esta directiva se puede usar varias veces por definición de directiva.
  • Puede configurar como máximo 10 dimensiones personalizadas para esta directiva.
  • Si están disponibles, los valores de la sección de uso de la respuesta de la API de LLM se utilizan para determinar las métricas del token.
  • Algunos puntos de conexión de LLM admiten el streaming de respuestas. Cuando stream se establece true en la solicitud de API para habilitar el streaming, se tienen también en cuenta las métricas del token.

Ejemplo

En el ejemplo siguiente se envían métricas de recuento de tokens de LLM a Application Insights junto con el id. de API como una dimensión personalizada.

<policies>
  <inbound>
      <llm-emit-token-metric
            namespace="MyLLM">   
            <dimension name="API ID" />
        </llm-emit-token-metric> 
  </inbound>
  <outbound>
  </outbound>
</policies>

Para más información sobre el trabajo con directivas, vea: