Compartir a través de


Respuestas en caché a solicitudes de API de modelos de lenguaje grande

SE APLICA A: todos los niveles de API Management

La directiva llm-semantic-cache-store almacena en una caché externa configurada las respuestas a las solicitudes de API de finalización de chat y de API de finalización. El almacenamiento en caché de respuesta reduce el ancho de banda y los requisitos de procesamiento impuestos sobre la API de Azure OpenAI de back-end y disminuye la latencia percibida por los consumidores de API.

Nota:

Nota:

Establezca los elementos de la directiva y los elementos secundarios en el orden proporcionado en la instrucción de directiva. Obtenga más información sobre el establecimiento o modificación de directivas de API Management.

Instrucción de la directiva

<llm-semantic-cache-store duration="seconds"/>

Atributos

Atributo Descripción Necesario Valor predeterminado
duration Período de vida de las entradas almacenadas en caché, especificado en segundos. Se permiten expresiones de directiva. N/D

Uso

Notas de uso

  • Esta directiva solo se puede usar una vez en una sección de directiva.
  • Si se produce un error en la búsqueda de caché, la llamada API que usa la operación relacionada con la caché no genera un error y la operación de caché se completa correctamente.

Ejemplos

Ejemplo con la directiva llm-semantic-cache-lookup correspondiente

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para más información sobre el trabajo con directivas, vea: