Compartir vía


Almacenamiento en caché de respuestas a solicitudes de API de Azure OpenAI

SE APLICA A: todos los niveles de API Management

La directiva de azure-openai-semantic-cache-store almacena en caché las respuestas a las solicitudes api de finalización de chat y finalización de Azure OpenAI a una caché externa configurada. El almacenamiento en caché de respuesta reduce el ancho de banda y los requisitos de procesamiento impuestos sobre la API de Azure OpenAI de back-end y disminuye la latencia percibida por los consumidores de API.

Nota:

Nota:

Establezca los elementos de la directiva y los elementos secundarios en el orden proporcionado en la instrucción de directiva. Obtenga más información sobre el establecimiento o modificación de directivas de API Management.

Modelos admitidos de Azure OpenAI Service

La directiva se usa con las API agregadas a API Management desde el Azure OpenAI Service de los siguientes tipos:

Tipo de API Modelos admitidos
Finalización del chat gpt-3.5

gpt-4
Completion gpt-3.5-turbo-instruct
Inserciones text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002

Para obtener más información, consulte Modelos de servicio de OpenAI de Azure.

Instrucción de la directiva

<azure-openai-semantic-cache-store duration="seconds"/>

Atributos

Atributo Descripción Necesario Valor predeterminado
duration Período de vida de las entradas almacenadas en caché, especificado en segundos. Se permiten expresiones de directiva. N/D

Uso

Notas de uso

  • Esta directiva solo se puede usar una vez en una sección de directiva.
  • Si se produce un error en la búsqueda de caché, la llamada API que usa la operación relacionada con la caché no genera un error y la operación de caché se completa correctamente.

Ejemplos

Ejemplo con la directiva azure-openai-semantic-cache-lookup correspondiente

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para más información sobre el trabajo con directivas, vea: