Partager via


Mise en cache de réponses aux requêtes d’API Azure OpenAI

S’APPLIQUE À : Tous les niveaux de Gestion des API

La azure-openai-semantic-cache-store stratégie met en cache les réponses aux demandes de l’API d’achèvement de conversation Azure OpenAI à un cache externe configuré. La mise en cache de la réponse réduit les besoins en bande passante et en traitement imposés par l’API Azure OpenAI back-end et limite la latence perçue par les consommateurs de l’API.

Remarque

Remarque

Définissez les éléments enfants et de stratégie dans l’ordre fourni dans l’instruction de stratégie. En savoir plus sur comment définir ou modifier des stratégies du service Gestion des API.

Prise en charge d’Azure OpenAI dans les modèles Azure AI Foundry

La stratégie est utilisée avec les API ajoutées à Gestion des API à partir d’Azure OpenAI dans les modèles AI Foundry des types suivants :

Type de l’API Modèles pris en charge
Saisie semi-automatique de la conversation gpt-3.5

gpt-4

gpt-4o

gpt-4o-mini

o1

o3
Incorporations text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002
Réponses (préversion) gpt-4o (Versions : 2024-11-20, 2024-08-06, 2024-05-13)

gpt-4o-mini (Version : 2024-07-18)

gpt-4.1 (Version : 2025-04-14)

gpt-4.1-nano (Version : 2025-04-14)

gpt-4.1-mini (Version : 2025-04-14)

gpt-image-1 (Version : 2025-04-15)

o3 (Version : 2025-04-16)

o4-mini (Version : '2025-04-16)

Remarque

Les API de saisie semi-automatique traditionnelles sont disponibles uniquement avec les versions de modèle héritées et la prise en charge est limitée.

Pour plus d’informations sur les modèles et leurs fonctionnalités, consultez Azure OpenAI dans Foundry Models.

Instruction de la stratégie

<azure-openai-semantic-cache-store duration="seconds"/>

Attributs

Attribut Descriptif Obligatoire Par défaut
durée Durée de vie des entrées mises en cache (en secondes). Les expressions de stratégie sont autorisées. Oui N/A

Utilisation

Notes d’utilisation

  • Cette stratégie ne peut être employée qu’une seule fois dans une section stratégie.
  • En cas d’échec de la recherche de cache, l’appel d API qui utilise l’opération liée au cache ne génère pas d’erreur et l’opération de cache se termine correctement.
  • Nous vous recommandons de configurer une stratégie de limite de débit (ou une stratégie de limite de débit par clé ) immédiatement après toute recherche de cache. Cela permet à votre service principal d’être surchargé si le cache n’est pas disponible.

Exemples

Exemple avec la stratégie azure-openai-semantic-cache-lookup correspondante

L’exemple suivant montre comment utiliser la azure-openai-semantic-cache-lookup stratégie avec la azure-openai-semantic-cache-store stratégie pour récupérer des réponses mises en cache sémantiquement similaires avec un seuil de score de similarité de 0,05. Les valeurs mises en cache sont partitionnée par l’ID d’abonnement de l’appelant.

Remarque

Ajoutez une stratégie de limite de débit (ou une stratégie de limite de débit par clé ) après la recherche du cache pour limiter le nombre d’appels et empêcher la surcharge sur le service principal si le cache n’est pas disponible.

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Pour plus d’informations sur l’utilisation des stratégies, consultez :