Réponses mises en cache des demandes d’API de modèle de langage volumineux

S’APPLIQUE À : Tous les niveaux de Gestion des API

La llm-semantic-cache-store stratégie met en cache les réponses aux demandes d’API d’achèvement de conversation vers un cache externe configuré. La mise en cache de la réponse réduit les besoins en bande passante et en traitement imposés par l’API Azure OpenAI back-end et limite la latence perçue par les consommateurs de l’API.

Remarque

Cette stratégie doit avoir une stratégie Obtenir des réponses mises en cache à des requêtes d’API de grande valeur de modèle de langage correspondante.
Si vous souhaitez obtenir les prérequis et les étapes permettant d’activer la mise en cache sémantique, consultez Activer la mise en cache sémantique pour des API Azure OpenAI dans Gestion des API Azure.

Remarque

Définissez les éléments enfants et de stratégie dans l’ordre fourni dans l’instruction de stratégie. En savoir plus sur comment définir ou modifier des stratégies du service Gestion des API.

Modèles pris en charge

Utilisez la stratégie avec les API LLM ajoutées à Gestion des API Azure qui sont disponibles via l’API d’inférence du modèle Azure AI ou avec des modèles compatibles OpenAI pris en charge par le biais de fournisseurs d’inférence tiers.

Instruction de la stratégie

<llm-semantic-cache-store duration="seconds"/>

Attributs

Attribut	Descriptif	Obligatoire	Par défaut
durée	Durée de vie des entrées mises en cache (en secondes). Les expressions de stratégie sont autorisées.	Oui	N/A

Utilisation

Sections de la stratégie : outbound
Étendues de la stratégie : global, product, API, operation
Passerelles : classic, v2, consommation, auto-hébergé

Notes d’utilisation

Cette stratégie ne peut être employée qu’une seule fois dans une section stratégie.
En cas d’échec de la recherche de cache, l’appel d API qui utilise l’opération liée au cache ne génère pas d’erreur et l’opération de cache se termine correctement.
Nous vous recommandons de configurer une stratégie de limite de débit (ou une stratégie de limite de débit par clé ) immédiatement après toute recherche de cache. Cela permet à votre service principal d’être surchargé si le cache n’est pas disponible.

Exemples

Exemple avec une stratégie llm-semantic-cache-lookup correspondante

L’exemple suivant montre comment utiliser la llm-semantic-cache-lookup stratégie avec la llm-semantic-cache-store stratégie pour récupérer des réponses mises en cache sémantiquement similaires avec un seuil de score de similarité de 0,05. Les valeurs mises en cache sont partitionnée par l’ID d’abonnement de l’appelant.

Remarque

Ajoutez une stratégie de limite de débit (ou une stratégie de limite de débit par clé ) après la recherche du cache pour limiter le nombre d’appels et empêcher la surcharge sur le service principal si le cache n’est pas disponible.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Pour plus d’informations sur l’utilisation des stratégies, consultez :

Tutoriel : Transformer et protéger votre API
Référence de stratégie pour obtenir la liste complète des instructions et des paramètres de stratégie
Expressions de stratégie
Définir ou modifier des stratégies
Réutilisation de configurations de stratégie
Référentiel d’extrait de stratégie
Dépôt de terrain de jeu de stratégie
Kit de ressources des stratégies Gestion des API Azure
Obtenez de l’aide de Copilot pour créer, expliquer et dépanner des politiques

Commentaires

Cette page vous a-t-elle été utile ?

Last updated on 2025-09-11

Partager via

Réponses mises en cache des demandes d’API de modèle de langage volumineux

Modèles pris en charge

Instruction de la stratégie

Attributs

Utilisation

Notes d’utilisation

Exemples

Exemple avec une stratégie llm-semantic-cache-lookup correspondante

Stratégies connexes

Contenu connexe

Commentaires

Ressources supplémentaires