Obtenir des réponses mises en cache des requêtes de l’API Azure OpenAI

Article
02/04/2025

S’APPLIQUE À : Tous les niveaux de Gestion des API

Utilisez la stratégie azure-openai-semantic-cache-lookup pour effectuer une recherche dans le cache des réponses aux requêtes d’API Completion et d’API Completion Chat Azure OpenAI à partir d’un cache externe configuré, en fonction de la proximité vectorielle de l’invite aux requêtes précédentes et d’un seuil de score de similitude spécifié. La mise en cache de la réponse réduit les besoins en bande passante et en traitement imposés par l’API Azure OpenAI back-end et limite la latence perçue par les consommateurs de l’API.

Remarque

Cette stratégie doit avoir une stratégie Mettre en cache des réponses à des requêtes d’API Azure OpenAI correspondante.
Si vous souhaitez obtenir les prérequis et les étapes permettant d’activer la mise en cache sémantique, consultez Activer la mise en cache sémantique pour des API Azure OpenAI dans Gestion des API Azure.
Cette stratégie est actuellement en préversion.

Remarque

Définissez les éléments enfants et de stratégie dans l’ordre fourni dans l’instruction de stratégie. En savoir plus sur comment définir ou modifier des stratégies du service Gestion des API.

Modèles Azure OpenAI Service pris en charge

La stratégie est utilisée avec les API ajoutées à Gestion des API à partir de Azure OpenAI Service des types suivants :

Type de l’API	Modèles pris en charge
Saisie semi-automatique de la conversation	gpt-3.5 gpt-4
Completion	gpt-3.5-turbo-instruct
Incorporations	text-embedding-3-large text-embedding-3-small text-embedding-ada-002

Pour plus d’informations, consultez Gérer les Modèles Azure OpenAI Service.

Instruction de la stratégie

<azure-openai-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

Attributs

Attribut	Description	Obligatoire	Default
score-threshold	Seuil de score de similitude utilisé pour déterminer s’il faut retourner une réponse mise en cache à une invite. La valeur doit être un nombre décimal entre 0.0 et 1.0. Plus d’informations	Oui	S/O
embeddings-backend-id	ID de back-end pour un appel d’API d’incorporations OpenAI.	Oui	S/O
embeddings-backend-auth	Authentification utilisée pour un back-end d’API des incorporations Azure OpenAI.	Oui. Cette propriété doit être définie sur `system-assigned`.	S/O
ignore-system-messages	Booléenne. En cas de définition sur `true`, supprime les messages système d’une invite de complétion de conversation GPT avant d’évaluer une similitude de cache.	Non	false
max-message-count	Si spécifié, nombre de messages de dialogue restants une fois la mise en cache ignorée.	Non	N/A

Éléments

Nom	Description	Obligatoire
vary-by	Expression personnalisée déterminée au moment du runtime dont la valeur partitionne la mise en cache. Si plusieurs éléments `vary-by` sont ajoutés, les valeurs sont concaténées pour créer une combinaison unique.	Non

Usage

Sections de la stratégie : inbound
Étendues de la stratégie : global, product, API, operation
Passerelles : classiques, v2, Consommation

Notes d’utilisation

Cette stratégie ne peut être employée qu’une seule fois dans une section stratégie.

Exemples

Exemple avec une stratégie azure-openai-semantic-cache-store correspondante

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Pour plus d’informations sur l’utilisation des stratégies, consultez :

Tutoriel : Transformer et protéger votre API
Référence de stratégie pour obtenir la liste complète des instructions et des paramètres de stratégie
Expressions de stratégie
Définir ou modifier des stratégies
Réutilisation de configurations de stratégie
Référentiel d’extrait de stratégie
Kit de ressources des stratégies Gestion des API Azure
Créer des stratégies à l’aide de Microsoft Copilot dans Azure

Partage via

Obtenir des réponses mises en cache des requêtes de l’API Azure OpenAI

Modèles Azure OpenAI Service pris en charge

Instruction de la stratégie

Attributs

Éléments

Usage

Notes d’utilisation

Exemples

Exemple avec une stratégie azure-openai-semantic-cache-store correspondante

Commentaires

Ressources supplémentaires

Partage via

Obtenir des réponses mises en cache des requêtes de l’API Azure OpenAI

Modèles Azure OpenAI Service pris en charge

Instruction de la stratégie

Attributs

Éléments

Usage

Notes d’utilisation

Exemples

Exemple avec une stratégie azure-openai-semantic-cache-store correspondante

Stratégies connexes

Contenu connexe

Commentaires

Ressources supplémentaires