Activer la mise en cache sémantique pour les API Azure OpenAI dans la Gestion des API Azure

Article
01/13/2025

S’APPLIQUE À : Tous les niveaux de Gestion des API

Activez la mise en cache sémantique des réponses sur les demandes d’API Azure OpenAI pour réduire la bande passante et le traitement imposés par les API back-end et limiter la latence perçue par les consommateurs d’API. Avec la mise en cache sémantique, vous pouvez retourner des réponses mises en cache pour des prompts identiques et des prompts qui ont un sens similaire, même si le texte n’est pas le même. Pour connaître le contexte, consultez Tutoriel : Utiliser Azure Cache pour Redis comme cache sémantique.

Remarque

Les étapes de configuration décrites dans cet article activent la mise en cache sémantique pour les API Azure OpenAI. Ces étapes peuvent être généralisées pour activer la mise en cache sémantique pour les API LLM (Large Language Model) correspondantes disponibles via l’API d’inférence du modèle AZURE AI.

Prérequis

Une ou plusieurs API Azure OpenAI Service doivent être ajoutées à votre instance Gestion des API. Pour plus d’informations, consultez Ajouter une API Azure OpenAI Service à la Gestion des API Azure.
Azure OpenAI Service doit avoir des déploiements pour les éléments suivants :
- API de complétion de conversation (ou API de complétion) : déploiement utilisé pour les appels de consommateur d’API
- API d’incorporations : Déploiement utilisé pour la mise en cache sémantique
L’instance Gestion des API doit être configurée pour utiliser l’authentification d’identité managée auprès des API Azure OpenAI. Pour plus d’informations, consultez Authentifier et autoriser l’accès aux API Azure OpenAI à l’aide de Gestion des API Azure.
Une instance Azure Cache pour Redis Entreprise ou Redis géré par Azure. Le module RediSearch doit être activé sur le cache Redis.

Remarque

Vous pouvez uniquement activer le module RediSearch lors de la création d’un cache Redis Entreprise Redis géré par Azure. Vous ne pouvez pas ajouter de module à un cache existant. En savoir plus
Cache externe configuré dans l’instance Gestion des API Azure. Pour découvrir les étapes, consultez Utiliser un cache externe compatible Redis dans Gestion des API Azure.

Tester le déploiement des API de conversation

Tout d’abord, testez le déploiement Azure OpenAI pour vous assurer que l’API de complétion de conversation ou l’API de conversation fonctionne comme prévu. Pour connaître les étapes, consultez Importer une API Azure OpenAI dans la Gestion des API Azure.

Par exemple, testez l’API de conversation Azure OpenAI en envoyant une requête POST au point de terminaison de l’API avec un prompt dans le corps de la requête. La réponse devrait inclure la complétion du prompt. Exemple de requête :

POST https://my-api-management.azure-api.net/my-api/openai/deployments/chat-deployment/chat/completions?api-version=2024-02-01

avec le corps de requête :

{"messages":[{"role":"user","content":"Hello"}]}

Une fois que la requête a réussi, la réponse inclut une complétion pour le message de conversation.

Créer un back-end pour l’API d’incorporations

Configurez une ressource back-end pour le déploiement de l’API d’incorporations avec les paramètres suivants :

Nom – Nom de votre choix, comme embeddings-backend. Vous utilisez ce nom pour référencer le back-end dans les stratégies.
Type – Sélectionnez URL personnalisée.
URL du runtime – URL du déploiement de l’API d’incorporations dans Azure OpenAI Service, similaire à : https://my-aoai.openai.azure.com/openai/deployments/embeddings-deployment/embeddings
Informations d’identification d’autorisation : accédez à l’onglet Identité managée.
- Identité du client : sélectionnez Identité affectée par le système ou saisissez un ID de client d’identité managée attribué par l’utilisateur.
- ID de ressource : entrez https://cognitiveservices.azure.com/ pour le service Azure OpenAI.

Test backend

Pour tester le back-end, créez une opération d’API pour votre API Azure OpenAI Service :

Sous l’onglet Conception de votre API, sélectionnez + Ajouter une opération.
Entrez un Nom d’affichage et éventuellement un Nom pour l’opération.
Dans la section Front-end, dans URL, sélectionnez POST et entrez le chemin /.
Sous l’onglet En-têtes, ajoutez un en-tête obligatoire avec le nom Content-Type et la valeur application/json.
Cliquez sur Enregistrer

Configurez les stratégies suivantes dans la section Traitement entrant de l’opération d’API. Dans la stratégie set-backend-service, remplacez le nom du back-end que vous avez créé.

<policies>
    <inbound>
        <set-backend-service backend-id="embeddings-backend" />
        <authentication-managed-identity resource="https://cognitiveservices.azure.com/" />
        [...]
    </inbound>
    [...]
</policies>

Sous l’onglet Tester, testez l’opération en ajoutant un paramètre de requête api-version avec une valeur telle que 2024-02-01. Fournissez un corps de requête valide. Par exemple :

{"input":"Hello"}

Si la requête a réussi, la réponse inclut une représentation vectorielle du texte d’entrée :

{
    "object": "list",
    "data": [{
        "object": "embedding",
        "index": 0,
        "embedding": [
            -0.021829502,
            -0.007157768,
            -0.028619017,
            [...]
        ]
    }]
}

Configurer des stratégies de mise en cache sémantique

Configurez les stratégies suivantes afin d’activer la mise en cache sémantique pour les API Azure OpenAI dans la Gestion des API Azure :

Dans la section Traitement entrant de l’API, ajoutez la stratégie azure-openai-semantic-cache-lookup. Dans l’attribut embeddings-backend-id, spécifiez le back-end de l’API d’incorporations que vous avez créé.

Remarque

Lors de l’activation de la mise en cache sémantique pour d’autres API de modèle de langage volumineux, utilisez plutôt la llm-semantic-cache-lookup.

Exemple :
```
<azure-openai-semantic-cache-lookup
    score-threshold="0.8"
    embeddings-backend-id="embeddings-deployment"
    embeddings-backend-auth="system-assigned"
    ignore-system-messages="true"
    max-message-count="10">
    <vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
```
Dans la section Traitement sortant de l’API, ajoutez la stratégie azure-openai-semantic-cache-store.

Remarque

Lors de l’activation de la mise en cache sémantique pour d’autres API de modèle de langage volumineux, utilisez plutôt la llm-semantic-cache-store.

Exemple :
```
<azure-openai-semantic-cache-store duration="60" />
```

Confirmer la mise en cache

Pour confirmer que la mise en cache sémantique fonctionne comme prévu, tracez une opération de complétion ou de complétion de conversation test à l’aide de la console de test dans le portail. Vérifiez que le cache a été utilisé lors des tentatives successives en inspectant la trace. En savoir plus sur le traçage des appels d’API dans la Gestion des API Azure.

Par exemple, si le cache a été utilisé, la section Sortie inclut des entrées similaires à celles de la capture d’écran suivante :

Capture d’écran de la trace de la requête dans le portail Azure.

Stratégies de mise en cache
Cache Azure pour Redis
Fonctionnalités de la passerelle GenAI dans Gestion des API Azure

Partage via

Activer la mise en cache sémantique pour les API Azure OpenAI dans la Gestion des API Azure

Prérequis

Tester le déploiement des API de conversation

Créer un back-end pour l’API d’incorporations

Test backend

Configurer des stratégies de mise en cache sémantique

Confirmer la mise en cache

Commentaires

Ressources supplémentaires

Partage via

Activer la mise en cache sémantique pour les API Azure OpenAI dans la Gestion des API Azure

Prérequis

Tester le déploiement des API de conversation

Créer un back-end pour l’API d’incorporations

Test backend

Configurer des stratégies de mise en cache sémantique

Confirmer la mise en cache

Contenu connexe

Commentaires

Ressources supplémentaires