Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
La mise en cache des invites vous permet de réduire la latence globale des requêtes et des coûts pour les invites plus longues qui ont du contenu identique au début de l’invite. « Invite » dans ce contexte fait référence à l’entrée que vous envoyez au modèle dans le cadre de votre demande de saisie semi-automatique de conversation. Au lieu de retraiter encore et encore les mêmes jetons d’entrée, le service peut conserver un cache temporaire de calculs de jetons d’entrée traités pour améliorer les performances globales. La mise en cache des invites n’a aucun impact sur le contenu de sortie retourné dans la réponse du modèle au-delà d’une réduction de la latence et du coût. Pour les modèles pris en charge, les jetons mis en cache sont facturés à une réduction sur la tarification des jetons d’entrée pour les types de déploiement Standard et jusqu’à une réduction de 100% sur les jetons d’entrée pour les types de déploiement Provisionnés.
Azure AI Foundry caches d’invite de modèle sont effacés dans les 24 heures. Les caches d'invite ne sont pas partagés entre les abonnements Azure.
Modèles pris en charge
- La mise en cache des invites est prise en charge avec tous les modèles Azure OpenAI GPT-4o ou plus récents.
- La mise en cache des requêtes s’applique aux modèles qui ont des opérations de complétion de conversation, de complétion, de réponse ou en temps réel. Pour les modèles qui n’ont pas ces opérations, cette fonctionnalité n’est pas disponible.
Pour commencer
Pour tirer parti de la mise en cache des prompts, une demande doit satisfaire aux deux conditions suivantes :
- Un minimum de 1 024 jetons de longueur.
- Les 1 024 premiers jetons de l’invite doivent être identiques.
Les requêtes sont routées en fonction d'un hachage du préfixe initial d'une requête. Le hachage utilise généralement les premiers 256 unités, bien que la longueur exacte varie en fonction du modèle.
Lorsqu’une correspondance est trouvée entre les calculs de jetons dans un prompt et le contenu actuel du cache de prompts, on appelle cela une correspondance dans le cache. Les accès au cache s’affichent sous cached_tokens sous prompt_tokens_details dans la réponse des complétions de chat.
{
"created": 1729227448,
"model": "o1-2024-12-17",
"object": "chat.completion",
"service_tier": null,
"system_fingerprint": "fp_50cdd5dc04",
"usage": {
"completion_tokens": 1518,
"prompt_tokens": 1566,
"total_tokens": 3084,
"completion_tokens_details": {
"audio_tokens": null,
"reasoning_tokens": 576
},
"prompt_tokens_details": {
"audio_tokens": null,
"cached_tokens": 1408
}
}
}
Une fois que les 1 024 premiers jetons de cache se produisent pour chaque 128 jetons identiques supplémentaires.
Une différence de caractère unique dans les 1 024 premiers jetons entraîne une absence de cache qui est caractérisée par une valeur de cached_tokens de 0. La mise en cache des invites est activée par défaut sans configuration supplémentaire nécessaire pour les modèles pris en charge.
Si vous fournissez le prompt_cache_key paramètre, il est combiné au hachage de préfixe, ce qui vous permet d’influencer le routage et d’améliorer les taux d’accès au cache. Cela est particulièrement bénéfique lorsque de nombreuses demandes partagent des préfixes longs et communs.
Si les demandes pour le même préfixe et prompt_cache_key la même combinaison dépassent un certain taux (environ 15 requêtes par minute), certains peuvent déborder et être acheminés vers des serveurs supplémentaires, ce qui diminue l'efficacité du cache.
Qu’est-ce qui est mis en cache ?
La prise en charge des fonctionnalités des modèles de série o1 varie selon le modèle. Pour plus d’informations, consultez notre guide des modèles de raisonnement dédiés.
La mise en cache des prompts est prise en charge pour :
| Mise en cache activée | Description |
|---|---|
| Messages | Tableau de messages complet : contenu système, développeur, utilisateur et assistant |
| Images | Images incluses dans les messages utilisateur, à la fois sous forme de liens ou de données encodées en base64. Le paramètre de détail doit être défini de la même façon sur les requêtes. |
| Utilisation de l’outil | À la fois le tableau des messages et les définitions d’outils. |
| Sorties structurées | Le schéma de sortie structurée est ajouté en tant que préfixe au message système. |
Pour améliorer la probabilité que des accès au cache se produisent, vous devez structurer vos demandes afin que le contenu répétitif se produise au début du tableau de messages.
Puis-je désactiver la mise en cache des invites ?
La mise en cache des prompts est activée par défaut pour tous les modèles pris en charge. Il n’y a aucun support d’exclusion pour la mise en cache des requêtes.