Reacties op API-aanvragen voor grote taalmodellen in de cache opslaan
VAN TOEPASSING OP: Alle API Management-lagen
Het llm-semantic-cache-store
beleid slaat antwoorden op de voltooiings-API voor chats en voltooiings-API-aanvragen op in een geconfigureerde externe cache. Reactiecaching vermindert de bandbreedte en verwerkingsvereisten die zijn opgelegd aan de Back-end Azure OpenAI-API en verlaagt de latentie die wordt waargenomen door API-consumenten.
Notitie
- Dit beleid moet een overeenkomend beleid voor get cache-antwoorden hebben voor api-aanvragen voor grote talenmodellen.
- Zie Semantische caching inschakelen voor Azure OpenAI-API's in Azure API Management voor vereisten en stappen voor het inschakelen van semantische caching.
- Dit beleid is momenteel beschikbaar als preview-versie.
Notitie
Stel de elementen en onderliggende elementen van het beleid in de volgorde in die in de beleidsverklaring is opgegeven. Meer informatie over het instellen of bewerken van API Management-beleid.
Ondersteunde modellen
Gebruik het beleid met LLM-API's die zijn toegevoegd aan Azure API Management die beschikbaar zijn via de Azure AI-modeldeductie-API.
Beleidsinstructie
<llm-semantic-cache-store duration="seconds"/>
Kenmerken
Kenmerk | Beschrijving | Vereist | Standaardinstelling |
---|---|---|---|
duur | Time-to-live van de items in de cache, opgegeven in seconden. Beleidsexpressies zijn toegestaan. | Ja | N.v.t. |
Gebruik
- Beleidssecties: uitgaand
- Beleidsbereiken: globaal, product, API, bewerking
- Gateways: v2
Gebruiksnotities
- Dit beleid kan slechts eenmaal worden gebruikt in een beleidssectie.
- Als het opzoeken van de cache mislukt, veroorzaakt de API-aanroep die gebruikmaakt van de bewerking met betrekking tot de cache geen fout en wordt de cachebewerking voltooid.
Voorbeelden
Voorbeeld met overeenkomend beleid voor llm-semantic-cache-lookup
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Gerelateerd beleid
Gerelateerde inhoud
Zie voor meer informatie over het werken met beleid:
- Zelfstudie: Uw API transformeren en beveiligen
- Beleidsreferentie voor een volledige lijst met beleidsinstructies en hun instellingen
- Beleidsexpressies
- Beleid instellen of bewerken
- Beleidsconfiguraties opnieuw gebruiken
- Beleidsfragmentenopslagplaats
- Beleid ontwerpen met Behulp van Microsoft Copilot in Azure