Cache-svar på API-begäranden för stora språkmodeller
GÄLLER FÖR: Alla API Management-nivåer
Principen llm-semantic-cache-store
cachelagrar svar på API:et för chattens slutförande och slutförande av API-begäranden till en konfigurerad extern cache. Cachelagring av svar minskar bandbredds- och bearbetningskrav som ställs på serverdelens Azure OpenAI API och minskar svarstiden som uppfattas av API-konsumenter.
Kommentar
- Den här principen måste ha en motsvarande api-begärandeprincip för Hämta cachelagrade svar på stora språkmodeller.
- Krav och steg för att aktivera semantisk cachelagring finns i Aktivera semantisk cachelagring för Azure OpenAI-API:er i Azure API Management.
- För närvarande finns den här principen i förhandsversion.
Kommentar
Ange principens element och underordnade element i den ordning som anges i principbeskrivningen. Läs mer om hur du anger eller redigerar API Management-principer.
Modeller som stöds
Använd principen med LLM-API:er som lagts till i Azure API Management som är tillgängliga via Azure AI Model Inference API.
Principuttryck
<llm-semantic-cache-store duration="seconds"/>
Attribut
Attribut | beskrivning | Obligatoriskt | Standardvärde |
---|---|---|---|
varaktighet | Time-to-live för de cachelagrade posterna, som anges i sekunder. Principuttryck tillåts. | Ja | Ej tillämpligt |
Användning
- Principavsnitt: utgående
- Principomfattningar: global, produkt, API, åtgärd
- Gatewayer: v2
Användningsanteckningar
- Den här principen kan bara användas en gång i ett principavsnitt.
- Om cachesökningen misslyckas utlöser inte API-anropet som använder den cacherelaterade åtgärden något fel och cacheåtgärden slutförs.
Exempel
Exempel med motsvarande llm-semantic-cache-lookup-policy
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Relaterade principer
Relaterat innehåll
Mer information om hur du arbetar med principer finns i:
- Självstudie: Transformera och skydda ditt API
- Principreferens för en fullständig lista över principinstruktioner och deras inställningar
- Principuttryck
- Ange eller redigera principer
- Återanvända principkonfigurationer
- Lagringsplats för principfragment
- Skapa principer med Microsoft Copilot i Azure