Cache-svar på API-begäranden för stora språkmodeller

GÄLLER FÖR: Alla API Management-nivåer

Principen llm-semantic-cache-store cachelagrar svar på API-begäranden om chattens slutförande till en konfigurerad extern cache. Cachelagring av svar minskar bandbredds- och bearbetningskrav som ställs på serverdelens Azure OpenAI API och minskar svarstiden som uppfattas av API-konsumenter.

Kommentar

Den här principen måste ha en motsvarande api-begärandeprincip för Hämta cachelagrade svar på stora språkmodeller.
Krav och steg för att aktivera semantisk cachelagring finns i Aktivera semantisk cachelagring för Azure OpenAI-API:er i Azure API Management.

Kommentar

Ange principens element och underordnade element i den ordning som anges i principbeskrivningen. Läs mer om hur du anger eller redigerar API Management-principer.

Modeller som stöds

Använd principen med LLM-API:er som lagts till i Azure API Management som är tillgängliga via Azure AI Model Inference API eller med OpenAI-kompatibla modeller som hanteras via tredjeparts slutsatsdragningsproviders.

Principuttryck

<llm-semantic-cache-store duration="seconds"/>

Attribut

Attribut	beskrivning	Obligatoriskt	Standardvärde
varaktighet	Time-to-live för de cachelagrade posterna, som anges i sekunder. Principuttryck tillåts.	Ja	Ej tillämpligt

Förbrukning

Principavsnitt: utgående
Principomfattningar: global, produkt, API, åtgärd
Gatewayer: klassisk, v2, förbrukning, lokalt installerad

Användningsanteckningar

Den här principen kan bara användas en gång i ett principavsnitt.
Om cachesökningen misslyckas utlöser inte API-anropet som använder den cacherelaterade åtgärden något fel och cacheåtgärden slutförs.
Vi rekommenderar att du konfigurerar en princip för hastighetsbegränsning (eller princip för hastighetsgräns per nyckel ) omedelbart efter alla cachesökningar. Detta hjälper till att hindra serverdelstjänsten från att överbelastas om cacheminnet inte är tillgängligt.

Exempel

Exempel med motsvarande llm-semantic-cache-lookup-policy

I följande exempel visas hur du använder llm-semantic-cache-lookup principen tillsammans med llm-semantic-cache-store principen för att hämta semantiskt liknande cachelagrade svar med ett tröskelvärde för likhetspoäng på 0,05. Cachelagrade värden partitioneras av anroparens prenumerations-ID.

Kommentar

Lägg till en hastighetsbegränsningspolicy (eller rate-limit-by-key-policy ) efter cache-uppslagningen för att begränsa antalet samtal och förhindra överbelastning på backend-tjänsten om cachen inte är tillgänglig.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Mer information om hur du arbetar med principer finns i:

Självstudie: Transformera och skydda ditt API
Principreferens för en fullständig lista över principinstruktioner och deras inställningar
Principuttryck
Ange eller redigera principer
Återanvända principkonfigurationer
Lagringsplats för principfragment
Lagringsplats för principlekplats
Principverktyg för Azure API Management
Få Hjälp med Copilot för att skapa, förklara och felsöka principer

Feedback

Var den här sidan hjälpsam?

Last updated on 2025-11-27

Dela via

Cache-svar på API-begäranden för stora språkmodeller

Modeller som stöds

Principuttryck

Attribut

Förbrukning

Användningsanteckningar

Exempel

Exempel med motsvarande llm-semantic-cache-lookup-policy

Relaterade principer

Relaterat innehåll

Feedback

Ytterligare resurser