Cachelagrar svar på Azure OpenAI API-begäranden

GÄLLER FÖR: Alla API Management-nivåer

Principen azure-openai-semantic-cache-store cachelagrar svar på AZURE OpenAI Chat Completion API-begäranden till en konfigurerad extern cache. Cachelagring av svar minskar bandbredds- och bearbetningskrav som ställs på serverdelens Azure OpenAI API och minskar svarstiden som uppfattas av API-konsumenter.

Kommentar

Den här principen måste ha en motsvarande policy för att hämta cachelagrade svar på Azure OpenAI API-begäranden .
Krav och steg för att aktivera semantisk cachelagring finns i Aktivera semantisk cachelagring för Azure OpenAI-API:er i Azure API Management.

Kommentar

Ange principens element och underordnade element i den ordning som anges i principbeskrivningen. Läs mer om hur du anger eller redigerar API Management-principer.

Azure OpenAI stöds i Azure AI Foundry-modeller

Principen används med API:er som lagts till i API Management från Azure OpenAI i AI Foundry-modeller av följande typer:

API-typ	Modeller som stöds
Chatten har slutförts	`gpt-3.5` `gpt-4` `gpt-4o` `gpt-4o-mini` `o1` `o3`
Inbäddningar	`text-embedding-3-large` `text-embedding-3-small` `text-embedding-ada-002`
Svar (förhandsversion)	`gpt-4o` (Versioner: `2024-11-20`, `2024-08-06`, `2024-05-13`) `gpt-4o-mini` (Version: `2024-07-18`) `gpt-4.1` (Version: `2025-04-14`) `gpt-4.1-nano` (Version: `2025-04-14`) `gpt-4.1-mini` (Version: `2025-04-14`) `gpt-image-1` (Version: `2025-04-15`) `o3` (Version: `2025-04-16`) `o4-mini` (Version: '2025-04-16)

Kommentar

API:er för traditionell slutförande är endast tillgängliga med äldre modellversioner och stödet är begränsat.

Aktuell information om modellerna och deras funktioner finns i Azure OpenAI i Foundry Models.

Principuttryck

<azure-openai-semantic-cache-store duration="seconds"/>

Attribut

Attribut	beskrivning	Obligatoriskt	Standardvärde
varaktighet	Time-to-live för de cachelagrade posterna, som anges i sekunder. Principuttryck tillåts.	Ja	Ej tillämpligt

Förbrukning

Principavsnitt: utgående
Principomfattningar: global, produkt, API, åtgärd
Gatewayer: klassisk, v2, förbrukning, lokalt installerad

Användningsanteckningar

Den här principen kan bara användas en gång i ett principavsnitt.
Om cachesökningen misslyckas utlöser inte API-anropet som använder den cacherelaterade åtgärden något fel och cacheåtgärden slutförs.
Vi rekommenderar att du konfigurerar en princip för hastighetsbegränsning (eller princip för hastighetsgräns per nyckel ) omedelbart efter alla cachesökningar. Detta hjälper till att hindra serverdelstjänsten från att överbelastas om cacheminnet inte är tillgängligt.

Exempel

Exempel med motsvarande princip för azure-openai-semantic-cache-lookup

I följande exempel visas hur du använder azure-openai-semantic-cache-lookup principen tillsammans med azure-openai-semantic-cache-store principen för att hämta semantiskt liknande cachelagrade svar med ett tröskelvärde för likhetspoäng på 0,05. Cachelagrade värden partitioneras av anroparens prenumerations-ID.

Kommentar

Lägg till en hastighetsbegränsningspolicy (eller rate-limit-by-key-policy ) efter cache-uppslagningen för att begränsa antalet samtal och förhindra överbelastning på backend-tjänsten om cachen inte är tillgänglig.

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Mer information om hur du arbetar med principer finns i:

Självstudie: Transformera och skydda ditt API
Principreferens för en fullständig lista över principinstruktioner och deras inställningar
Principuttryck
Ange eller redigera principer
Återanvända principkonfigurationer
Lagringsplats för principfragment
Lagringsplats för principlekplats
Principverktyg för Azure API Management
Få Hjälp med Copilot för att skapa, förklara och felsöka principer

Feedback

Var den här sidan till hjälp?

Last updated on 2025-11-27

Dela via

Cachelagrar svar på Azure OpenAI API-begäranden

Azure OpenAI stöds i Azure AI Foundry-modeller

Principuttryck

Attribut

Förbrukning

Användningsanteckningar

Exempel

Exempel med motsvarande princip för azure-openai-semantic-cache-lookup

Relaterade principer

Relaterat innehåll

Feedback

Ytterligare resurser