Not
Åtkomst till denna sida kräver auktorisation. Du kan prova att logga in eller byta katalog.
Åtkomst till denna sida kräver auktorisation. Du kan prova att byta katalog.
GÄLLER FÖR: Alla API Management-nivåer
Principen azure-openai-semantic-cache-store cachelagrar svar på AZURE OpenAI Chat Completion API-begäranden till en konfigurerad extern cache. Cachelagring av svar minskar bandbredds- och bearbetningskrav som ställs på serverdelens Azure OpenAI API och minskar svarstiden som uppfattas av API-konsumenter.
Kommentar
- Den här principen måste ha en motsvarande policy för att hämta cachelagrade svar på Azure OpenAI API-begäranden .
- Krav och steg för att aktivera semantisk cachelagring finns i Aktivera semantisk cachelagring för Azure OpenAI-API:er i Azure API Management.
Kommentar
Ange principens element och underordnade element i den ordning som anges i principbeskrivningen. Läs mer om hur du anger eller redigerar API Management-principer.
Azure OpenAI stöds i Azure AI Foundry-modeller
Principen används med API:er som lagts till i API Management från Azure OpenAI i AI Foundry-modeller av följande typer:
| API-typ | Modeller som stöds |
|---|---|
| Chatten har slutförts | gpt-3.5gpt-4gpt-4ogpt-4o-minio1o3 |
| Inbäddningar | text-embedding-3-largetext-embedding-3-smalltext-embedding-ada-002 |
| Svar (förhandsversion) |
gpt-4o (Versioner: 2024-11-20, 2024-08-06, 2024-05-13)gpt-4o-mini (Version: 2024-07-18)gpt-4.1 (Version: 2025-04-14)gpt-4.1-nano (Version: 2025-04-14)gpt-4.1-mini (Version: 2025-04-14)gpt-image-1 (Version: 2025-04-15)o3 (Version: 2025-04-16)o4-mini (Version: '2025-04-16) |
Kommentar
API:er för traditionell slutförande är endast tillgängliga med äldre modellversioner och stödet är begränsat.
Aktuell information om modellerna och deras funktioner finns i Azure OpenAI i Foundry Models.
Principuttryck
<azure-openai-semantic-cache-store duration="seconds"/>
Attribut
| Attribut | beskrivning | Obligatoriskt | Standardvärde |
|---|---|---|---|
| varaktighet | Time-to-live för de cachelagrade posterna, som anges i sekunder. Principuttryck tillåts. | Ja | Ej tillämpligt |
Förbrukning
- Principavsnitt: utgående
- Principomfattningar: global, produkt, API, åtgärd
- Gatewayer: klassisk, v2, förbrukning, lokalt installerad
Användningsanteckningar
- Den här principen kan bara användas en gång i ett principavsnitt.
- Om cachesökningen misslyckas utlöser inte API-anropet som använder den cacherelaterade åtgärden något fel och cacheåtgärden slutförs.
- Vi rekommenderar att du konfigurerar en princip för hastighetsbegränsning (eller princip för hastighetsgräns per nyckel ) omedelbart efter alla cachesökningar. Detta hjälper till att hindra serverdelstjänsten från att överbelastas om cacheminnet inte är tillgängligt.
Exempel
Exempel med motsvarande princip för azure-openai-semantic-cache-lookup
I följande exempel visas hur du använder azure-openai-semantic-cache-lookup principen tillsammans med azure-openai-semantic-cache-store principen för att hämta semantiskt liknande cachelagrade svar med ett tröskelvärde för likhetspoäng på 0,05. Cachelagrade värden partitioneras av anroparens prenumerations-ID.
Kommentar
Lägg till en hastighetsbegränsningspolicy (eller rate-limit-by-key-policy ) efter cache-uppslagningen för att begränsa antalet samtal och förhindra överbelastning på backend-tjänsten om cachen inte är tillgänglig.
<policies>
<inbound>
<base />
<azure-openai-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="azure-openai-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
<rate-limit calls="10" renewal-period="60" />
</inbound>
<outbound>
<azure-openai-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Relaterade principer
Relaterat innehåll
Mer information om hur du arbetar med principer finns i:
- Självstudie: Transformera och skydda ditt API
- Principreferens för en fullständig lista över principinstruktioner och deras inställningar
- Principuttryck
- Ange eller redigera principer
- Återanvända principkonfigurationer
- Lagringsplats för principfragment
- Lagringsplats för principlekplats
- Principverktyg för Azure API Management
- Få Hjälp med Copilot för att skapa, förklara och felsöka principer