Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
PLATÍ PRO: Všechny úrovně služby API Management
Zásady llm-semantic-cache-store ukládají odpovědi na požadavky rozhraní API pro dokončování chatu do nakonfigurované externí mezipaměti. Ukládání odpovědí do mezipaměti snižuje požadavky na šířku pásma a zpracování uložené na back-endovém rozhraní Api OpenAI a snižuje latenci vnímanou příjemci rozhraní API.
Poznámka:
- Tato zásada musí mít odpovídající odpovědi Get Cached na zásady požadavků rozhraní API pro velký jazykový model.
- Požadavky a kroky pro povolení sémantické mezipaměti najdete v tématu Povolení sémantické mezipaměti pro rozhraní API Azure OpenAI ve službě Azure API Management.
Poznámka:
Nastavte prvky zásad a podřízené prvky v pořadí uvedeném v prohlášení o zásadách. Přečtěte si další informace o tom, jak nastavit nebo upravit zásady služby API Management.
Podporované modely
Použijte zásadu s rozhraními API LLM přidanými do služby Azure API Management, které jsou dostupné prostřednictvím rozhraní API pro odvozování modelů Azure AI nebo s modely kompatibilními s OpenAI, které obsluhují poskytovatelé odvozování třetích stran.
Prohlášení o zásadách
<llm-semantic-cache-store duration="seconds"/>
Atributy
| Atribut | Popis | Požaduje se | Výchozí |
|---|---|---|---|
| doba trvání | Doba trvání položek uložených v mezipaměti zadaná v sekundách. Výrazy zásad jsou povolené. | Ano | – |
Využití
- Oddíly zásad: odchozí
- Obory zásad: globální, produkt, rozhraní API, operace
- Brány: Classic, v2, consumption, self-hosted
Poznámky k využití
- Tuto zásadu je možné v oddílu zásad použít jenom jednou.
- Pokud vyhledávání mezipaměti selže, volání rozhraní API, které používá operaci související s mezipamětí, nevyvolá chybu a operace mezipaměti se úspěšně dokončí.
- Doporučujeme nakonfigurovat zásady omezení rychlosti (nebo zásady omezení rychlosti podle klíče ) okamžitě po každém vyhledávání v mezipaměti. To pomáhá zabránit přetížení back-endové služby, pokud mezipaměť není dostupná.
Příklady
Příklad s odpovídající zásadou llm-sémantic-cache-lookup
Následující příklad ukazuje, jak použít zásadu llm-semantic-cache-lookup spolu se zásadou llm-semantic-cache-store k načtení sémanticky podobných odpovědí uložených v mezipaměti s prahovou hodnotou skóre podobnosti 0,05. Hodnoty v mezipaměti jsou rozdělené podle ID předplatného volajícího.
Poznámka:
Po vyhledávání cache přidejte politiku omezení rychlosti (nebo politiku omezení podle klíčů ), která pomůže omezit počet hovorů a zabrání přetížení backendové služby v případě, že cache není dostupná.
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
<rate-limit calls="10" renewal-period="60" />
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Související zásady
Související obsah
Další informace o práci se zásadami najdete v tématech:
- Kurz: Transformace a ochrana rozhraní API
- Referenční informace o zásadách pro úplný seznam prohlášení o zásadách a jejich nastavení
- Výrazy zásad
- Nastavení nebo úprava zásad
- Opakované použití konfigurací zásad
- Úložiště fragmentů zásad
- Úložiště dětského hřiště zásad
- Sada nástrojů zásad služby Azure API Management
- Získejte asistenci Copilotu při vytváření, vysvětlování a řešení problémů se zásadami.