Ukládání odpovědí na požadavky rozhraní API pro velký jazykový model do mezipaměti

PLATÍ PRO: Všechny úrovně služby API Management

Zásady llm-semantic-cache-store ukládají odpovědi na požadavky rozhraní API pro dokončování chatu do nakonfigurované externí mezipaměti. Ukládání odpovědí do mezipaměti snižuje požadavky na šířku pásma a zpracování uložené na back-endovém rozhraní Api OpenAI a snižuje latenci vnímanou příjemci rozhraní API.

Poznámka:

Tato zásada musí mít odpovídající odpovědi Get Cached na zásady požadavků rozhraní API pro velký jazykový model.
Požadavky a kroky pro povolení sémantické mezipaměti najdete v tématu Povolení sémantické mezipaměti pro rozhraní API Azure OpenAI ve službě Azure API Management.

Poznámka:

Nastavte prvky zásad a podřízené prvky v pořadí uvedeném v prohlášení o zásadách. Přečtěte si další informace o tom, jak nastavit nebo upravit zásady služby API Management.

Podporované modely

Použijte zásadu s rozhraními API LLM přidanými do služby Azure API Management, které jsou dostupné prostřednictvím rozhraní API pro odvozování modelů Azure AI nebo s modely kompatibilními s OpenAI, které obsluhují poskytovatelé odvozování třetích stran.

Prohlášení o zásadách

<llm-semantic-cache-store duration="seconds"/>

Atributy

Atribut	Popis	Požaduje se	Výchozí
doba trvání	Doba trvání položek uložených v mezipaměti zadaná v sekundách. Výrazy zásad jsou povolené.	Ano	–

Využití

Oddíly zásad: odchozí
Obory zásad: globální, produkt, rozhraní API, operace
Brány: Classic, v2, consumption, self-hosted

Poznámky k využití

Tuto zásadu je možné v oddílu zásad použít jenom jednou.
Pokud vyhledávání mezipaměti selže, volání rozhraní API, které používá operaci související s mezipamětí, nevyvolá chybu a operace mezipaměti se úspěšně dokončí.
Doporučujeme nakonfigurovat zásady omezení rychlosti (nebo zásady omezení rychlosti podle klíče ) okamžitě po každém vyhledávání v mezipaměti. To pomáhá zabránit přetížení back-endové služby, pokud mezipaměť není dostupná.

Příklady

Příklad s odpovídající zásadou llm-sémantic-cache-lookup

Následující příklad ukazuje, jak použít zásadu llm-semantic-cache-lookup spolu se zásadou llm-semantic-cache-store k načtení sémanticky podobných odpovědí uložených v mezipaměti s prahovou hodnotou skóre podobnosti 0,05. Hodnoty v mezipaměti jsou rozdělené podle ID předplatného volajícího.

Poznámka:

Po vyhledávání cache přidejte politiku omezení rychlosti (nebo politiku omezení podle klíčů ), která pomůže omezit počet hovorů a zabrání přetížení backendové služby v případě, že cache není dostupná.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Další informace o práci se zásadami najdete v tématech:

Kurz: Transformace a ochrana rozhraní API
Referenční informace o zásadách pro úplný seznam prohlášení o zásadách a jejich nastavení
Výrazy zásad
Nastavení nebo úprava zásad
Opakované použití konfigurací zásad
Úložiště fragmentů zásad
Úložiště dětského hřiště zásad
Sada nástrojů zásad služby Azure API Management
Získejte asistenci Copilotu při vytváření, vysvětlování a řešení problémů se zásadami.

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-11-27

Sdílet prostřednictvím

Ukládání odpovědí na požadavky rozhraní API pro velký jazykový model do mezipaměti

Podporované modely

Prohlášení o zásadách

Atributy

Využití

Poznámky k využití

Příklady

Příklad s odpovídající zásadou llm-sémantic-cache-lookup

Související zásady

Související obsah

Váš názor

Další materiály