Buforowanie odpowiedzi do dużych żądań interfejsu API modelu językowego

DOTYCZY: Wszystkie warstwy usługi API Management

Zasady llm-semantic-cache-store buforuje odpowiedzi na żądania interfejsu API uzupełniania czatu do skonfigurowanej zewnętrznej pamięci podręcznej. Buforowanie odpowiedzi zmniejsza wymagania dotyczące przepustowości i przetwarzania nałożone na interfejs API usługi Azure OpenAI zaplecza i zmniejsza opóźnienie postrzegane przez użytkowników interfejsu API.

Uwaga

Te zasady muszą mieć odpowiednie odpowiedzi Get cached odpowiedzi na zasady żądań interfejsu API modelu języka.
Aby zapoznać się z wymaganiami wstępnymi i krokami dotyczącymi włączania buforowania semantycznego, zobacz Włączanie buforowania semantycznego dla interfejsów API usługi Azure OpenAI w usłudze Azure API Management.

Uwaga

Ustaw elementy zasad i elementy podrzędne w kolejności podanej w instrukcji zasad. Dowiedz się więcej na temat ustawiania lub edytowania zasad usługi API Management.

Obsługiwane modele

Użyj zasad z interfejsami API LLM dodanymi do usługi Azure API Management, które są dostępne za pośrednictwem interfejsu API wnioskowania modelu AI platformy Azure lub modeli zgodnych z platformą OpenAI obsługiwanych za pośrednictwem dostawców wnioskowania innych firm.

Instrukcja zasad

<llm-semantic-cache-store duration="seconds"/>

Atrybuty

Atrybut	opis	Wymagani	Wartość domyślna
czas trwania	Czas wygaśnięcia buforowanych wpisów określonych w sekundach. Wyrażenia zasad są dozwolone.	Tak	Nie dotyczy

Użycie

Sekcje zasad: ruch wychodzący
Zakresy zasad: globalny, produkt, interfejs API, operacja
Bramy: klasyczne, v2, zużycie, self-hosted

Uwagi dotyczące użycia

Te zasady można użyć tylko raz w sekcji zasad.
Jeśli wyszukiwanie pamięci podręcznej nie powiedzie się, wywołanie interfejsu API, które używa operacji związanej z pamięcią podręczną, nie zgłosi błędu, a operacja pamięci podręcznej zakończy się pomyślnie.
Zalecamy skonfigurowanie zasad limitu szybkości (lub zasad rate-limit-by-key ) natychmiast po każdym wyszukiwaniu w pamięci podręcznej. Dzięki temu usługa zaplecza nie jest przeciążona, jeśli pamięć podręczna nie jest dostępna.

Przykłady

Przykład z odpowiednimi zasadami wyszukiwania llm-semantic-cache-lookup

W poniższym przykładzie pokazano, jak używać llm-semantic-cache-lookup zasad wraz z zasadami llm-semantic-cache-store w celu pobierania semantycznie podobnych buforowanych odpowiedzi z progiem oceny podobieństwa wynoszącego 0,05. Buforowane wartości są partycjonowane według identyfikatora subskrypcji obiektu wywołującego.

Uwaga

Dodaj zasady limitu szybkości (lub zasady rate-limit-by-key ) po wyszukiwaniu pamięci podręcznej, aby pomóc ograniczyć liczbę wywołań i zapobiec przeciążeniu usługi zaplecza, jeśli pamięć podręczna nie jest dostępna.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Aby uzyskać więcej informacji na temat pracy z zasadami, zobacz:

Samouczek: przekształcanie i ochrona interfejsu API
Dokumentacja zasad dla pełnej listy instrukcji zasad i ich ustawień
Wyrażenia zasad
Ustawianie lub edytowanie zasad
Ponowne używanie konfiguracji zasad
Repozytorium fragmentów zasad
Repozytorium placu zabaw zasad
Zestaw narzędzi zasad usługi Azure API Management
Zyskaj wsparcie Copilot w tworzeniu, wyjaśnianiu i rozwiązywaniu problemów z zasadami

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-11-27

Udostępnij przez

Buforowanie odpowiedzi do dużych żądań interfejsu API modelu językowego

Obsługiwane modele

Instrukcja zasad

Atrybuty

Użycie

Uwagi dotyczące użycia

Przykłady

Przykład z odpowiednimi zasadami wyszukiwania llm-semantic-cache-lookup

Powiązane zasady

Powiązana zawartość

Sprzężenie zwrotne

Dodatkowe źródła