Udostępnij za pomocą


Buforowanie odpowiedzi na żądania interfejsu API usługi Azure OpenAI

DOTYCZY: Wszystkie warstwy usługi API Management

Zasady azure-openai-semantic-cache-store buforuje odpowiedzi na żądania interfejsu API uzupełniania czatu usługi Azure OpenAI do skonfigurowanej zewnętrznej pamięci podręcznej. Buforowanie odpowiedzi zmniejsza wymagania dotyczące przepustowości i przetwarzania nałożone na interfejs API usługi Azure OpenAI zaplecza i zmniejsza opóźnienie postrzegane przez użytkowników interfejsu API.

Uwaga

Uwaga

Ustaw elementy zasad i elementy podrzędne w kolejności podanej w instrukcji zasad. Dowiedz się więcej na temat ustawiania lub edytowania zasad usługi API Management.

Obsługiwane modele usługi Azure OpenAI w modelach usługi Azure AI Foundry

Te zasady są używane z interfejsami API dodanymi do usługi API Management z poziomu usługi Azure OpenAI w modelach rozwiązania AI Foundry następujących typów:

Typ API Obsługiwane modele
Uzupełnianie czatu gpt-3.5

gpt-4

gpt-4o

gpt-4o-mini

o1

o3
Osadzanie text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002
Odpowiedzi (wersja zapoznawcza) gpt-4o(Wersje: 2024-11-20, , 2024-08-062024-05-13)

gpt-4o-mini (Wersja: 2024-07-18)

gpt-4.1 (Wersja: 2025-04-14)

gpt-4.1-nano (Wersja: 2025-04-14)

gpt-4.1-mini (Wersja: 2025-04-14)

gpt-image-1 (Wersja: 2025-04-15)

o3 (Wersja: 2025-04-16)

o4-mini (Wersja: '2025-04-16)

Uwaga

Tradycyjne interfejsy API uzupełniania są dostępne tylko w starszych wersjach modelu i obsługa jest ograniczona.

Aby uzyskać bieżące informacje o modelach i ich możliwościach, zobacz Artykuł Azure OpenAI in Foundry Models (Usługa Azure OpenAI w modelach usługi Foundry).

Instrukcja zasad

<azure-openai-semantic-cache-store duration="seconds"/>

Atrybuty

Atrybut opis Wymagani Wartość domyślna
czas trwania Czas wygaśnięcia buforowanych wpisów określonych w sekundach. Wyrażenia zasad są dozwolone. Tak Nie dotyczy

Użycie

Uwagi dotyczące użycia

  • Te zasady można użyć tylko raz w sekcji zasad.
  • Jeśli wyszukiwanie pamięci podręcznej nie powiedzie się, wywołanie interfejsu API, które używa operacji związanej z pamięcią podręczną, nie zgłosi błędu, a operacja pamięci podręcznej zakończy się pomyślnie.
  • Zalecamy skonfigurowanie zasad limitu szybkości (lub zasad rate-limit-by-key ) natychmiast po każdym wyszukiwaniu w pamięci podręcznej. Dzięki temu usługa zaplecza nie jest przeciążona, jeśli pamięć podręczna nie jest dostępna.

Przykłady

Przykład z odpowiednimi zasadami wyszukiwania azure-openai-semantic-cache-lookup

W poniższym przykładzie pokazano, jak używać azure-openai-semantic-cache-lookup zasad wraz z zasadami azure-openai-semantic-cache-store w celu pobierania semantycznie podobnych buforowanych odpowiedzi z progiem oceny podobieństwa wynoszącego 0,05. Buforowane wartości są partycjonowane według identyfikatora subskrypcji obiektu wywołującego.

Uwaga

Dodaj zasady limitu szybkości (lub zasady rate-limit-by-key ) po wyszukiwaniu pamięci podręcznej, aby pomóc ograniczyć liczbę wywołań i zapobiec przeciążeniu usługi zaplecza, jeśli pamięć podręczna nie jest dostępna.

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Aby uzyskać więcej informacji na temat pracy z zasadami, zobacz: