Buforowanie odpowiedzi na żądania interfejsu API usługi Azure OpenAI

Artykuł
13.12.2024

DOTYCZY: Wszystkie warstwy usługi API Management

Zasady azure-openai-semantic-cache-store buforuje odpowiedzi na żądania interfejsu API uzupełniania czatu usługi Azure OpenAI i interfejsu API uzupełniania do skonfigurowanej zewnętrznej pamięci podręcznej. Buforowanie odpowiedzi zmniejsza wymagania dotyczące przepustowości i przetwarzania nałożone na interfejs API usługi Azure OpenAI zaplecza i zmniejsza opóźnienie postrzegane przez użytkowników interfejsu API.

Uwaga

Te zasady muszą mieć odpowiednie odpowiedzi Get cached do zasad żądań interfejsu API usługi Azure OpenAI.
Aby zapoznać się z wymaganiami wstępnymi i krokami dotyczącymi włączania buforowania semantycznego, zobacz Włączanie buforowania semantycznego dla interfejsów API usługi Azure OpenAI w usłudze Azure API Management.
Obecnie te zasady są dostępne w wersji zapoznawczej.

Uwaga

Ustaw elementy zasad i elementy podrzędne w kolejności podanej w instrukcji zasad. Dowiedz się więcej na temat ustawiania lub edytowania zasad usługi API Management.

Obsługiwane modele usługi Azure OpenAI Service

Zasady są używane z interfejsami API dodanymi do usługi API Management z poziomu usługi Azure OpenAI Service następujących typów:

Typ API	Obsługiwane modele
Uzupełnianie czatu	gpt-3.5 gpt-4
Zakończenie	gpt-3.5-turbo-poinstruowanie
Osadzanie	osadzanie tekstu —3 — duże osadzanie tekstu — 3 małe text-embedding-ada-002

Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service.

Instrukcja zasad

<azure-openai-semantic-cache-store duration="seconds"/>

Atrybuty

Atrybut	opis	Wymagani	Wartość domyślna
czas trwania	Czas wygaśnięcia buforowanych wpisów określonych w sekundach. Wyrażenia zasad są dozwolone.	Tak	Nie dotyczy

Użycie

Sekcje zasad: ruch wychodzący
Zakresy zasad: globalny, produkt, interfejs API, operacja
Bramy: klasyczne, v2, zużycie

Uwagi dotyczące użycia

Te zasady można użyć tylko raz w sekcji zasad.
Jeśli wyszukiwanie pamięci podręcznej nie powiedzie się, wywołanie interfejsu API, które używa operacji związanej z pamięcią podręczną, nie zgłosi błędu, a operacja pamięci podręcznej zakończy się pomyślnie.

Przykłady

Przykład z odpowiednimi zasadami wyszukiwania azure-openai-semantic-cache-lookup

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Aby uzyskać więcej informacji na temat pracy z zasadami, zobacz:

Samouczek: przekształcanie i ochrona interfejsu API
Dokumentacja zasad dla pełnej listy instrukcji zasad i ich ustawień
Wyrażenia zasad
Ustawianie lub edytowanie zasad
Ponowne używanie konfiguracji zasad
Repozytorium fragmentów zasad
Zestaw narzędzi zasad usługi Azure API Management
Tworzenie zasad przy użyciu rozwiązania Microsoft Copilot na platformie Azure

Przyszłość jest Twoja

Udostępnij za pośrednictwem

Buforowanie odpowiedzi na żądania interfejsu API usługi Azure OpenAI

Obsługiwane modele usługi Azure OpenAI Service

Instrukcja zasad

Atrybuty

Użycie

Uwagi dotyczące użycia

Przykłady

Przykład z odpowiednimi zasadami wyszukiwania azure-openai-semantic-cache-lookup

Opinia

Dodatkowe zasoby

Przyszłość jest Twoja

Udostępnij za pośrednictwem

Buforowanie odpowiedzi na żądania interfejsu API usługi Azure OpenAI

Obsługiwane modele usługi Azure OpenAI Service

Instrukcja zasad

Atrybuty

Użycie

Uwagi dotyczące użycia

Przykłady

Przykład z odpowiednimi zasadami wyszukiwania azure-openai-semantic-cache-lookup

Powiązane zasady

Powiązana zawartość

Opinia

Dodatkowe zasoby