Uzyskiwanie buforowanych odpowiedzi dla dużych żądań interfejsu API modelu językowego

Artykuł
08/10/2024

DOTYCZY: Wszystkie warstwy usługi API Management

llm-semantic-cache-lookup Użyj zasad, aby wykonać wyszukiwanie w pamięci podręcznej odpowiedzi na żądania interfejsu API dużego modelu językowego (LLM) ze skonfigurowanej zewnętrznej pamięci podręcznej na podstawie wektorowej odległości monitu do poprzednich żądań i określonego progu oceny podobieństwa. Buforowanie odpowiedzi zmniejsza wymagania dotyczące przepustowości i przetwarzania nałożone na interfejs API LLM zaplecza i zmniejsza opóźnienie postrzegane przez użytkowników interfejsu API.

Uwaga

Te zasady muszą mieć odpowiednie odpowiedzi pamięci podręcznej na zasady żądań interfejsu API modelu języka.
Aby zapoznać się z wymaganiami wstępnymi i krokami dotyczącymi włączania buforowania semantycznego, zobacz Włączanie buforowania semantycznego dla interfejsów API usługi Azure OpenAI w usłudze Azure API Management.
Obecnie te zasady są dostępne w wersji zapoznawczej.

Uwaga

Ustaw elementy zasad i elementy podrzędne w kolejności podanej w instrukcji zasad. Dowiedz się więcej na temat ustawiania lub edytowania zasad usługi API Management.

Instrukcja zasad

<llm-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>

Atrybuty

Atrybut	opis	Wymagani	Wartość domyślna
próg oceny	Próg oceny podobieństwa używany do określania, czy zwracać buforowana odpowiedź na monit. Wartość jest wartością dziesiętną z zakresu od 0,0 do 1,0. Dowiedz się więcej.	Tak	Nie dotyczy
embeddings-backend-id	Identyfikator zaplecza dla wywołania interfejsu API osadzania interfejsu OpenAI.	Tak	Nie dotyczy
embeddings-backend-auth	Uwierzytelnianie używane na potrzeby zaplecza interfejsu API osadzania usługi Azure OpenAI.	Tak. Musi być ustawiona wartość `system-assigned`.	Nie dotyczy
ignoruj komunikaty systemowe	Wartość logiczna. Jeśli ustawiono wartość `true`, usuwa komunikaty systemowe z monitu ukończenia czatu GPT przed oceną podobieństwa pamięci podręcznej.	Nie.	fałsz
max-message-count	Jeśli zostanie określona, liczba pozostałych komunikatów dialogowych, po których buforowanie jest pomijane.	Nie.	Nie dotyczy

Elementy

Nazwa/nazwisko	opis	Wymagania
vary-by	Wyrażenie niestandardowe określone w czasie wykonywania, którego buforowanie partycji wartości. W przypadku dodania wielu `vary-by` elementów wartości są łączone w celu utworzenia unikatowej kombinacji.	Nie.

Użycie

Sekcje zasad: ruch przychodzący
Zakresy zasad: globalny, produkt, interfejs API, operacja
Bramy: wersja 2

Uwagi dotyczące użycia

Te zasady można użyć tylko raz w sekcji zasad.

Przykłady

Przykład z odpowiednimi zasadami llm-semantic-cache-store

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Aby uzyskać więcej informacji na temat pracy z zasadami, zobacz:

Samouczek: przekształcanie i ochrona interfejsu API
Dokumentacja zasad dla pełnej listy instrukcji zasad i ich ustawień
Wyrażenia zasad
Ustawianie lub edytowanie zasad
Ponowne używanie konfiguracji zasad
Repozytorium fragmentów zasad
Tworzenie zasad przy użyciu rozwiązania Microsoft Copilot na platformie Azure

Udostępnij za pośrednictwem

Uzyskiwanie buforowanych odpowiedzi dla dużych żądań interfejsu API modelu językowego

Instrukcja zasad

Atrybuty

Elementy

Użycie

Uwagi dotyczące użycia

Przykłady

Przykład z odpowiednimi zasadami llm-semantic-cache-store

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Uzyskiwanie buforowanych odpowiedzi dla dużych żądań interfejsu API modelu językowego

Instrukcja zasad

Atrybuty

Elementy

Użycie

Uwagi dotyczące użycia

Przykłady

Przykład z odpowiednimi zasadami llm-semantic-cache-store

Powiązane zasady

Powiązana zawartość

Opinia

Dodatkowe zasoby