Antwoorden in de cache ophalen van Azure OpenAI API-aanvragen

Artikel
11/06/2024

VAN TOEPASSING OP: Alle API Management-lagen

Gebruik het azure-openai-semantic-cache-lookup beleid om cachezoekacties uit te voeren op reacties op de Voltooiings-API voor Azure OpenAI Chat en Voltooiings-API-aanvragen vanuit een geconfigureerde externe cache, op basis van vectornaleving van de prompt naar eerdere aanvragen en een opgegeven drempelwaarde voor overeenkomstenscore. Reactiecaching vermindert de bandbreedte en verwerkingsvereisten die zijn opgelegd aan de Back-end Azure OpenAI-API en verlaagt de latentie die wordt waargenomen door API-consumenten.

Notitie

Dit beleid moet een overeenkomstig Cache-antwoord hebben op het beleid voor Api-aanvragen van Azure OpenAI.
Zie Semantische caching inschakelen voor Azure OpenAI-API's in Azure API Management voor vereisten en stappen voor het inschakelen van semantische caching.
Dit beleid is momenteel beschikbaar als preview-versie.

Notitie

Stel de elementen en onderliggende elementen van het beleid in de volgorde in die in de beleidsverklaring is opgegeven. Meer informatie over het instellen of bewerken van API Management-beleid.

Ondersteunde Azure OpenAI Service-modellen

Het beleid wordt gebruikt met API's die zijn toegevoegd aan API Management vanuit de Azure OpenAI-service van de volgende typen:

API-type	Ondersteunde modellen
Chatvoltooiing	gpt-3.5 gpt-4
Voltooiing	gpt-3.5-turbo-instruct
Insluitingen	tekst-insluiten-3-groot tekst-insluiten-3-klein tekst-insluiten-ada-002

Zie Azure OpenAI Service-modellen voor meer informatie.

Beleidsinstructie

<azure-openai-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</azure-openai-semantic-cache-lookup>

Kenmerken

Kenmerk	Beschrijving	Vereist	Standaardinstelling
score-threshold	Drempelwaarde voor overeenkomstenscore die wordt gebruikt om te bepalen of een reactie in de cache moet worden geretourneerd naar een prompt. De waarde is een decimaal getal tussen 0,0 en 1,0. Meer informatie.	Ja	N.v.t.
embeddings-backend-id	Back-end-id voor openAI-insluitingen API-aanroep.	Ja	N.v.t.
embeddings-backend-auth	Verificatie die wordt gebruikt voor de back-end van azure OpenAI-insluitingen van de API.	Ja. Moet worden ingesteld op `system-assigned`.	N.v.t.
ignore-system-messages	Booleaans. Als deze optie is ingesteld `true`, verwijdert u systeemberichten uit een GPT-chatprompt-voltooiingsprompt voordat u de overeenkomsten in de cache beoordeelt.	Nee	false
max-message-count	Indien opgegeven, het aantal resterende dialoogvensterberichten waarna caching wordt overgeslagen.	Nee	N.v.t.

Elementen

Name	Beschrijving	Vereist
variëren per	Een aangepaste expressie die tijdens runtime wordt bepaald waarvan de waardepartities in de cache worden opgeslagen. Als er meerdere `vary-by` elementen worden toegevoegd, worden waarden samengevoegd om een unieke combinatie te maken.	Nee

Gebruik

Beleidssecties: inkomend
Beleidsbereiken: globaal, product, API, bewerking
Gateways: v2

Gebruiksnotities

Dit beleid kan slechts eenmaal worden gebruikt in een beleidssectie.

Voorbeelden

Voorbeeld met het bijbehorende beleid voor azure-openai-semantic-cache-store

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Zie voor meer informatie over het werken met beleid:

Zelfstudie: Uw API transformeren en beveiligen
Beleidsreferentie voor een volledige lijst met beleidsinstructies en hun instellingen
Beleidsexpressies
Beleid instellen of bewerken
Beleidsconfiguraties opnieuw gebruiken
Beleidsfragmentenopslagplaats
Beleid ontwerpen met Behulp van Microsoft Copilot in Azure

Share via

Antwoorden in de cache ophalen van Azure OpenAI API-aanvragen

Ondersteunde Azure OpenAI Service-modellen

Beleidsinstructie

Kenmerken

Elementen

Gebruik

Gebruiksnotities

Voorbeelden

Voorbeeld met het bijbehorende beleid voor azure-openai-semantic-cache-store

Feedback

Aanvullende resources

Share via

Antwoorden in de cache ophalen van Azure OpenAI API-aanvragen

Ondersteunde Azure OpenAI Service-modellen

Beleidsinstructie

Kenmerken

Elementen

Gebruik

Gebruiksnotities

Voorbeelden

Voorbeeld met het bijbehorende beleid voor azure-openai-semantic-cache-store

Gerelateerd beleid

Gerelateerde inhoud

Feedback

Aanvullende resources