Condividi tramite


Risposte memorizzate nella cache alle richieste dell'API Azure OpenAI

SI APPLICA A: Tutti i livelli di Gestione API

I azure-openai-semantic-cache-store criteri memorizzano nella cache le risposte alle richieste dell'API Di completamento chat OpenAI di Azure a una cache esterna configurata. La memorizzazione delle risposte nella cache riduce la larghezza di banda e i requisiti di elaborazione imposti sull'API Azure OpenAI back-end e riduce la latenza percepita dagli utenti delle API.

Nota

Nota

Impostare gli elementi e gli elementi figlio del criterio nell'ordine specificato nell'istruzione del criterio. Altre informazioni su come impostare o modificare i criteri di Gestione API.

Azure OpenAI supportato nei modelli di Azure AI Foundry

I criteri vengono usati con le API aggiunte a Gestione API dai modelli OpenAI di Azure in AI Foundry dei tipi seguenti:

Tipo di API Modelli supportati
Completamento della chat gpt-3.5

gpt-4

gpt-4o

gpt-4o-mini

o1

o3
Incorporamenti text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002
Risposte (anteprima) gpt-4o (Versioni: 2024-11-20, 2024-08-06, 2024-05-13)

gpt-4o-mini (Versione: 2024-07-18)

gpt-4.1 (Versione: 2025-04-14)

gpt-4.1-nano (Versione: 2025-04-14)

gpt-4.1-mini (Versione: 2025-04-14)

gpt-image-1 (Versione: 2025-04-15)

o3 (Versione: 2025-04-16)

o4-mini (Versione: '2025-04-16)

Nota

Le API di completamento tradizionali sono disponibili solo con le versioni del modello legacy e il supporto è limitato.

Per informazioni aggiornate sui modelli e sulle relative funzionalità, vedere Azure OpenAI in Foundry Models(OpenAI di Azure in Foundry Models).

Istruzione del criterio

<azure-openai-semantic-cache-store duration="seconds"/>

Attributi

Attributo Descrizione Richiesto Valore predefinito
durata Durata (TTL, Time-To-Live) delle voci memorizzate nella cache, in secondi. Le espressioni di criteri sono consentite. N/D

Utilizzo

Note sull'utilizzo

  • Questo criterio può essere usato una sola volta in una sezione di criteri.
  • Se la ricerca della cache non riesce, la chiamata API che usa l'operazione correlata alla cache non genera un errore e l'operazione della cache viene completata correttamente.
  • È consigliabile configurare criteri di limite di frequenza (o criteri rate-limit-by-key ) immediatamente dopo qualsiasi ricerca nella cache. Ciò consente di evitare che il servizio back-end venga sovraccaricato se la cache non è disponibile.

Esempi

Esempio con i criteri azure-openai-semantic-cache-lookup corrispondenti

Nell'esempio seguente viene illustrato come usare i azure-openai-semantic-cache-lookup criteri insieme azure-openai-semantic-cache-store ai criteri per recuperare risposte memorizzate nella cache semanticamente simili con una soglia di punteggio di somiglianza pari a 0,05. I valori memorizzati nella cache vengono partizionati dall'ID sottoscrizione del chiamante.

Nota

Aggiungi una policy di limite di velocità (o politica limite di velocità per chiave ) dopo la ricerca della cache per aiutare a limitare il numero di chiamate e prevenire sovraccarichi sul servizio backend nel caso in cui la cache non sia disponibile.

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Per ulteriori informazioni sull'utilizzo dei criteri, vedere: