Risposte memorizzate nella cache alle richieste dell'API Azure OpenAI

SI APPLICA A: Tutti i livelli di Gestione API

I azure-openai-semantic-cache-store criteri memorizzano nella cache le risposte alle richieste dell'API Di completamento chat OpenAI di Azure a una cache esterna configurata. La memorizzazione delle risposte nella cache riduce la larghezza di banda e i requisiti di elaborazione imposti sull'API Azure OpenAI back-end e riduce la latenza percepita dagli utenti delle API.

Nota

Questi criteri devono avere criteri Ottieni risposte memorizzate nella cache ai criteri delle richieste API Azure OpenAI corrispondenti.
Per i prerequisiti e i passaggi per abilitare la memorizzazione nella cache semantica, vedere Abilitare la memorizzazione nella cache semantica per le API Azure OpenAI in Gestione API di Azure.

Nota

Impostare gli elementi e gli elementi figlio del criterio nell'ordine specificato nell'istruzione del criterio. Altre informazioni su come impostare o modificare i criteri di Gestione API.

Azure OpenAI supportato nei modelli di Azure AI Foundry

I criteri vengono usati con le API aggiunte a Gestione API dai modelli OpenAI di Azure in AI Foundry dei tipi seguenti:

Tipo di API	Modelli supportati
Completamento della chat	`gpt-3.5` `gpt-4` `gpt-4o` `gpt-4o-mini` `o1` `o3`
Incorporamenti	`text-embedding-3-large` `text-embedding-3-small` `text-embedding-ada-002`
Risposte (anteprima)	`gpt-4o` (Versioni: `2024-11-20`, `2024-08-06`, `2024-05-13`) `gpt-4o-mini` (Versione: `2024-07-18`) `gpt-4.1` (Versione: `2025-04-14`) `gpt-4.1-nano` (Versione: `2025-04-14`) `gpt-4.1-mini` (Versione: `2025-04-14`) `gpt-image-1` (Versione: `2025-04-15`) `o3` (Versione: `2025-04-16`) `o4-mini` (Versione: '2025-04-16)

Nota

Le API di completamento tradizionali sono disponibili solo con le versioni del modello legacy e il supporto è limitato.

Per informazioni aggiornate sui modelli e sulle relative funzionalità, vedere Azure OpenAI in Foundry Models(OpenAI di Azure in Foundry Models).

Istruzione del criterio

<azure-openai-semantic-cache-store duration="seconds"/>

Attributi

Attributo	Descrizione	Richiesto	Valore predefinito
durata	Durata (TTL, Time-To-Live) delle voci memorizzate nella cache, in secondi. Le espressioni di criteri sono consentite.	Sì	N/D

Utilizzo

Sezioni del criterio: in uscita
Ambiti del criterio: globale, prodotto, API, operazione
Gateway: classico, v2, consumo, self-hosted

Note sull'utilizzo

Questo criterio può essere usato una sola volta in una sezione di criteri.
Se la ricerca della cache non riesce, la chiamata API che usa l'operazione correlata alla cache non genera un errore e l'operazione della cache viene completata correttamente.
È consigliabile configurare criteri di limite di frequenza (o criteri rate-limit-by-key ) immediatamente dopo qualsiasi ricerca nella cache. Ciò consente di evitare che il servizio back-end venga sovraccaricato se la cache non è disponibile.

Esempi

Esempio con i criteri azure-openai-semantic-cache-lookup corrispondenti

Nell'esempio seguente viene illustrato come usare i azure-openai-semantic-cache-lookup criteri insieme azure-openai-semantic-cache-store ai criteri per recuperare risposte memorizzate nella cache semanticamente simili con una soglia di punteggio di somiglianza pari a 0,05. I valori memorizzati nella cache vengono partizionati dall'ID sottoscrizione del chiamante.

Nota

Aggiungi una policy di limite di velocità (o politica limite di velocità per chiave ) dopo la ricerca della cache per aiutare a limitare il numero di chiamate e prevenire sovraccarichi sul servizio backend nel caso in cui la cache non sia disponibile.

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Per ulteriori informazioni sull'utilizzo dei criteri, vedere:

Esercitazione: trasformare e proteggere l'API
Informazioni di riferimento sui criteri per un elenco completo delle istruzioni dei criteri e delle relative impostazioni
Espressioni di criteri
Impostare o modificare criteri
Riutilizzare le configurazioni dei criteri
Repository dei frammenti di criteri
Repository del playground dei criteri
Toolkit dei criteri di Azure Gestione API
Ottenere assistenza da Copilot per creare, spiegare e risolvere le politiche

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-09-25

Condividi tramite

Risposte memorizzate nella cache alle richieste dell'API Azure OpenAI

Azure OpenAI supportato nei modelli di Azure AI Foundry

Istruzione del criterio

Attributi

Utilizzo

Note sull'utilizzo

Esempi

Esempio con i criteri azure-openai-semantic-cache-lookup corrispondenti

Criteri correlati

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive