Abilitare la memorizzazione nella cache semantica per le API Azure OpenAI in Gestione API di Azure

Articolo
01/18/2025

SI APPLICA A: Tutti i livelli di Gestione API

Abilitare la memorizzazione nella cache semantica di richieste API OpenAI per ridurre la larghezza di banda e i requisiti di elaborazione imposti sull'API back-end e ridurre la latenza percepita dagli utenti delle API. Con la memorizzazione nella cache semantica, è possibile restituire risposte memorizzate nella cache per richieste identiche e per richieste simili, anche se il testo non è lo stesso. Per informazioni generali, vedere Esercitazione: usare Cache Redis di Azure come cache semantica.

Nota

I passaggi di configurazione descritti in questo articolo consentono la memorizzazione nella cache semantica per le API OpenAI di Azure. Questi passaggi possono essere generalizzati per abilitare la memorizzazione nella semantica per le API LLM (Large Language Model) corrispondenti disponibili tramite l'API di inferenza del modello di intelligenza artificiale di Azure.

Prerequisiti

È necessario aggiungere una o più API del servizio Azure OpenAI all'istanza di Gestione API. Per altre informazioni, vedere Aggiungere un'API del servizio Azure OpenAI a Gestione API di Azure.
Il servizio Azure OpenAI deve avere distribuzioni per quanto segue:
- API Completamento chat (o API di completamento): distribuzione usata per le chiamate consumer dell'API
- API Incorporamenti - Distribuzione usata per la memorizzazione nella cache semantica
L'istanza di Gestione API deve essere configurata per usare l'autenticazione dell'identità gestita per le API Azure OpenAI. Per altre informazioni, vedere Autenticare e autorizzare l'accesso alle API Azure OpenAI usando Gestione API di Azure.
Un'istanza di Cache di Azure per Redis Enterprise o Redis gestita di Azure. Il modulo RediSearch deve essere abilitato nella cache Redis.

Nota

È possibile abilitare il modulo RediSearch solo quando si crea una nuova cache Redis Enterprise di Azure o Redis gestita di Azure. Non è possibile aggiungere un modulo a una cache esistente. Ulteriori informazioni
Cache esterna configurata nell'istanza di Gestione API di Azure. Per la procedura, vedere Usare una cache redis esterna in Azure Gestione API.

Testare la distribuzione dell'API Chat

Prima di tutto, testare la distribuzione di Azure OpenAI per assicurarsi che l'API Completamento chat o l'API Chat funzioni come previsto. Per la procedura, vedere Importare un'API Azure OpenAI in Gestione API di Azure.

Ad esempio, testare l'API OpenAI Chat di Azure inviando una richiesta POST all'endpoint API con una richiesta nel corpo della richiesta. La risposta deve includere il completamento della richiesta. Richiesta di esempio:

POST https://my-api-management.azure-api.net/my-api/openai/deployments/chat-deployment/chat/completions?api-version=2024-02-01

con il seguente corpo della richiesta:

{"messages":[{"role":"user","content":"Hello"}]}

Quando la richiesta ha esito positivo, la risposta include un completamento per il messaggio di chat.

Creare un back-end per l'API di incorporamento

Configurare una risorsa back-end per la distribuzione dell'API embeddings con le impostazioni seguenti:

Nome - Il nome che si desidera, ad esempio embeddings-backend. Questo nome viene usato per fare riferimento al back-end nei criteri.
Tipo : selezionare URL personalizzato.
URL di runtime: URL della distribuzione dell'API embeddings nel servizio Azure OpenAI, simile a: https://my-aoai.openai.azure.com/openai/deployments/embeddings-deployment/embeddings
Credenziali di autorizzazione: passare alla scheda Identità gestita.
- Identità client: selezionare Identità assegnata dal sistema o digitare un ID client di identità gestita assegnato dall'utente.
- ID risorsa: immettere https://cognitiveservices.azure.com/ per il servizio Azure OpenAI.

Test backend

Per testare il back-end, creare un'operazione API per l'API del servizio Azure OpenAI:

Nella scheda Progettazione dell'API selezionare + Aggiungi operazione.
Immettere un nome visualizzato e opzionalmente un nome per l'operazione.
Nella sezione Front-end, in URL, selezionare POST e immettere il percorso /.
Nella scheda Intestazioni aggiungere un'intestazione obbligatoria con il nome Content-Type e il valore application/json.
Seleziona Salva

Configurare i criteri seguenti nella sezione Elaborazione in ingresso dell'operazione API. Nei criteri set-backend-service sostituire il nome del back-end creato.

<policies>
    <inbound>
        <set-backend-service backend-id="embeddings-backend" />
        <authentication-managed-identity resource="https://cognitiveservices.azure.com/" />
        [...]
    </inbound>
    [...]
</policies>

Nella scheda Test testare l'operazione aggiungendo un parametro di query api-version con valore, ad esempio 2024-02-01. Specificare un corpo della richiesta valido. Ad esempio:

{"input":"Hello"}

Se la richiesta ha esito positivo, la risposta include una rappresentazione vettoriale del testo di input:

{
    "object": "list",
    "data": [{
        "object": "embedding",
        "index": 0,
        "embedding": [
            -0.021829502,
            -0.007157768,
            -0.028619017,
            [...]
        ]
    }]
}

Configurare i criteri di memorizzazione nella cache semantica

Configurare i seguenti criteri per abilitare la memorizzazione nella cache semantica per API Azure OpenAI in Gestione API di Azure:

Nella sezione Elaborazione in ingresso per l'API aggiungere i criteri azure-openai-semantic-cache-lookup. Nell'attributo embeddings-backend-id specificare il back-end dell'API Incorporamenti creato.

Nota

Quando si abilita la memorizzazione nella cache semantica per altre API del modello linguistico di grandi dimensioni, usare invece i criteri llm-semantic-cache-lookup .

Esempio:
```
<azure-openai-semantic-cache-lookup
    score-threshold="0.8"
    embeddings-backend-id="embeddings-deployment"
    embeddings-backend-auth="system-assigned"
    ignore-system-messages="true"
    max-message-count="10">
    <vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
```
Nella sezione Elaborazione in uscita per l'API aggiungere i criteri azure-openai-semantic-cache-store.

Nota

Quando si abilita la memorizzazione nella cache semantica per altre API del modello linguistico di grandi dimensioni, usare invece i criteri llm-semantic-cache-store .

Esempio:
```
<azure-openai-semantic-cache-store duration="60" />
```

Confermare la memorizzazione nella cache

Per verificare che la memorizzazione nella cache semantica funzioni come previsto, tracciare un'operazione di completamento del test o completamento della chat usando la console di test nel portale. Verificare che la cache sia stata usata nei tentativi successivi esaminando la traccia. Altre informazioni sulla traccia delle chiamate API in Gestione API di Azure.

Ad esempio, se è stata usata la cache, la sezione Output include voci simili a quelle nello screenshot seguente:

Screenshot della traccia delle richieste nel portale di Azure.

Criteri di memorizzazione nella cache
Cache Redis di Azure
Funzionalità del gateway GenAI in Azure Gestione API

Condividi tramite

Abilitare la memorizzazione nella cache semantica per le API Azure OpenAI in Gestione API di Azure

Prerequisiti

Testare la distribuzione dell'API Chat

Creare un back-end per l'API di incorporamento

Test backend

Configurare i criteri di memorizzazione nella cache semantica

Confermare la memorizzazione nella cache

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Abilitare la memorizzazione nella cache semantica per le API Azure OpenAI in Gestione API di Azure

Prerequisiti

Testare la distribuzione dell'API Chat

Creare un back-end per l'API di incorporamento

Test backend

Configurare i criteri di memorizzazione nella cache semantica

Confermare la memorizzazione nella cache

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive