Compartilhar via


Obter respostas armazenadas em cache de solicitações de API de modelo de linguagem grande

APLICA-SE A: todas as camadas do Gerenciamento de API

Use a política llm-semantic-cache-lookup para realizar a pesquisa de cache de respostas às solicitações da API de LLM (modelo de linguagem grande) de um cache externo configurado, com base na proximidade de vetor do prompt para solicitações anteriores e um limite de pontuação de similaridade especificado. O cache das respostas reduz os requisitos de largura de banda e processamento impostos sobre a API de LLM de back-end e reduz a latência percebida pelos consumidores da API.

Observação

Observação

Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.

Modelos com suporte

Use a política com APIs de LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência do Modelo de IA do Azure.

Declaração de política

<llm-semantic-cache-lookup
    score-threshold="similarity score threshold"
    embeddings-backend-id ="backend entity ID for embeddings API"
    embeddings-backend-auth ="system-assigned"             
    ignore-system-messages="true | false"      
    max-message-count="count" >
    <vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>

Atributos

Atributo Descrição Obrigatório Padrão
score-threshold O limite de pontuação de similaridade usado para determinar se deve retornar uma resposta armazenada em cache a um prompt. O valor é um número decimal entre 0,0 e 1,0. Saiba mais. Yes N/D
embeddings-backend-id ID de back-end para a chamada à API de incorporações do OpenAI. Yes N/D
embeddings-backend-auth Autenticação usada pelo back-end de API de incorporações do OpenAI. Sim. Deve ser definido como system-assigned. N/D
ignore-system-messages Booliano. Se definido como true, remove as mensagens do sistema de um prompt de conclusão de chat GPT antes de avaliar a similaridade de cache. Não false
max-message-count Se especificado, o número de mensagens de diálogo restantes depois de ignorar o armazenamento em cache. Não N/D

Elementos

Nome Descrição Obrigatório
vary-by Uma expressão personalizada determinada em runtime cujo valor particiona o cache. Se vários elementos vary-by forem adicionados, os valores são concatenados para criar uma combinação exclusiva. Não

Uso

Observações de uso

  • Essa política só pode ser usada uma vez em uma seção de política.

Exemplos

Exemplo com a política llm-semantic-cache-store correspondente

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte: