Compartilhar via


Respostas de cache para solicitações de API de modelo de linguagem grande

APLICA-SE A: todas as camadas do Gerenciamento de API

A política llm-semantic-cache-store armazena em cache as respostas às solicitações da API de conclusão do chat e da API de conclusão em um cache externo configurado. O cache das respostas reduz os requisitos de largura de banda e processamento impostos à API do OpenAI do Azure de back-end e diminui a latência percebida pelos consumidores da API.

Observação

Observação

Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.

Modelos com suporte

Use a política com APIs de LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência do Modelo de IA do Azure.

Declaração de política

<llm-semantic-cache-store duration="seconds"/>

Atributos

Atributo Descrição Obrigatório Padrão
duration Vida útil das entradas armazenadas em cache, especificada em segundos. Expressões de política são permitidas. Sim N/D

Uso

Observações de uso

  • Essa política só pode ser usada uma vez em uma seção de política.
  • Se a pesquisa de cache falhar, a chamada à API que usa a operação relacionada ao cache não gerará um erro e a operação de cache será concluída com sucesso.

Exemplos

Exemplo com a política llm-semantic-cache-lookup correspondente

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte: