Compartilhar via


Respostas de cache para solicitações de API de modelo de linguagem grande

APLICA-SE A: todas as camadas do Gerenciamento de API

A llm-semantic-cache-store política armazena em cache respostas para solicitações de API de conclusão de chat para um cache externo configurado. O cache das respostas reduz os requisitos de largura de banda e processamento impostos à API do OpenAI do Azure de back-end e diminui a latência percebida pelos consumidores da API.

Observação

Observação

Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.

Modelos com suporte

Use a política com APIs LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência do Modelo de IA do Azure ou com modelos compatíveis com OpenAI atendidos por meio de provedores de inferência de terceiros.

Declaração de política

<llm-semantic-cache-store duration="seconds"/>

Atributos

Atributo Descrição Obrigatório Padrão
duração Vida útil das entradas armazenadas em cache, especificada em segundos. Expressões de política são permitidas. Sim N/D

Uso

Observações de uso

  • Essa política só pode ser usada uma vez em uma seção de política.
  • Se a pesquisa de cache falhar, a chamada à API que usa a operação relacionada ao cache não gerará um erro e a operação de cache será concluída com sucesso.
  • Recomendamos configurar uma política de limite de taxa (ou política de limite de taxa por chave ) imediatamente após qualquer pesquisa de cache. Isso ajuda a impedir que seu serviço de back-end seja sobrecarregado se o cache não estiver disponível.

Exemplos

Exemplo com a política llm-semantic-cache-lookup correspondente

O exemplo a seguir mostra como usar a llm-semantic-cache-lookup política junto com a llm-semantic-cache-store política para recuperar respostas em cache semanticamente semelhantes com um limite de pontuação de similaridade de 0,05. Os valores armazenados em cache são particionados pela ID da assinatura do chamador.

Observação

Adicione uma política de limite de taxa (ou política de limite de taxa por chave ) após a busca no cache para ajudar a limitar o número de chamadas e evitar sobrecarga no serviço backend caso o cache não esteja disponível.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte: