Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
APLICA-SE A: todas as camadas do Gerenciamento de API
Use a llm-semantic-cache-lookup política para executar a pesquisa de cache de respostas para solicitações de API llm (modelo de linguagem grande) de um cache externo configurado, com base na proximidade do vetor do prompt com solicitações anteriores e um limite de pontuação especificado. O cache das respostas reduz os requisitos de largura de banda e processamento impostos sobre a API de LLM de back-end e reduz a latência percebida pelos consumidores da API.
Observação
- Essa política precisa ter uma política Armazenar respostas em cache às solicitações da API de modelo de linguagem grande correspondente.
- Para obter pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar o cache semântico para APIs llm no Gerenciamento de API do Azure.
Observação
Defina os elementos da política e os elementos filho na ordem fornecida na declaração da política. Saiba mais sobre como definir e editar as políticas de Gerenciamento de API.
Modelos com suporte
Use a política com APIs LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência do Modelo de IA do Azure ou com modelos compatíveis com OpenAI atendidos por meio de provedores de inferência de terceiros.
Declaração de política
<llm-semantic-cache-lookup
score-threshold="score threshold to return cached response"
embeddings-backend-id ="backend entity ID for embeddings API"
embeddings-backend-auth ="system-assigned"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>
Atributos
| Atributo | Descrição | Obrigatório | Padrão |
|---|---|---|---|
| score-threshold | O limite de pontuação define como um prompt de entrada deve corresponder a um prompt armazenado em cache para retornar sua resposta armazenada. O valor varia de 0,0 a 1,0. Valores mais baixos exigem maior semelhança semântica para uma correspondência. Saiba mais. | Sim | N/D |
| embeddings-backend-id | Back-end ID da chamada à API de inserções. | Sim | N/D |
| embeddings-backend-auth | Autenticação usada para inserir back-end da API. | Sim. Deve ser definido como system-assigned. |
N/D |
| ignore-system-messages | Booliano. Quando definido como (recomendado), remove as mensagens do sistema de um prompt de conclusão de chat antes de avaliar a true similaridade do cache. |
Não | falso |
| max-message-count | Se especificado, o número de mensagens de diálogo restantes depois de ignorar o armazenamento em cache. | Não | N/D |
Elementos
| Nome | Descrição | Obrigatório |
|---|---|---|
| variar por | Uma expressão personalizada determinada em runtime cujo valor particiona o cache. Se vários elementos vary-by forem adicionados, os valores são concatenados para criar uma combinação exclusiva. |
Não |
Uso
- Seções de política: de entrada
- Escopos de política: global, produto, API, operação
- Gateways: clássico, v2, consumo, auto-hospedado
Observações de uso
- Essa política só pode ser usada uma vez em uma seção de política.
- Ajuste o valor de
score-thresholdacordo com seu aplicativo para garantir que a confidencialidade certa seja usada para determinar quando retornar respostas armazenadas em cache para consultas. Comece com um valor baixo, como 0,05, e ajuste para otimizar a taxa de acertos de cache para erros. - O limite de pontuação acima de 0,2 pode levar à incompatibilidade de cache. Considere usar um valor mais baixo para casos de uso confidenciais.
- Controlar o acesso entre usuários a entradas de cache especificando
vary-bycom identificadores específicos de usuário ou grupo de usuários. - O modelo de inserções deve ter capacidade suficiente e tamanho de contexto suficiente para acomodar o volume de prompt e prompts.
- Considere adicionar uma política de segurança de llm-content com o escudo de prompt para proteger contra ataques de prompt.
- Recomendamos configurar uma política de limite de taxa (ou política de limite de taxa por chave ) imediatamente após qualquer pesquisa de cache. Isso ajuda a impedir que seu serviço de back-end seja sobrecarregado se o cache não estiver disponível.
Exemplos
Exemplo com a política llm-semantic-cache-store correspondente
O exemplo a seguir mostra como usar a llm-semantic-cache-lookup política junto com a llm-semantic-cache-store política para recuperar respostas em cache semanticamente semelhantes com um limite de pontuação de similaridade de 0,05. Os valores armazenados em cache são particionados pela ID da assinatura do chamador.
Observação
Adicione uma política de limite de taxa (ou política de limite de taxa por chave ) após a busca no cache para ajudar a limitar o número de chamadas e evitar sobrecarga no serviço backend caso o cache não esteja disponível.
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
<rate-limit calls="10" renewal-period="60" />
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Políticas relacionadas
Conteúdo relacionado
Para obter mais informações sobre como trabalhar com políticas, consulte:
- Tutorial: Transformar e proteger sua API
- Referência de Política para uma lista completa das instruções de política e suas configurações
- Expressões de política
- Definir ou editar políticas
- Reutilizar configurações de política
- Repositório de snippets de política
- Repositório de playground de políticas
- Kit de ferramentas de políticas do Gerenciamento de API do Azure
- Obter assistência do Copilot para criar, explicar e solucionar problemas de políticas