Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
APLICA-SE A: Todas as camadas de gerenciamento de API
A llm-semantic-cache-store política armazena em cache as respostas às solicitações de API de conclusão de bate-papo em um cache externo configurado. O cache de resposta reduz os requisitos de largura de banda e processamento impostos à API OpenAI do Azure de back-end e reduz a latência percebida pelos consumidores de API.
Nota
- Essa política deve ter uma política correspondente de Obter respostas em cache para solicitações de API de modelo de linguagem grande.
- Para obter pré-requisitos e etapas para habilitar o cache semântico, consulte Habilitar cache semântico para APIs do Azure OpenAI no Gerenciamento de API do Azure.
Nota
Defina os elementos da política e os elementos filho na ordem fornecida na declaração de política. Saiba mais sobre como definir ou editar políticas de Gerenciamento de API.
Modelos suportados
Use a política com APIs LLM adicionadas ao Gerenciamento de API do Azure que estão disponíveis por meio da API de Inferência de Modelo de IA do Azure ou com modelos compatíveis com OpenAI servidos por meio de provedores de inferência de terceiros.
Declaração de política
<llm-semantic-cache-store duration="seconds"/>
Atributos
| Atributo | Descrição | Necessário | Predefinição |
|---|---|---|---|
| Duração | Tempo de vida útil das entradas armazenadas em cache, especificado em segundos. São permitidas expressões de política. | Sim | N/A |
Utilização
- Secções políticas: saída
- Escopos da política: global, produto, API, operação
- Gateways: clássico, v2, consumo, auto-hospedado
Notas de utilização
- Esta política só pode ser utilizada uma vez numa secção de política.
- Se a pesquisa de cache falhar, a chamada de API que usa a operação relacionada ao cache não gerará um erro e a operação de cache será concluída com êxito.
- Recomendamos configurar uma política de limite de taxa (ou política de limite de taxa por chave ) imediatamente após qualquer pesquisa de cache. Isso ajuda a evitar que o serviço de back-end fique sobrecarregado se o cache não estiver disponível.
Exemplos
Exemplo com a política llm-semantic-cache-lookup correspondente
O exemplo a seguir mostra como usar a llm-semantic-cache-lookup política junto com a llm-semantic-cache-store política para recuperar respostas em cache semanticamente semelhantes com um limite de pontuação de similaridade de 0,05. Os valores armazenados em cache são particionados pela ID de assinatura do chamador.
Nota
Adicione uma política de limite de taxa (ou política de limite de taxa por chave ) após a pesquisa de cache para ajudar a limitar o número de chamadas e evitar sobrecarga no serviço backend caso a cache não esteja disponível.
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
<rate-limit calls="10" renewal-period="60" />
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
Políticas relacionadas
Conteúdos relacionados
Para obter mais informações sobre como trabalhar com políticas, consulte:
- Tutorial: Transforme e proteja sua API
- Referência de política para uma lista completa de declarações de política e suas configurações
- Expressões de política
- Definir ou editar políticas
- Reutilizar configurações de política
- Recompra de trechos de política
- Política de recompra de parques infantis
- Kit de ferramentas de política de Gerenciamento de API do Azure
- Obtenha assistência do Copilot para criar, explicar e resolver problemas com políticas