Compartilhar via


Habilitar o cache semântico para APIs LLM no Gerenciamento de API do Azure

APLICA-SE A: todas as camadas do Gerenciamento de API

Habilite o cache semântico de respostas a solicitações da API LLM para reduzir os requisitos de largura de banda e processamento impostos às APIs de back-end e à menor latência percebida pelos consumidores de API. Com o cache semântico, você pode retornar respostas armazenadas em cache para prompts idênticos e também para prompts semelhantes em significado, mesmo que o texto não seja idêntico. Para obter informações em segundo plano, consulte Tutorial: Usar o Redis Gerenciado do Azure como um cache semântico.

Observação

As etapas de configuração neste artigo mostram como habilitar o cache semântico para APIs adicionadas ao Gerenciamento de API do Azure OpenAI em modelos do Microsoft Foundry. Você pode aplicar etapas semelhantes para habilitar o cache semântico para APIs de LLM (modelo de linguagem grande) correspondentes disponíveis por meio da API de Inferência de Modelo de IA do Azure ou com modelos compatíveis com OpenAI servidos por meio de provedores de inferência de terceiros.

Pré-requisitos

Testar a implantação da API de Chat

Primeiro, teste a implantação do Azure OpenAI para garantir que a API de Conclusão de Chat ou a API de Chat funcione conforme o esperado. Para obter etapas, consulte Importar uma API do OpenAI do Azure para o Gerenciamento de API do Azure.

Por exemplo, teste a API de Chat do Azure OpenAI enviando uma solicitação POST para o ponto de extremidade da API com um prompt no corpo da solicitação. A resposta deve incluir a conclusão do prompt. Solicitação de exemplo:

POST https://my-api-management.azure-api.net/my-api/openai/deployments/chat-deployment/chat/completions?api-version=2024-02-01

Com o corpo da solicitação:

{"messages":[{"role":"user","content":"Hello"}]}

Quando a solicitação for bem-sucedida, a resposta inclui uma conclusão para a mensagem de chat.

Criar um back-end para a API de inserções

Crie um recurso de back-end para a implantação da API de inserções com as seguintes configurações:

  • Nome – um nome de sua escolha, como embeddings-backend. Use esse nome para fazer referência ao back-end em políticas.

  • Tipo: selecione Personalizar URL.

  • URL de runtime – a URL da implantação da API de embeddings no Azure OpenAI, semelhante a: https://my-aoai.openai.azure.com/openai/deployments/embeddings-deployment/embeddings (sem parâmetros de consulta).

  • Credenciais de autorização – vá para a guia Identidade Gerenciada.

    • Identidade do cliente – selecione a identidade atribuída pelo sistema ou insira uma ID de cliente de identidade gerenciada atribuída pelo usuário.
    • ID do recurso – Insira https://cognitiveservices.azure.com/ para o Azure OpenAI.

Testar o back-end de inserções

Para testar o back-end de inserções, crie uma operação de API para sua API OpenAI do Azure:

  1. Na guia Design da API, selecione + Adicionar operação.
  2. Insira um nome de exibição , como Embeddings e, opcionalmente, um nome para a operação.
  3. Na seção Front-end, na URL, selecione POST e insira o caminho /.
  4. Na guia Cabeçalhos, adicione um cabeçalho necessário com o nome Content-Type e o valor application/json.
  5. Clique em Salvar.

Configure as políticas a seguir na seção de processamento de entrada da operação de API. Na política set-backend-service, substitua o nome do back-end que você criou.

<policies>
    <inbound>
        <set-backend-service backend-id="embeddings-backend" />
        <authentication-managed-identity resource="https://cognitiveservices.azure.com/" />
        [...]
    </inbound>
    [...]
</policies>

Na guia Teste, teste a operação adicionando um api-version parâmetro de consulta com valor como 2024-02-01. Forneça um corpo de solicitação válido. Por exemplo:

{"input":"Hello"}

Se a solicitação for bem-sucedida, a resposta incluirá uma representação de vetor do texto de entrada. Resposta de exemplo:

{
    "object": "list",
    "data": [{
        "object": "embedding",
        "index": 0,
        "embedding": [
            -0.021829502,
            -0.007157768,
            -0.028619017,
            [...]
        ]
    }]
}

Configurar políticas de cache semântico

Para habilitar o cache semântico para as APIs do OpenAI do Azure no Gerenciamento de API do Azure, aplique as seguintes políticas: uma para verificar o cache antes de enviar solicitações (pesquisa) e outra para armazenar respostas para reutilização futura (repositório):

  • Na seção processamento de entrada da API, adicione a política azure-openai-semantic-cache-lookup. embeddings-backend-id No atributo, especifique o back-end da API embeddings que você criou.

    Observação

    Ao habilitar o cache semântico para outras APIs de modelo de linguagem grande, use a política llm-semantic-cache-lookup.

    Exemplo:

    <azure-openai-semantic-cache-lookup
        score-threshold="0.15"
        embeddings-backend-id="embeddings-backend"
        embeddings-backend-auth="system-assigned"
        ignore-system-messages="true"
        max-message-count="10">
        <vary-by>@(context.Subscription.Id)</vary-by>
    </azure-openai-semantic-cache-lookup>
    <rate-limit calls="10" renewal-period="60" />
    

    Observação

    Adicione uma política de limite de taxa (ou política de limite de taxa por chave ) após a busca no cache para ajudar a limitar o número de chamadas e evitar sobrecarga no serviço backend caso o cache não esteja disponível.

  • Na seção Processamento de saída da API, adicione a política azure-openai-semantic-cache-store.

    Observação

    Ao habilitar o cache semântico para outras APIs de modelo de linguagem grande, use a política llm-semantic-cache-store.

    Exemplo:

    <azure-openai-semantic-cache-store duration="60" />
    

Confirmar o cache

Para confirmar que o cache semântico funciona conforme esperado, rastreie uma operação de conclusão de teste ou conclusão de chat usando o console de teste no portal. Confirme se o cache é usado nas tentativas subsequentes inspecionando o rastreamento. Saiba mais sobre o rastreamento de chamadas à API no Gerenciamento de API do Azure.

Ajuste o score-threshold atributo na política de pesquisa para controlar a proximidade com que um prompt de entrada deve corresponder a um prompt armazenado em cache para retornar sua resposta armazenada. Um limite de pontuação mais baixo significa que os prompts devem ter maior similaridade semântica para retornar respostas armazenadas em cache. Prompts com pontuações acima do limite não usam a resposta armazenada em cache.

Por exemplo, se o cache for usado, a seção Saída incluirá entradas semelhantes à seguinte captura de tela:

Captura de tela do rastreamento de solicitação no portal do Azure.