Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo fornece o processo para executar testes de carga em um aplicativo de chat python usando o padrão RAG (Geração Aumentada de Recuperação) com o Locust, uma ferramenta popular de teste de carga de software livre. O objetivo principal do teste de carga é garantir que a carga esperada em seu aplicativo de chat não exceda a cota atual de TPM (transações do Serviço OpenAI do Azure por minuto). Ao simular o comportamento do usuário sob carga pesada, você pode identificar possíveis gargalos e problemas de escalabilidade em seu aplicativo. Esse processo é crucial para garantir que seu aplicativo de chat permaneça responsivo e confiável, mesmo diante de um alto volume de solicitações de usuário.
Observação
Este artigo usa um ou mais modelos de aplicativo de IA como base para os exemplos e as diretrizes no artigo. Os modelos de aplicativo de IA fornecem implementações de referência bem mantidas que são fáceis de implantar. Eles ajudam a garantir um ponto de partida de alta qualidade para seus aplicativos de IA.
Pré-requisitos
Uma assinatura do Azure. Crie um gratuitamente.
Os contêineres de desenvolvimento estão disponíveis para ambos os exemplos com todas as dependências necessárias para concluir este artigo. Você pode executar os contêineres de desenvolvimento em Codespaces do GitHub (em um navegador) ou localmente usando o Visual Studio Code.
- Você precisa apenas de uma conta do GitHub.
Aplicativo de chat do Python com RAG. Se você configurou seu aplicativo de chat para usar uma das soluções de balanceamento de carga, este artigo ajudará você a testar o balanceamento de carga. As soluções de balanceamento de carga incluem Aplicativos de Contêiner do Azure.
Abra o aplicativo de exemplo de teste de carga
O teste de carga está na solução do app de chat em Python como um teste Locust. Retorne a esse artigo, implante a solução e use esse ambiente de desenvolvimento de contêiner para concluir as etapas a seguir.
Execute o teste
Instale o pacote Locust, que é usado para simular usuários simultâneos e gerar carga em seu aplicativo de chat:
python -m pip install locustInicie o Locust, que usa o arquivo de teste locust locustfile.py. Você pode encontrá-lo na raiz do repositório. O exemplo tem uma
ChatUserclasse que simula um usuário fazendo perguntas e recebendo respostas do aplicativo de chat.locust ChatUserDepois que o Locust é iniciado com êxito, ele inicia uma interface web local que você usa para configurar e monitorar o teste de carga. Abra o site Locust que está em execução, como
http://localhost:8089.Insira os valores a seguir no site do Locust.
Propriedade Value Número de usuários 20 Construir 1 Host https://<YOUR-CHAT-APP-URL>.azurewebsites.net(a URL base do aplicativo de chat implantado)
Selecione Iniciar Swarm para iniciar o teste.
Selecione Gráficos para observar o progresso do teste.
Limpar os recursos
Quando terminar o teste de carga, limpe os recursos. Os recursos do Azure criados neste artigo são cobrados para sua assinatura do Azure. Se você não espera precisar desses recursos no futuro, exclua-os para evitar incorrer em mais encargos. Depois de excluir recursos específicos para este artigo, lembre-se de retornar ao outro tutorial do aplicativo de chat e seguir as etapas de limpeza.
Retorne ao artigo do aplicativo de chat para limpar esses recursos.
Obter ajuda
Se você tiver problemas para usar esse testador de carga, adicione seu problema à página da Web Problemas do repositório.