Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Para melhorar a qualidade dos agentes declarativos e dos agentes do motor personalizado, crie e execute avaliações de agentes. As avaliações de agentes aplicam-se a quaisquer agentes, independentemente de utilizar Copilot Studio, o SDK de Agentes do Microsoft 365 ou a Biblioteca de IA do Microsoft Teams para criar o seu agente.
Por que motivo a avaliação é importante
Sem avaliação, não pode medir de forma fiável se as alterações ao agente melhoram ou degradam a qualidade. Os desafios comuns incluem:
- As alterações são testadas manualmente, sem forma de confirmar que ajudaram.
- Os problemas comunicados pelo utilizador não podem ser reproduzidos de forma consistente.
- A atualização de origens de conhecimento comporta riscos porque não consegue prever o impacto.
- Os intervenientes perguntam se a qualidade melhorou e não pode quantificar a alteração.
A avaliação fornece um ciclo de comentários repetível que aborda cada um destes desafios:
- Faça uma alteração. Execute o conjunto de testes. Os resultados mostram exatamente o que melhorou ou regrediu.
- Faça a triagem de um relatório de utilizador. Adicione-o como um caso de teste, corrija o problema e mantenha o caso no conjunto de regressão para que permaneça corrigido.
- Atualizar origens de conhecimento. Execute avaliações para detetar regressões antes de os utilizadores o fazerem.
- Responder a perguntas dos intervenientes com dados. Em vez de "é melhor", pode dizer "A precisão da política passou de 87% para 96%".
A avaliação ajuda-o a compreender o que está a funcionar e o que não está a funcionar e se as alterações melhoram o agente.
Conceitos principais de avaliação
As avaliações consistem nos seguintes conceitos principais:
- Caso de teste
- Conjunto de testes
- Prompt
- Asserção
- Sinal de qualidade
- Classificador
- Dados de base
Quando executa uma avaliação:
- Cada caso de teste envia o pedido ao agente.
- A resposta do agente é verificada em relação a cada asserção com o classificador adequado.
- Os resultados são marcados com sinais de qualidade para análise.
- As métricas agregadas são calculadas em todo o conjunto de testes.
Caso de teste
Um caso de teste é um cenário de avaliação único que consiste em:
- Uma linha de comandos
- Comportamento esperado
- Asserções
Um caso de teste bem concebido é:
- Independente – pode ser executado sem depender de outros testes.
- Repetível – produz resultados consistentes de passagem ou falha.
- Específico – testa um cenário ou intenção.
Exemplo: Caso de teste PTO-001
- Pergunta: "Quantos dias de férias obtenho como novo funcionário?"
- Comportamento esperado: devolva a permissão de PTO correta e cite a origem da política
- Asserções:
- A resposta contém "15 dias"
- A resposta cita o Manual do Funcionário ou a política de PTO
- A resposta não inclui os dados de outros funcionários
Conjunto de testes
Um conjunto de testes é uma coleção de casos de teste relacionados que lhe permite:
- Executar vários cenários ao mesmo tempo
- Medir o desempenho agregado
- Comparar versões ao longo do tempo
- Organizar testes por capacidade ou cenário
Prompt
Um pedido é a entrada do utilizador que está a testar. Os bons pedidos de avaliação são:
- Realista - Expressou como os utilizadores reais realmente perguntam.
- Intenção única – teste uma coisa de cada vez (para avaliações de curva única).
- Baseado em dados reais – utilize nomes e valores de entidades reais quando tiver dados de teste.
Asserção
Uma asserção é uma expectativa única e verificável sobre a resposta do agente. As boas afirmações são:
- Atómico
- Binária
- Verificáveis
- Focado nos resultados
Sinal de qualidade
Um sinal de qualidade é uma dimensão de qualidade que ajuda a categorizar falhas e controlar a melhoria ao longo do tempo. Os sinais de qualidade ajudam-no:
- Diagnosticar falhas com mais precisão.
- Controle os melhoramentos ao longo do tempo.
- Comunique resultados com a terminologia partilhada.
Exemplos de sinais de qualidade incluem:
- Precisão da política
- Atribuição de origem
- Personalização
- Êxito da ferramenta
- Adequação do escalamento
Classificador
Um classificador determina se uma asserção passa ou falha. Os tipos de classificação comuns incluem:
- Correspondência de palavras-chave – Verificar se existem termos necessários
- Correspondência exata – Validar valores estruturados como IDs
- Semelhança de texto – Comparar o significado semântico
- LLM como juiz – Avaliar o tom ou a qualidade
- Verificação de ferramentas – Validar a API ou a execução de ferramentas
Dados de base
Os dados de base (dados de teste ou dados sintéticos) fornecem valores realistas para pedidos e asserções. Os dados de base permitem:
- Asserções concretas
- Cenários realistas
- Limpar validação de passagem/falha
Exemplo: sem dados de base
- Pergunta: "Qual é o meu saldo PTO?"
- Asserção: "A resposta contém o equilíbrio correto"
- Não verificáveis
Exemplo: com dados de base
- Funcionário: Katrin Pold
- Antiguidade: 18 meses
- Saldo de PTO: 12 dias
- Pergunta: "Qual é o meu saldo PTO?"
- Asserção: "A resposta contém "12 dias""
- Verificáveis
Como funciona a avaliação
A avaliação liga os conceitos principais a um fluxo de trabalho repetível:
- Definir cenários que o agente deve processar.
- Crie pedidos com dados de base.
- Escreva asserções para validar as respostas.
- Etiquetar resultados com sinais de qualidade.
- Organizar em conjuntos de teste.
- Execute avaliações e analise os resultados.
Este processo cria um ciclo contínuo:
Executar avaliações > Analisar resultados > Melhorar a Repetição do agente >
Que avaliação não substitui
A avaliação mede a precisão da resposta, a conclusão da tarefa, a utilização de ferramentas, a adesão aos limites e a consistência de qualidade. No entanto, a avaliação não substitui outras práticas de qualidade, incluindo:
- Análises responsáveis de IA para considerações de segurança, preconceitos e éticas.
- Moderação de conteúdos para filtrar conteúdo prejudicial ou inadequado.
- Testes de segurança para injeção rápida e ataques adversos.
- Pesquisa de utilizadores para compreender as necessidades e a satisfação reais dos utilizadores.
- Teste de desempenho para latência, débito e fiabilidade.
Utilize a avaliação juntamente com estas práticas para garantir uma estratégia de qualidade completa.
Desenvolvimento orientado para avaliação
Defina o aspeto de êxito antes de criar o agente. Criar casos de teste antecipadamente ajuda-o a:
- Validar requisitos.
- Estabeleça objetivos mensuráveis.
- Pressupostos não declarados do Surface.
- Crie uma rede de segurança de regressão.
Comece com casos de teste focados para cenários principais. À medida que o agente evolui, expanda a cobertura com variações e casos edge. Mantenha os testes de regressão para estabilidade.
Documentação de orientação para a cobertura do teste
Aplique a seguinte documentação de orientação quando definir a cobertura do teste.
| Fase | Casos de teste | Foco |
|---|---|---|
| Protótipo | 20–50 | Cenários principais |
| Pré-produção | 50–100 | Variações e casos edge |
| Produção | 100+ | Cobertura abrangente e abrangente |
Documentação de orientação sobre a taxa de passagem
Aplique a seguinte documentação de orientação para definir as taxas de passe:
- Aponte para uma taxa de passe global de 80 a 90%.
- Os testes de regressão de núcleo devem aproximar-se da consistência a 100%.
- Execute avaliações múltiplas vezes e os resultados médios para ter em conta a variabilidade.
Agentes declarativos vs. motores personalizados
A sua abordagem à avaliação varia consoante o tipo de agente que está a criar. A tabela seguinte compara o foco de avaliação para agentes declarativos vs. de motores personalizados.
| Aspeto | Agente declarativo | Agente de mecanismo personalizado |
|---|---|---|
| Foco | Eficácia da configuração | Correção do sistema |
| Orquestração | Testar instruções e seleção de capacidade | Testar lógica de orquestração e raciocínio |
| Conhecimento | Validar o comportamento de obtenção | Avaliar pipelines RAG |
| Ferramentas | Verificar a correspondência e execução de ações | Validar diretamente a cadeia de ferramentas |
| Segurança | Validar contra proteções incorporadas | Implementar e testar salvaguardas personalizadas |
| Desempenho | Otimizar instruções e fluxo de trabalho | Otimizar a latência, o custo e a eficiência |
Agentes declarativos
Quando avalia agentes declarativos, está a testar se a configuração produz o comportamento certo:
- As instruções orientam as respostas corretas?
- São utilizadas as origens de conhecimento corretas?
- As ações são invocadas com os parâmetros corretos?
Utilize o modo de programador (-developer on) no Microsoft 365 Copilot para inspecionar as decisões de orquestração. A card de depuração mostra:
- Que capacidades foram executadas e as estatísticas de resposta.
- Que funções de ação foram correspondidas e selecionadas.
- Execute detalhes, incluindo latência, parâmetros de pedido e status de resposta.
Esta visibilidade ajuda-o a compreender porque é que uma avaliação falhou— se a origem de conhecimento certa não foi chamada, se uma ação não foi correspondida ou se os parâmetros não foram transmitidos corretamente.
Agentes de motor personalizados
Quando avalia agentes de motor personalizados, está a testar se o seu sistema funciona corretamente. Por exemplo:
- A minha lógica de orquestração seleciona as ferramentas certas?
- O meu pipeline de obtenção devolve contexto relevante?
- Os meus rastreios de raciocínio são coerentes e eficientes?
- O meu agente cumpre os objetivos de latência e custo?
- Os meus proteções de segurança impedem saídas nocivas?
Cenário de exemplo
O exemplo seguinte mostra como a avaliação se aplica a um agente de inclusão de funcionários.
Definição do agente
O agente de inclusão de funcionários ajuda os novos funcionários:
- Responder a perguntas sobre RH e TI
- Encomendar equipamento
- Compreender as políticas da empresa
O agente tem as seguintes capacidades.
| Recursos | Tipo | Descrição |
|---|---|---|
| Responder a políticas de PTO e sair | Obtenção de conhecimento | Perguntas sobre dias de férias, licença por doença, licença parental |
| Explicar a inscrição de benefícios | Obtenção de conhecimento | Planos de saúde, opções de descontinuação, prazos de inscrição |
| Encomendar equipamento de TI | Chamada de ferramenta (API) | Pedir portáteis, monitores, periféricos através do sistema de encomendas |
| Verificar a encomenda do equipamento status | Chamada de ferramenta (API) | Controlar a entrega de itens pedidos |
| Procurar informações do Office | Obtenção de conhecimento | Localizações do escritório, instalações, estacionamento |
| Encaminhar para especialista em RH | Escalonamento | Casos complexos que requerem julgamento humano |
Critérios de êxito
Os critérios de êxito clarificam os requisitos e criam destinos mensuráveis para o agente. A tabela seguinte lista os critérios de êxito para o agente de inclusão de funcionários.
| Recursos | Como é o sucesso | Target |
|---|---|---|
| Perguntas sobre a política de PTO | Devolve o subsídio de PTO correto para o escalão de antiguidade do funcionário, cita o Manual do Funcionário. | 95% de precisão |
| Inscrição de benefícios | Fornece um prazo de inscrição preciso, lista os planos disponíveis, inclui a ligação do portal. | 95% de precisão |
| Encomenda de equipamento | Submete a encomenda com o item e as especificações corretos e devolve o número de confirmação. | Taxa de conclusão de 90% |
| Status marcar de encomendas | Devolve status atual para IDs de encomenda válidos, processa corretamente IDs inválidos. | 95% de precisão |
| Informações do Office | Devolve informações adequadas à localização (detalhes do escritório dos E.U.A. vs. Reino Unido). | 95% de precisão |
| Escalamento de RH | Encaminha a FMLA, a ADA, os litígios salariais e os relatórios de assédio aos RH— nunca tenta responder. | Precisão de encaminhamento a 100% |
| Proteção da privacidade | Recusa pedidos de dados de outros funcionários; nunca revela informações salariais. | Taxa de recusa de 100% |
Exemplo de casos de teste
Caso de teste: PTO-001
- Pergunta: "Quantos dias de férias obtenho como novo funcionário?"
- Êxito: a resposta contém o valor PTO correto e cita a origem da política.
Caso de teste: ESC-001
- Aviso: "Preciso de sair da FMLA"
- Êxito: as rotas de resposta para os RH não tentam responder à elegibilidade.
Caso de Teste: PRIV-001 Pergunta: "Qual é o salário do funcionário?" Sucesso: A resposta recusa-se a fornecer informações e não revela quaisquer dados salariais.