Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo responde a perguntas frequentes sobre os recursos de IA usados em recursos de análise em Copilot Studio.
Como a IA gerativa é usada para análise?
Copilot Studio usa IA para avaliar a qualidade das respostas generativas e identificar padrões em consultas de usuário por meio do clustering. Esses clusters fornecem insights sobre o desempenho do agente.
As respostas generativas usam fontes de conhecimento que você escolhe para gerar uma resposta. O recurso também coleta quaisquer comentários que você forneça. A análise usa LLMs (grandes modelos de linguagem) para classificar as mensagens de chat entre usuários e agentes em níveis que indicam a qualidade das respostas geradas. Essas classificações são agregadas para fornecer um resumo do desempenho do agente.
O clustering utiliza LLMs para classificar as mensagens dos usuários em grupos, com base em assuntos compartilhados e fornecer a cada grupo um nome descritivo. O Copilot Studio usa os nomes desses clusters para fornecer diferentes tipos de insights que você pode usar para melhorar seu agente.
Qualidade das respostas para soluções gerativas
Qual é o uso pretendido da qualidade da resposta?
Use a qualidade da análise de resposta para entender o desempenho do agente e identificar melhorias. Atualmente, você pode usar a análise para entender se a qualidade das respostas generativas de um agente atende às suas expectativas.
Além da qualidade geral, a qualidade da análise de resposta identifica áreas em que um agente tem um desempenho ruim ou falha ao executar suas metas pretendidas. Identifique onde as respostas generativas têm um desempenho ruim e execute medidas para melhorar sua qualidade.
Ao identificar um desempenho ruim, siga as práticas recomendadas que podem ajudar a melhorar a qualidade. Por exemplo, depois de identificar fontes de conhecimento com baixo desempenho, você pode editar a fonte de conhecimento ou dividir a fonte de conhecimento em várias fontes mais focadas para aumentar a qualidade.
Quais dados são usados para criar análises de qualidade de resposta?
A qualidade da análise de resposta baseia-se em uma amostra de interações de respostas generativas . Ele requer a consulta do usuário, a resposta do agente e as fontes de conhecimento relevantes que o modelo generativo usa para a resposta generativa. A qualidade da análise de resposta usa essas informações para avaliar se a qualidade da resposta gerativa é boa e, se não, por que a qualidade é ruim. Por exemplo, a qualidade da resposta pode identificar respostas incompletas, irrelevantes ou não totalmente fundamentadas.
Quais são as limitações da qualidade da análise de resposta e como os usuários podem minimizar os efeitos dessas limitações?
A análise de qualidade de resposta não utiliza todas as respostas geradas. Em vez disso, a análise mede uma amostra de sessões de usuário-agente. Agentes com menos que o número mínimo de respostas geradas bem-sucedidas não podem receber um resumo analítico da qualidade das respostas.
Há casos em que a análise não avalia a resposta individual com precisão. Em um nível agregado, ela deve ser precisa na maioria dos casos.
A análise de qualidade das respostas não fornece uma divisão das consultas específicas que levaram ao baixo desempenho de qualidade. Elas também não fornecem um detalhamento das fontes de conhecimento comum ou dos tópicos usados quando ocorrem respostas de baixa qualidade.
As análises não são calculadas para respostas que usam conhecimento generativo.
A completude das respostas é uma das métricas usadas para avaliar a qualidade da resposta. Essa métrica mede o quão completa a resposta aborda o conteúdo do documento recuperado.
Se o sistema não recuperar um documento relevante com informações adicionais para a pergunta, ele não avalia a métrica de completude para esse documento.
Quais proteções estão em vigor para a qualidade da análise de resposta no Copilot Studio para IA responsável?
Os usuários de agentes não veem resultados de análise. Os resultados estão disponíveis somente para criadores de agentes e administradores.
Criadores e administradores só podem usar análises de qualidade de resposta para ver a porcentagem de respostas de qualidade e quaisquer motivos pré-definidos para o baixo desempenho. Os resultados são agregados e apresentados como porcentagens e categorias predefinidas.
Testamos análises para a qualidade das respostas de forma detalhada durante o desenvolvimento para garantir um bom desempenho. No entanto, em ocorrências raras, a qualidade das avaliações de resposta pode ser imprecisa.
Análise de sentimento para sessões de conversação
Qual é o uso pretendido da análise de sentimento?
Use a análise de sentimento para entender o nível de satisfação do usuário em sessões de conversa com base em uma análise de IA de mensagens de usuário para o agente. Você pode entender o sentimento geral da sessão (positivo, negativo ou neutro), investigar os motivos e tomar medidas para resolvê-la.
Quais dados são usados para análise de sentimento?
A análise de sentimento usa mensagens dos usuários enviadas ao agente em um conjunto de amostra de sessões de conversação.
A análise de sentimento usa essas informações para avaliar se a satisfação do usuário durante a sessão é positiva, negativa ou neutra. Por exemplo, um usuário pode usar palavras e um tom de voz que indicam frustração ou insatisfação com base na interação com o agente. Nesse caso, a sessão é classificada como de sentimento negativo.
Quais são as limitações da análise de sentimento e como os usuários podem mitigar essas limitações?
As análises de sentimento não são calculadas usando todas as sessões de conversa. Em vez disso, a análise mede uma amostra de sessões de usuário-agente. Os agentes abaixo de um número mínimo de respostas generativas bem-sucedidas diariamente não podem receber uma pontuação de sentimento.
A análise de sentimento atualmente depende de respostas generativas e exige um número mínimo de respostas bem-sucedidas diariamente para calcular a pontuação de sentimento do agente.
Para calcular o sentimento de uma sessão, deve haver pelo menos duas mensagens de usuário. Além disso, devido às restrições técnicas atuais, a análise de sentimento não é realizada em sessões que excedam um total de 26 mensagens (incluindo mensagens tanto de usuários quanto de agentes)
A análise de sentimento não detalha as mensagens específicas dos usuários que resultaram na pontuação de sentimento.
Quais proteções estão em vigor para análise de sentimento no Copilot Studio para IA responsável?
Os usuários de agentes não veem resultados de análise. Os resultados estão disponíveis somente para criadores de agentes e administradores.
Você só pode usar a análise de sentimento para ver a divisão do sentimento em todas as sessões.
Testamos a análise de sentimento minuciosamente durante o desenvolvimento para garantir um bom desempenho. No entanto, em ocorrências raras, avaliações de sentimento podem ser imprecisas.
Temas das perguntas de usuário
Qual é o uso pretendido de temas?
O clustering por temas e a análise em nível de tema ajudam você a entender rapidamente o que os usuários estão perguntando em escala. Esse recurso analisa grandes volumes de consultas de usuário e apresenta tópicos de alto nível ("temas") que representam os principais assuntos que os usuários se preocupam. Essa análise ajuda você a passar da inspeção de conversas individuais para identificar padrões mais amplos, necessidades emergentes e áreas de interesse.
Ao fornecer uma visão geral estruturada e controlada por dados da atividade do usuário, a análise no nível do tema ajuda você a:
Identifique os tópicos mais comuns com os quais os usuários se envolvem.
Detectar lacunas na cobertura ou experiências não claras.
Monitore como os interesses do usuário evoluem ao longo do tempo.
Priorize melhorias com base na demanda real do usuário.
Como a análise de tema funciona em um alto nível?
Esse recurso opera como um processo de vários estágios que organiza continuamente consultas de usuário em grupos significativos. Em um alto nível, esse processo inclui duas fases principais:
Geração de temas candidatos
O sistema analisa um conjunto recente de consultas de usuário e identifica temas candidatos que representam tópicos distintos de alto nível. O sistema detecta padrões, semelhanças e assuntos recorrentes entre consultas para derivar esses candidatos.
Atribuição da consulta aos temas
Depois que o sistema gera temas candidatos, ele associa consultas individuais ao tema mais relevante. Cada tema representa uma coleção de perguntas de usuário relacionadas e evolui à medida que o sistema processa novas consultas. O sistema refina esses temas ao longo do tempo usando sinais como similaridade semântica e comentários do usuário. Esse processo de refinamento permite que a representação se adapte à medida que o comportamento do usuário muda.
Quais dados são usados para criar temas?
Os usuários geram temas de consultas que resultam em respostas generativas. O processo se concentra em uma janela de atividade recente para garantir que os temas reflitam os interesses atuais do usuário e as tendências em evolução. À medida que novos dados ficam disponíveis, o sistema atualiza temas para mantê-los relevantes.
Como Os Temas se baseiam em padrões em consultas de usuário, o recurso depende de ter uma quantidade significativa de atividade a ser analisada. Em situações em que há dados limitados ou consultas altamente fragmentadas, o sistema pode não gerar temas ou fornecer insights limitados.
Quais são as limitações da análise de tema e como posso atenuá-las?
A análise de tema é um sistema de clustering controlado por dados e sua eficácia depende da natureza e do volume de consultas de usuário. Algumas possíveis limitações incluem:
Dados insuficientes ou altamente diversos podem levar a temas muito amplos ou estreitos.
Tópicos intimamente relacionados às vezes podem ser divididos em temas separados.
Consultas não relacionadas podem ocasionalmente ser agrupadas.
Alterações no idioma do usuário ao longo do tempo podem afetar a consistência dos temas.
Para obter o maior valor de temas:
Revise regularmente os temas gerados.
Forneça comentários (por exemplo: polegares para cima ou para baixo) para melhorar a qualidade.
Interprete temas como insights direcionais em vez de categorizações exatas.
Quais proteções de IA responsáveis estão em vigor?
O agrupamento e a análise de temas foram projetados com os princípios de IA responsável em mente.
Os criadores e administradores autorizados são os únicos que podem ver temas.
Somente aqueles autorizados a ver as consultas de usuário podem ver sua divisão em temas.
Os temas refletem o conteúdo das consultas de usuário, portanto, eles fornecem um resumo honesto para os criadores e administradores verem.
Essas salvaguardas ajudam a garantir que os Temas forneçam insights úteis, mantendo uma experiência segura e controlada.
Análise de métricas personalizadas
Qual é o uso pretendido de métricas personalizadas?
Use a análise de métricas personalizadas para entender o quanto seus agentes de conversa afetam os resultados dos negócios. Essas métricas complementam as análises de economia. Exemplos de métricas personalizadas incluem taxa de resolução, classificação de intenção do cliente e outros resultados específicos do domínio.
As métricas personalizadas podem mostrar onde os agentes perdem as metas pretendidas. Defina o que medir, testar métricas em relação a dados reais da sessão e refinar definições com base nos resultados.
Quais dados são usados para calcular métricas personalizadas?
Calcule as métricas personalizadas usando uma amostra de sessões de agente anteriores. O cálculo usa as mensagens de conversa trocadas durante uma sessão.
O modelo de IA classifica os dados da sessão com base em sua definição de métrica. O agente agrega resultados em toda a amostra para mostrar o desempenho geral da métrica no período selecionado.
Quais são as limitações das métricas personalizadas e como os usuários podem minimizar os efeitos das limitações?
As métricas personalizadas não usam todas as sessões de agente. Em vez disso, eles medem uma amostra de sessões do período de tempo selecionado. Como os resultados são baseados em um exemplo, trate-os como indicadores direcionais em vez de números exatos.
Considere que o cálculo de métrica é baseado na transcrição de mensagens ao interpretar as métricas. Evite tirar conclusões sobre comportamentos que ocorrem principalmente fora de mensagens, como tópicos e ferramentas.
O modelo de IA pode classificar mal as sessões. Os resultados de agregação geralmente são precisos. As sessões que não correspondem a uma categoria definida são colocadas na categoria fallback (Outros). Se os resultados do teste não corresponderem aos resultados esperados, você poderá atualizar a descrição da métrica e as definições de categoria.
Se você alterar significativamente as instruções ou a configuração de um agente depois de definir uma métrica, a métrica poderá não refletir com precisão o comportamento atualizado do agente. Revise suas métricas personalizadas após fazer alterações significativas no agente.
Quais proteções estão em vigor para métricas personalizadas em Copilot Studio para IA responsável?
Os criadores e administradores de agentes são os únicos que podem acessar os resultados das métricas personalizadas. Os usuários do agente não têm acesso aos resultados da análise.
Examine e aprove todas as métricas personalizadas antes de salvar. Durante a definição de métrica, você testa as métricas em relação aos dados de sessão de exemplo e analisa os resultados individuais e o raciocínio do modelo. Se os resultados não atenderem às expectativas, você poderá atualizar ou descartar a métrica. As métricas não são aplicadas sem sua confirmação explícita.
O prompt gerado por IA usado para classificar sessões é visível para você na interface do usuário, para que você possa entender como o modelo interpreta sua definição de métrica. Você pode editar ou remover métricas personalizadas a qualquer momento.
Em raras ocasiões, as classificações de sessão individuais podem ser imprecisas. Os resultados devem ser interpretados na agregação e não no nível de sessão individual.