Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este artigo responde a perguntas frequentes sobre as capacidades de IA usadas nas funcionalidades de análise no Copilot Studio.
Como a IA generativa é usada para análise?
O Copilot Studio utiliza IA para avaliar a qualidade das respostas generativas e identificar padrões nas consultas dos utilizadores através de clustering. Estes clusters fornecem informações sobre o desempenho dos agentes.
As respostas generativas utilizam fontes de conhecimento que escolhe para gerar uma resposta. A funcionalidade também recolhe quaisquer comentários que forneça. A análise de dados utiliza grandes modelos de linguagem (LLMs) para classificar as mensagens de chat entre utilizadores e agentes em níveis que indicam a qualidade das respostas gerativas. Estas classificações são agregadas para fornecer um resumo do desempenho dos agentes.
O clustering utiliza LLMs para ordenar as mensagens dos utilizadores em grupos com base em assuntos partilhados e fornecer a cada grupo um nome descritivo. O Copilot Studio usa os nomes desses clusters para fornecer diferentes tipos de informações que você pode usar para melhorar seu agente.
Qualidade das respostas para respostas generativas
Qual é o uso pretendido da qualidade da resposta?
Utilize a qualidade da análise de resposta para compreender o desempenho dos agentes e identificar melhorias. Atualmente, pode usar análises para perceber se a qualidade das respostas generativas de um agente corresponde às suas expectativas.
Para além da qualidade global, a análise de qualidade da resposta identifica áreas onde um agente tem um desempenho fraco ou não cumpre os seus objetivos pretendidos. Identifique onde as respostas generativas têm um desempenho fraco e tome medidas para melhorar a sua qualidade.
Ao identificar baixo desempenho, siga as melhores práticas que possam ajudar a melhorar a qualidade. Por exemplo, depois de identificar fontes de conhecimento com baixo desempenho, pode editar a fonte de conhecimento ou dividi-la em múltiplas fontes mais focadas para aumentar a qualidade.
Que dados são usados para criar análises sobre a qualidade da resposta?
A qualidade da análise de resposta baseia-se numa amostra de interações gerativas de resposta . Requer a consulta do utilizador, a resposta do agente e as fontes de conhecimento relevantes que o modelo generativo utiliza para a resposta generativa. A análise de qualidade da resposta usa essa informação para avaliar se a qualidade da resposta generativa é boa e, se não, porque é que a qualidade é fraca. Por exemplo, a qualidade da resposta pode identificar respostas incompletas, irrelevantes ou não totalmente fundamentadas.
Quais são as limitações da qualidade das análises de resposta e como podem os utilizadores minimizar os efeitos dessas limitações?
A análise de qualidade da resposta não utiliza todas as respostas generativas. Em vez disso, a análise mede uma amostra de sessões de utilizador-agente. Agentes com um número de respostas generativas bem-sucedidas inferior ao mínimo não conseguem obter um resumo analítico da qualidade das respostas.
Há casos em que a análise de dados não avalia a resposta individual com precisão. Em um nível agregado, deve ser preciso para a maioria dos casos.
A análise de qualidade das respostas não fornece uma divisão das consultas específicas que levaram a um desempenho de baixa qualidade. Eles também não fornecem um detalhamento de fontes de conhecimento comuns ou tópicos que foram usados quando ocorrem respostas de baixa qualidade.
As análises não são calculadas para respostas que usam conhecimento generativo.
A completude das respostas é uma das métricas usadas para avaliar a qualidade da resposta. Esta métrica mede até que ponto a resposta aborda completamente o conteúdo do documento recuperado.
Se o sistema não recuperar um documento relevante com informação adicional para a pergunta, não avalia a métrica de completude desse documento.
Que proteções existem para a análise de qualidade de resposta no Copilot Studio para IA responsável?
Os utilizadores dos agentes não veem resultados analíticos. Os resultados estão disponíveis apenas aos criadores de agentes e aos administradores.
Os criadores e administradores só podem usar análises de qualidade de resposta para ver a percentagem de respostas de boa qualidade e quaisquer razões pré-definidas para o baixo desempenho. Os resultados são agregados e apresentados em percentagens e categorias pré-definidas.
Testámos análises para a qualidade das respostas de forma minuciosa durante o desenvolvimento, para garantir um bom desempenho. No entanto, em ocorrências raras, a qualidade das avaliações de resposta pode ser imprecisa.
Análise de sentimento para sessões de conversação
Qual é o uso pretendido da análise de sentimento?
Utilize a análise de sentimento para compreender o nível de satisfação do utilizador nas sessões de conversa, com base numa análise de IA das mensagens do utilizador ao agente. Pode compreender o sentimento geral da sessão (positivo, negativo ou neutro), investigar as razões e tomar medidas para o resolver.
Que dados são usados para a análise de sentimento?
A análise de sentimento utiliza mensagens dos utilizadores para o agente numa amostra de sessões conversacionais.
A análise de sentimento utiliza essa informação para avaliar se a satisfação do utilizador durante a sessão é positiva, negativa ou neutra. Por exemplo, um utilizador pode usar palavras e um tom de voz que indicam frustração ou insatisfação com base na interação com o agente. Neste caso, a sessão é classificada como de sentimento negativo.
Quais são as limitações da análise de sentimento e como podem os utilizadores mitigar essas limitações?
As análises de sentimentos não são calculadas através de todas as sessões de conversação. Em vez disso, a análise mede uma amostra de sessões de utilizador-agente. Agentes que não atinjam um número mínimo de respostas generativas bem-sucedidas diárias não podem receber uma pontuação de sentimento.
Atualmente, a análise de sentimento depende de respostas generativas e exige um número mínimo de respostas diárias bem-sucedidas para calcular a pontuação de sentimento do agente.
Para calcular o sentimento de uma sessão, devem existir pelo menos duas mensagens do utilizador. Além disso, devido a restrições técnicas atuais, a análise de sentimento não é realizada em sessões que ultrapassem um total de 26 mensagens (incluindo mensagens tanto do utilizador como do agente)
A análise de sentimento não fornece uma desagregação das mensagens específicas dos utilizadores que levaram à pontuação de sentimento.
Que proteções existem para a análise de sentimento no Copilot Studio para IA responsável?
Os utilizadores dos agentes não veem resultados analíticos. Os resultados estão disponíveis apenas para criadores de agentes e administradores.
Só poderá usar a análise de sentimento para ver a distribuição dos sentimentos em todas as sessões.
Testámos a análise de sentimento minuciosamente durante o desenvolvimento para garantir um bom desempenho. No entanto, em casos raros, as avaliações de sentimento podem ser imprecisas.
Temas das perguntas dos utilizadores
Qual é o uso pretendido dos temas?
Agrupar por temas e a análise ao nível do tema ajudam-no a compreender rapidamente o que os utilizadores estão a perguntar em grande escala. Esta funcionalidade analisa grandes volumes de consultas dos utilizadores e destaca tópicos de alto nível ("temas") que representam os principais temas que interessam aos utilizadores. Esta análise ajuda-o a passar de inspecionar conversas individuais para identificar padrões mais amplos, necessidades emergentes e áreas de interesse.
Ao fornecer uma visão estruturada e orientada por dados da atividade dos utilizadores, a análise ao nível do tema ajuda-o:
Identifique os temas mais comuns com que os utilizadores se envolvem.
Detetar lacunas na cobertura ou experiências pouco claras.
Monitorize como os interesses dos utilizadores evoluem ao longo do tempo.
Prioriza melhorias com base na procura real dos utilizadores.
Como funciona a análise de temas a um nível geral?
Esta funcionalidade funciona como um processo em múltiplas fases que organiza continuamente as consultas dos utilizadores em grupos significativos. A um nível geral, este processo inclui duas fases-chave:
Geração de temas candidatos
O sistema analisa um conjunto recente de consultas dos utilizadores e identifica temas candidatos que representam tópicos de alto nível distintos. O sistema deteta padrões, semelhanças e sujeitos recorrentes entre as consultas para derivar esses candidatos.
Atribuição de consultas a temas
Depois de o sistema gerar temas candidatos, associa consultas individuais ao tema mais relevante. Cada tema representa uma coleção de perguntas relacionadas dos utilizadores e evolui à medida que o sistema processa novas consultas. O sistema refina estes temas ao longo do tempo, utilizando sinais como similaridade semântica e feedback do utilizador. Este processo de refinamento permite que a representação se adapte à medida que o comportamento do utilizador muda.
Que dados são usados para criar temas?
Os utilizadores geram temas a partir de consultas que resultam em respostas gerativas. O processo foca-se numa janela recente de atividade para garantir que os temas refletem os interesses atuais dos utilizadores e as tendências em evolução. À medida que novos dados se tornam disponíveis, o sistema atualiza os temas para os manter relevantes.
Como os Temas dependem de padrões nas consultas dos utilizadores, a funcionalidade depende de ter uma quantidade significativa de atividade para analisar. Em situações onde há poucos dados ou consultas altamente fragmentadas, o sistema pode não gerar temas ou fornecer pouca perspetiva.
Quais são as limitações da análise de temas e como posso mitigá-las?
A análise de temas é um sistema de agrupamento orientado por dados, e a sua eficácia depende da natureza e volume das consultas dos utilizadores. Algumas limitações potenciais incluem:
Dados insuficientes ou altamente diversos podem levar a temas demasiado amplos ou restritos.
Tópicos intimamente relacionados podem por vezes ser divididos em temas separados.
Questões não relacionadas podem ocasionalmente ser agrupadas.
Mudanças na linguagem do utilizador ao longo do tempo podem afetar a consistência dos temas.
Para tirar o máximo proveito dos temas:
Revise regularmente os temas gerados.
Dê feedback (por exemplo: polegar para cima ou para baixo) para melhorar a qualidade.
Interprete os temas como insights direcionais em vez de categorizações exatas.
Que proteções responsáveis de IA existem?
O agrupamento e análise de temas é concebido tendo em mente princípios de IA responsável.
Só os criadores autorizados e administradores conseguem ver os temas.
Só aqueles autorizados a ver as consultas dos utilizadores podem ver a sua divisão em temas.
Os temas refletem o conteúdo das consultas dos utilizadores, fornecendo assim um resumo honesto para os criadores e administradores verem.
Estas salvaguardas ajudam a garantir que a Themes fornece insights úteis, mantendo uma experiência segura e controlada.
Análise de métricas personalizadas
Qual é a utilização pretendida das métricas personalizadas?
Use análises de métricas personalizadas para compreender até que ponto os seus agentes de conversação afetam os resultados do negócio. Estas métricas complementam a análise de poupança. Exemplos de métricas personalizadas incluem taxa de resolução, classificação da intenção do cliente e outros resultados específicos do domínio.
Métricas personalizadas podem mostrar onde os agentes falham os objetivos pretendidos. Definir o que medir, testar métricas com dados reais da sessão e refinar definições com base nos resultados.
Que dados são usados para calcular métricas personalizadas?
Calcule métricas personalizadas usando uma amostra de sessões anteriores com agentes. O cálculo utiliza as mensagens conversacionais trocadas durante uma sessão.
O modelo de IA classifica os dados das sessões com base na definição da tua métrica. O agente agrega os resultados em toda a amostra para mostrar o desempenho global da métrica no período de tempo selecionado.
Quais são as limitações das métricas personalizadas e como podem os utilizadores minimizar os efeitos das limitações?
Métricas personalizadas não usam todas as sessões do agente. Em vez disso, medem uma amostra de sessões do período de tempo selecionado. Como os resultados se baseiam numa amostra, trate-os como indicadores direcionais em vez de números exatos.
Considere que o cálculo da métrica baseia-se na transcrição da mensagem ao interpretar métricas. Evite tirar conclusões sobre comportamentos que ocorrem principalmente fora de mensagens, como tópicos e ferramentas.
O modelo de IA pode classificar mal as sessões. Os resultados agregados são geralmente precisos. As sessões que não correspondem a uma categoria definida são colocadas na categoria de reserva (Outros). Se os resultados dos testes não corresponderem aos esperados, pode atualizar a descrição da métrica e as definições das categorias.
Se alterar significativamente as instruções ou configuração de um agente após definir uma métrica, esta pode deixar de refletir com precisão o comportamento atualizado do agente. Reveja as respetivas métricas personalizadas depois de efetuar alterações substanciais no agente.
Que proteções existem para métricas personalizadas no Copilot Studio para IA responsável?
Só os criadores de agentes e administradores podem aceder aos resultados das métricas personalizadas. Os utilizadores do agente não têm acesso aos resultados analíticos.
Revês e aprovas todas as métricas personalizadas antes de guardar. Durante a definição de métricas, testa-se métricas com dados de amostras de sessões e revê-se resultados individuais e raciocínio de modelos. Se os resultados não corresponderem às expectativas, pode atualizar ou descartar a métrica. As métricas não são aplicadas sem a sua confirmação explícita.
O prompt gerado por IA usado para classificar as sessões é visível para si na interface, para que possa perceber como o modelo interpreta a definição da sua métrica. Pode editar ou remover métricas personalizadas a qualquer momento.
Em raras ocasiões, as classificações individuais das sessões podem ser imprecisas. Os resultados devem ser interpretados em conjunto e não ao nível da sessão individual.