这些常见问题(常见问题解答)描述了Copilot Studio中分析帮助功能的 AI 效果。
生成式 AI 如何用于分析?
Copilot Studio使用 AI 来衡量生成答案响应的质量并创建群集。 这些群集提供有关代理性能的见解。
生成答案 以你选择的知识源来生成响应。 此功能还会收集您提供的任何反馈。 分析使用大型语言模型(LLM)将用户和代理之间的聊天消息分类为指示生成答案响应质量的级别。 Copilot Studio编译这些指标,以便总结代理的整体性能。
聚类使用LLM对用户消息进行分组,这些分组基于共享的主题,并为每个组提供一个描述性的名称。 Copilot Studio使用这些群集的名称来提供可用于改进代理的不同类型的见解。
生成式答案的响应质量
预期使用的响应质量是什么?
使用响应分析的质量来发现有关代理使用情况和性能的见解,然后制定改进代理的措施。 目前,可以使用分析来了解代理的生成答案的质量是否符合预期。
除了整体质量之外,响应分析的质量还确定代理执行不佳或无法执行预期目标的区域。 可以定义生成答案表现不佳并采取措施提高其质量的区域。
确定性能不佳时,请遵循有助于提高质量的最佳做法。 例如,识别性能不佳的知识源后,可以编辑知识源或将知识源拆分为多个更集中的源以提高质量。
哪些数据用于为响应质量创建分析?
响应分析的质量是使用 生成性答案 响应的示例计算的。 它需要用户查询、智能体响应以及生成式模型用于生成式答案的相关知识源。
响应分析的质量使用该信息来评估生成答案质量是否良好,如果不是,则质量不佳的原因。 例如,响应质量可以识别不完整、无关或不完全可靠的响应。
响应分析质量的限制是什么,用户如何最大限度地减少这些限制的影响?
响应分析的质量不包括所有生成的响应。 分析会度量用户-智能体会话的示例。 生成答案少于最低要求的代理无法收到关于响应质量的分析摘要。
在某些情况下,分析不会准确评估单个响应。 在聚合层面,它在大多数情况下应该是准确的。
响应质量分析无法细分导致低质量性能的具体查询。 它们也不会提供在产生低质量响应时所使用的常见知识来源或主题的明细。
对于使用生成式知识的答案,不会计算分析。
答案完整性是评估回答质量的指标之一。 该指标衡量回答对检索文档内容的全面处理程度。
如果系统没有检索到带有问题额外信息的相关文档,它就不会评估该文档的完整性指标。
在面向负责 AI 的 Copilot Studio 中,针对响应分析质量的保护措施有哪些?
用户代理的用户看不到分析结果;它们仅对代理制作者和管理员可见。
制作者和管理员只能使用响应分析的质量来查看良好质量响应的百分比以及表现不佳的任何预定义原因。 制作者只能查看良好质量的回复百分比和预定义的原因。
我们在开发期间对响应质量进行了全面测试,以确保表现良好。 然而,在极少数情况下,反应质量评估可能不准确。
会话中的情感分析
情感分析的预期用途是什么?
使用会话中的情绪分析,通过 AI 对用户消息的分析来了解用户的满意度水平。 你可以了解会话的整体情绪(积极、消极或中立),调查原因,并采取措施解决。
在会话中,使用哪些数据来定义情绪?
Copilot Studio根据用户发送给代理的消息,为一组对话会话样本计算情绪分析。
情感分析利用这些信息评估用户在会话中的满意度是积极、负面还是中性。 例如,用户可以使用表明在与服务代理互动中感到挫败或不满的词语和语气。 在这种情况下,该会话会归类为负面情绪。
情感分析有哪些局限性?用户如何缓解这些限制?
情感分析并不是用所有会话来计算的。 分析会度量用户-智能体会话的示例。 每日成功生成答案数低于最低数量的客服无法获得情感评分。
情感分析当前依赖于生成性回答,并且需要每天有至少一定数量的成功回答才能计算代理的情感得分。
要计算会话的情感分析,至少需要有两条用户消息。 此外,由于当前的技术限制,情感分析不会对总共超过26条消息(包括用户和代理消息)的会话进行
情感分析无法详细分析导致情绪评分的具体用户信息。
Copilot Studio对负责任的 AI 进行情绪分析,有哪些保护?
用户代理的用户看不到分析结果;它们仅对代理制作者和管理员可见。
您只能使用情感分析查看所有会话中的情感分布。
我们在开发过程中进行了彻底的情感分析测试,以确保良好的性能。 然而,在极少数情况下,情绪评估可能不准确。
用户问题的主题
主题功能的用途是什么?
该功能自动分析大量用户查询,并将它们归类为称为主题的高级话题。 每个主题代表用户咨询的单一核心议题。 主题功能提供无监督的数据驱动型用户内容视图。 该视图帮助团队洞察用户核心关注点,省去人工审核海量查询的繁琐步骤。
聚类生成基于哪些数据?
主题功能利用用户的查询来触发生成式回答。 主题功能分析过去七天内所有查询以生成新的建议主题。
主题通过语义相似性对查询进行分组。 随后运用语言模型为每个聚类生成标题和描述。 同时收集创作者反馈(如点赞/点踩)以提升聚类质量。
主题聚类的局限性及用户应对策略
聚类成功率取决于查询量。 如果查询不够或查询彼此不相关,Copilot Studio可能会将查询聚集到过于宽泛或过于窄的主题中。
主题偶尔会拆分相似话题或合并无关主题。
查询语言的变动可能影响聚类结果的长期一致性。
你可以定期查看主题并提供反馈以提高命名质量。
在 Copilot Studio 中,针对负责任 AI 的主题都有哪些保护措施?
主题仅对创作者和管理员可见。 生成名称和描述时会应用内容审核机制,以降低有害或不当输出的风险。
自定义指标分析
自定义指标的预期用途是什么?
创建者使用自定义指标分析来了解其聊天代理对业务成果的影响。 这些指标补充了节省分析。 自定义指标的示例包括解决率、客户意向分类和其他特定于域的结果。
自定义指标可以显示代理错过预期目标的位置。 创建者可以定义要度量的内容、针对实际会话数据测试指标,并根据结果优化定义。
哪些数据用于计算自定义指标?
自定义指标是使用过去代理会话的示例计算的。 计算使用会话期间交换的对话消息。
AI 模型根据指标定义对会话数据进行分类。 代理聚合整个示例的结果,以显示所选时间段的总体指标性能。
自定义指标的限制是什么,用户如何最大程度地减少限制的影响?
不会使用所有代理会话计算自定义指标。 相反,它们测量所选时间段中的会话示例。 由于结果基于样本,因此应将其视为方向指示器,而不是确切的数字。
在解释指标时,应考虑指标计算基于消息脚本。 避免得出主要发生在消息外部的行为的结论,例如主题和工具。
AI 模型可能会错误分类会话。 聚合结果通常准确。 与定义的类别不匹配的会话放置在回退(其他)类别中。 如果测试结果与预期结果不匹配,可以更新指标说明和类别定义。
如果在定义指标后代理的说明或配置发生了显著更改,则指标可能不再准确反映代理的更新行为。 对代理进行实质性更改后,应查看其自定义指标。
在 Copilot Studio 中,为负责任的 AI 设计的自定义指标提供了哪些保护措施?
自定义指标结果仅适用于代理制造商和管理员。 代理的用户无权访问分析结果。
在保存之前查看和批准所有自定义指标。 在指标定义期间,针对示例会话数据测试指标,并查看单个结果和模型推理。 如果结果不符合预期,可以更新或放弃指标。 如果不进行显式确认,则不会应用指标。
用于对会话进行分类的 AI 生成的提示在 UI 中可见,因此你可以了解模型如何解释指标定义。 可以随时编辑或删除自定义指标。
在极少数情况下,单个会话分类可能不准确。 应对结果进行整体解释,而非单个会话级别的解释。