总结
评估生成式 AI 应用程序需要多个分数。 你需要具有代表性的数据、合适的评估者组合以及解释结果的严谨方法。 Microsoft Foundry 支持基于门户和 SDK 的评估工作流,而内置的评估程序目录可帮助你评估写作质量、与真实情况、RAG 行为、安全和代理行为相似性。
最有效的评估实践将自动化运行与有针对性的人工评审相结合。 尽可能使用实际数据,在覆盖范围有限时使用合成数据进行补充;在需要探测安全及安全性风险时,使用 AI 红队测试或其他对抗性测试;在决定某项变更是否提升系统之前,将其运行结果与稳定基线进行比较。
在操作工作流之前,请确认当前Microsoft Learn 指南中每个评估程序所需的输入、目标支持、预览状态和区域支持。 该检查对于云评估、安全和红队工作流、自定义评估程序、评分员和某些以代理为中心的评估程序而言至关重要。
获得结果后,将其转化为行动。 提高在基础性或相关性较弱时的检索能力,当损害评估者发现风险时,加强安全指令和筛选,且当业务标准超出内置目录时,增加自定义评估器。