总结

评估生成式 AI 应用程序需要多个分数。你需要具有代表性的数据、合适的评估者组合以及解释结果的严谨方法。 Microsoft Foundry 支持基于门户和 SDK 的评估工作流，而内置的评估程序目录可帮助你评估写作质量、与真实情况、RAG 行为、安全和代理行为相似性。

最有效的评估实践将自动化运行与有针对性的人工评审相结合。尽可能使用实际数据，在覆盖范围有限时使用合成数据进行补充；在需要探测安全及安全性风险时，使用 AI 红队测试或其他对抗性测试；在决定某项变更是否提升系统之前，将其运行结果与稳定基线进行比较。

在操作工作流之前，请确认当前Microsoft Learn 指南中每个评估程序所需的输入、目标支持、预览状态和区域支持。该检查对于云评估、安全和红队工作流、自定义评估程序、评分员和某些以代理为中心的评估程序而言至关重要。

获得结果后，将其转化为行动。提高在基础性或相关性较弱时的检索能力，当损害评估者发现风险时，加强安全指令和筛选，且当业务标准超出内置目录时，增加自定义评估器。

反馈

此页面是否有帮助？