你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

生成 AI 中的可观测性

重要

本文中标记了“（预览版）”的项目目前为公共预览版。此预览版未提供服务级别协议，不建议将其用于生产工作负载。某些功能可能不受支持或者受限。有关详细信息，请参阅 Microsoft Azure 预览版补充使用条款。

AI 应用程序生命周期需要可靠的评估框架，以确保 AI 系统提供准确、相关且可靠的输出。如果不进行严格的评估，AI 系统可能会生成不准确、不一致、基础差或可能有害的响应。可观测性使团队能够在整个开发生命周期内衡量和提高 AI 输出的质量和安全性，从模型选择到生产监视。

注释

用于评估和 Foundry 门户的 Microsoft Foundry SDK 以公共预览版提供，但 API 已正式可用于模型和数据集评估（代理评估仍为公共预览版）。本文中标记为（预览版）的评估器目前在所有区域处于公开预览状态。

什么是可观测性？

AI 可观测性是指在整个生命周期内监视、理解和对 AI 系统进行故障排除的能力。团队可以追踪、评估，将自动化质量门禁集成到 CI/CD 管道中，并收集评估指标、日志、追踪和模型输出等信号，以深入了解性能、质量、安全性和操作运行状况。

核心可观测性功能

Microsoft Foundry 提供三项核心功能，共同在 AI 应用程序生命周期内提供全面的可观测性：

Evaluation

评估程序衡量整个开发过程中 AI 响应的质量、安全性和可靠性。 Microsoft Foundry 为通用质量指标（一致性、流畅性）、特定于 RAG 的指标（基础性、相关性）、安全和安全（仇恨/不公平性、暴力、受保护材料）和特定于代理的指标（工具调用准确性、任务完成）提供内置评估程序。 Teams 还可以根据领域的特定需求构建定制的评估程序。

有关内置计算器的完整列表，请参阅内置计算器参考。

监测

生产监视可确保部署的 AI 应用程序在实际条件下保持质量和性能。集成了 Azure Monitor Application Insights，Microsoft Foundry 提供实时仪表板以跟踪运营指标、令牌消耗、延迟、错误率和质量分数。当输出质量阈值失败或产生有害内容时，Teams 可以设置警报，从而快速解决问题。

有关设置生产监视的详细信息，请参阅 “监视代理”仪表板。

追踪

分布式跟踪捕获 AI 应用程序的执行流，提供 LLM 调用、工具调用、代理决策和服务间依赖项的可见性。基于 OpenTelemetry 标准并与 Application Insights 集成，跟踪支持调试复杂的代理行为、识别性能瓶颈以及了解多步骤推理链。 Microsoft Foundry 支持对流行框架进行跟踪，包括 LangChain、Semantic Kernel 和 OpenAI Agents SDK。

有关实现跟踪的指导，请参阅跟踪应用程序和使用 Agents SDK 跟踪。

什么是评估者？

评估器是用于衡量整个开发生命周期中 AI 响应的质量、安全性和可靠性的专用工具。

有关内置计算器的完整列表，请参阅内置计算器参考。

评估器集成到 AI 生命周期的每个阶段，以确保可靠性、安全性和有效性。

AI 应用程序生命周期评估的三个阶段

基础模型选择

通过比较不同模型的质量、任务性能、道德注意事项和安全配置文件来选择正确的基础模型。

可用工具： Microsoft Foundry 基准，用于比较公共数据集或自己的数据上的模型，以及用于测试特定模型终结点的 Azure AI 评估 SDK。

生产前评估

在部署之前，彻底的测试可确保 AI 代理或应用程序已准备好生产。此阶段通过评估数据集验证性能、标识边缘事例、评估可靠性，并衡量关键指标，包括任务遵循性、基础性、相关性和安全性。若要构建支持多轮次对话、工具调用和状态管理的生产就绪代理，请参阅 Foundry 代理服务。

评估工具和方法：

自带数据：使用自己的数据并通过质量、安全性或自定义评估器来评估 AI 应用程序。使用 Foundry 门户评估向导或 Foundry SDK ，并在 Foundry 门户中查看结果。
AI 红色组合代理： AI 红色组合代理使用 Microsoft 的 PyRIT 框架模拟复杂的攻击，以在部署之前识别安全和安全漏洞。最适合用于人机循环进程。

生产后监视

部署后，持续监视可确保 AI 应用程序在实际条件下保持质量：

运营指标：定期测量关键 AI 代理运营指标
持续评估：以采样率对生产流量的质量和安全评估
计划评估：使用测试数据集检测系统偏移的计划质量和安全评估
定期红队演习：对安全及保护漏洞进行定期检测的对抗测试
Azure Monitor 警报：当输出未达到质量阈值或生成有害内容时通知

Foundry Observability 仪表板与 Azure Monitor Application Insights 集成，提供对性能、安全性和质量指标的实时见解，实现快速问题解决和维护用户信任。

评估速查表

目的	流程	参数、指南和示例
如何设置跟踪？	配置分布式跟踪	跟踪概述使用代理 SDK 进行跟踪
你的评估目的是什么？	确定或构建相关的评估器	内置计算器自定义评估器 Python SDK 示例 C# SDK 示例
应使用哪些数据？	上传或生成相关的数据集	选择或创建数据集
如何运行评估过程？	运行评估	代理运行评估远程云运行
我的模型/AI 应用程序如何执行？	分析结果	查看评估结果群集分析
如何做出改进？	分析结果并优化代理	使用群集分析分析评估失败。优化代理并重新评估。查看评估结果。

区域支持、速率限制和虚拟网络支持

若要了解哪些区域支持 AI 辅助评估程序、适用于评估运行的速率限制，以及如何为网络隔离配置虚拟网络支持，请参阅区域支持、速率限制和虚拟网络支持进行评估。

Pricing

可观测性功能，如风险和安全评估以及代理环境中的评估，是基于Azure 定价页中所列的使用量计费。

重要

默认情况下，代理环境中的评估会为所有 Foundry 项目启用，并包含在按消耗计费中。要关闭操场评估，请在智能体操场右上角选择指标，并取消选择所有评估程序。

反馈

此页面是否有帮助？

Last updated on 2026-02-28