查看应用

2025-06-11

评审应用是基于 Web 的 UI，旨在从域专家那里收集结构化反馈，而无需他们编写代码。使用它来收集见解，以改进 GenAI 应用的质量，并将 LLM 法官与业务需求保持一致。

“评审应用”预览主图。

使用“审阅应用”的两种方法

标记现有轨迹

请专家评审与应用的现有交互，以提供反馈和期望。

使用此方法可以：

了解特定查询的高质量正确响应
收集输入信息，使 LLM 评估者与您的业务需求对齐
从生产跟踪创建评估数据集

Vibe 检查预生产应用

若要使用 vibe 检查模式，必须部署应用程序

请专家与已部署的应用进行交流，并实时提供对应用响应的反馈。

使用此方法可以：

在部署之前获取有关新应用版本的快速反馈
测试应用行为而不影响生产环境
使用域专家验证改进

模式比较

方面	标记现有跟踪	Vibe 检查模式
输入源	现有痕迹	域专家输入查询
输出源	现有痕迹	实时代理终结点响应
自定义标记架构	✅ 是 - 定义自定义问题和条件	❌ 否 - 使用固定反馈问题
存储在中的结果	MLflow 记录（在标记会话内）	MLflow 跟踪

先决条件

安装 MLflow 和所需包

pip install --upgrade "mlflow[databricks]>=3.1.0" openai "databricks-connect>=16.1"

请按照设置环境快速指南创建 MLflow 试验。
仅适用于氛围检查模式：使用Agent Framework的已部署代理终结点

1.标记现有轨迹

标注现有跟踪可收集您已从生产及开发中捕获的跟踪及其结构化反馈。这非常适合用于生成评估数据集、了解质量模式和训练自定义 LLM 法官。

此过程涉及创建标记会话、定义所需的反馈、添加要评审的数据以及与领域专家共享。有关完整的分步说明，请参阅 “标记现有跟踪”。

有关标记会话、架构和配置选项的详细信息，请参阅标记会话和标记架构。

2. Vibe 检查模式

使用代理框架打包应用，并使用 Agent Framework 作为模型服务终结点进行部署。

将端点添加到实验的审查应用程序中：

注释

以下示例将 Databricks 托管 LLM 添加到评审应用。将终结点替换为步骤 1 中的应用终结点。

from mlflow.genai.labeling import get_review_app

# Get review app for current MLflow experiment
review_app = get_review_app()

# Connect your deployed agent endpoint
review_app.add_agent(
    agent_name="claude-sonnet",
    model_serving_endpoint="databricks-claude-3-7-sonnet",
)

print(f"Share this URL: {review_app.url}/chat")

域专家现在可以与应用聊天并提供即时反馈。

权限模型

用于标记现有痕迹

领域专家需要：

帐户访问权限：必须在 Databricks 帐户中预配，但不需要访问工作区
试验访问权限：对 MLflow 试验的写入权限

对于氛围检查模式

领域专家需要：

帐户访问权限：必须在 Databricks 帐户中预配，但不需要访问工作区
终结点访问： CAN_QUERY 模型服务终结点的权限

设置帐户访问权限

对于没有工作区访问权限的用户，帐户管理员可以：

使用帐户级 SCIM 预配从标识提供者同步用户
在 Databricks 中手动注册用户和组

有关详细信息，请参阅用户和组管理。

内容呈现

“审阅应用”会自动呈现 MLflow 跟踪中的不同内容类型：

检索的文档：在RETRIEVER范围内的文档被呈现用以显示
OpenAI 格式消息：呈现如下 OpenAI 聊天对话的 MLflow 跟踪的输入和输出：
- outputs 包含 OpenAI 格式 ChatCompletions 对象的
- inputs 和 outputs 字典，它们包含一个带有 messages
  - 如果数组messages包含 OpenAI 格式工具调用，则它们也会被呈现。
字典：MLflow 跟踪的输入和输出中的字典对象被呈现为美化打印的 JSON。

否则，每个追踪的根跨度中的 input 和 output 的内容将用作主要内容进行审阅。

访问反馈数据

专家提供反馈后，标签将存储在实验中的 MLflow 跟踪中。使用“ 跟踪 ”选项卡或“ 标记会话 ”选项卡查看数据。

后续步骤

标记已有轨迹 - 收集结构化专家反馈的分步指南
实时应用测试 - 为预生产测试设置氛围检查模式
生成评估数据集 - 将专家反馈转换为评估数据集