评审应用是基于 Web 的 UI,旨在从域专家那里收集结构化反馈,而无需他们编写代码。 使用它来收集见解,以改进 GenAI 应用的质量,并将 LLM 法官与业务需求保持一致。
使用“审阅应用”的两种方法
标记现有轨迹
使用此方法可以:
- 了解特定查询的高质量正确响应
- 收集输入信息,使 LLM 评估者与您的业务需求对齐
- 从生产跟踪创建评估数据集
Vibe 检查预生产应用
若要使用 vibe 检查模式,必须部署应用程序
请专家与已部署的应用进行交流,并实时提供对应用响应的反馈。
使用此方法可以:
- 在部署之前获取有关新应用版本的快速反馈
- 测试应用行为而不影响生产环境
- 使用域专家验证改进
模式比较
方面 | 标记现有跟踪 | Vibe 检查模式 |
---|---|---|
输入源 | 现有痕迹 | 域专家输入查询 |
输出源 | 现有痕迹 | 实时代理终结点响应 |
自定义标记架构 | ✅ 是 - 定义自定义问题和条件 | ❌ 否 - 使用固定反馈问题 |
存储在 中的结果 | MLflow 记录(在标记会话内) | MLflow 跟踪 |
先决条件
安装 MLflow 和所需包
pip install --upgrade "mlflow[databricks]>=3.1.0" openai "databricks-connect>=16.1"
请按照 设置环境快速指南 创建 MLflow 试验。
仅适用于氛围检查模式:使用Agent Framework的已部署代理终结点
1.标记现有轨迹
标注现有跟踪可收集您已从生产及开发中捕获的跟踪及其结构化反馈。 这非常适合用于生成评估数据集、了解质量模式和训练自定义 LLM 法官。
此过程涉及创建标记会话、定义所需的反馈、添加要评审的数据以及与领域专家共享。 有关完整的分步说明,请参阅 “标记现有跟踪”。
有关标记会话、架构和配置选项的详细信息,请参阅 标记会话 和 标记架构。
2. Vibe 检查模式
使用代理框架打包应用 , 并使用 Agent Framework 作为模型服务终结点进行部署。
将端点添加到实验的审查应用程序中:
注释
以下示例将 Databricks 托管 LLM 添加到评审应用。 将终结点替换为步骤 1 中的应用终结点。
from mlflow.genai.labeling import get_review_app # Get review app for current MLflow experiment review_app = get_review_app() # Connect your deployed agent endpoint review_app.add_agent( agent_name="claude-sonnet", model_serving_endpoint="databricks-claude-3-7-sonnet", ) print(f"Share this URL: {review_app.url}/chat")
域专家现在可以与应用聊天并提供即时反馈。
权限模型
用于标记现有痕迹
领域专家需要:
- 帐户访问权限:必须在 Databricks 帐户中预配,但不需要访问工作区
- 试验访问权限:对 MLflow 试验的 写入 权限
对于氛围检查模式
领域专家需要:
- 帐户访问权限:必须在 Databricks 帐户中预配,但不需要访问工作区
- 终结点访问: CAN_QUERY 模型服务终结点的权限
设置帐户访问权限
对于没有工作区访问权限的用户,帐户管理员可以:
- 使用帐户级 SCIM 预配从标识提供者同步用户
- 在 Databricks 中手动注册用户和组
有关详细信息,请参阅 用户和组管理 。
内容呈现
“审阅应用”会自动呈现 MLflow 跟踪中的不同内容类型:
-
检索的文档:在
RETRIEVER
范围内的文档被呈现用以显示 -
OpenAI 格式消息:呈现如下 OpenAI 聊天对话的 MLflow 跟踪的输入和输出:
-
outputs
包含 OpenAI 格式 ChatCompletions 对象的 -
inputs
和outputs
字典,它们包含一个带有messages
- 如果数组
messages
包含 OpenAI 格式工具调用,则它们也会被呈现。
- 如果数组
-
- 字典:MLflow 跟踪的输入和输出中的字典对象被呈现为美化打印的 JSON。
否则,每个追踪的根跨度中的 input
和 output
的内容将用作主要内容进行审阅。
访问反馈数据
专家提供反馈后,标签将存储在实验中的 MLflow 跟踪中。 使用“ 跟踪 ”选项卡或“ 标记会话 ”选项卡查看数据。