开发期间标记

2025-06-11

作为生成 GenAI 应用程序的开发人员，需要一种方法来跟踪有关应用程序输出质量的观察结果。通过 MLflow 跟踪，可以直接在开发过程中向跟踪添加反馈或期望，从而快速记录质量问题、标记成功示例或添加笔记以供将来参考。

先决条件

应用程序通过 MLflow 跟踪进行检测
通过运行应用程序生成追踪记录

通过 UI 将标签添加到跟踪

使用 MLflow 可以轻松地通过 MLflow UI 将批注（标签）直接添加到跟踪。

注释

如果使用 Databricks Notebook，还可以在笔记本中通过内嵌显示的跟踪 UI 执行这些步骤。

人工反馈

进入 MLflow Experiment UI 中的“Traces”选项卡
打开单个追踪
在跟踪 UI 中，单击要标记的特定范围
- 选择根跨度会将反馈附加到整个追踪
展开最右侧的“评估”选项卡
填写表单以添加反馈
- 评估类型
  - 反馈：质量主观评估（评级、评论）
  - 预期：预期输出或值（应生成的内容）
- 评估名称
  - 反馈内容的唯一名称
- 数据类型
  - 编号
  - 布尔型
  - 字符串
- 价值
  - 你的评估
- 理由
  - 关于值的说明（可选）
单击“ 创建 ”保存标签
返回到“跟踪”选项卡时，标签将显示为新列

通过 SDK 将标签添加到追踪中

可以使用 MLflow 的 SDK 以编程方式向跟踪添加标签。这对于基于应用程序逻辑的自动标记或跟踪的批处理非常有用。

有关一组完整的示例，请参阅日志记录评估概念页。


import mlflow
@mlflow.trace
def my_app(input: str) -> str:
    return input + "_output"

my_app(input="hello")

trace_id = mlflow.get_last_active_trace_id()


# Log a thumbs up/down rating
mlflow.log_feedback(
    trace_id=trace_id,
    name="quality_rating",
    value=1,  # 1 for thumbs up, 0 for thumbs down
    rationale="The response was accurate and helpful",
    source=mlflow.entities.assessment.AssessmentSource(
        source_type=mlflow.entities.assessment.AssessmentSourceType.HUMAN,
        source_id="bob@example.com",
    ),
)

# Log expected response text
mlflow.log_expectation(
    trace_id=trace_id,
    name="expected_response",
    value="The capital of France is Paris.",
    source=mlflow.entities.assessment.AssessmentSource(
        source_type=mlflow.entities.assessment.AssessmentSourceType.HUMAN,
        source_id="bob@example.com",
    ),
)

人工反馈

后续步骤

继续您的旅程，并参考这些推荐的行动和教程。

收集域专家反馈 - 设置结构化标记会话
生成评估数据集 - 使用标记的跟踪创建测试数据集
收集最终用户反馈 - 从已部署的应用程序捕获反馈

参考指南

浏览本指南中提到的概念和功能的详细文档。

日志记录评估 - 深入了解评估类型和使用情况
跟踪数据模型 - 理解评估如何附加到轨迹
标记架构 - 了解结构化反馈收集