开发期间标记

作为生成 GenAI 应用程序的开发人员,需要一种方法来跟踪有关应用程序输出质量的观察结果。 通过 MLflow 跟踪 ,可以直接在开发过程中向跟踪添加反馈或期望,从而快速记录质量问题、标记成功示例或添加笔记以供将来参考。

先决条件

  • 应用程序通过 MLflow 跟踪进行检测
  • 通过运行应用程序生成追踪记录

通过 UI 将标签添加到跟踪

使用 MLflow 可以轻松地通过 MLflow UI 将批注(标签)直接添加到跟踪。

注释

如果使用 Databricks Notebook,还可以在笔记本中通过内嵌显示的跟踪 UI 执行这些步骤。

人工反馈

  1. 进入 MLflow Experiment UI 中的“Traces”选项卡
  2. 打开单个追踪
  3. 在跟踪 UI 中,单击要标记的特定范围
    • 选择根跨度会将反馈附加到整个追踪
  4. 展开最右侧的“评估”选项卡
  5. 填写表单以添加反馈
    • 评估类型
      • 反馈:质量主观评估(评级、评论)
      • 预期:预期输出或值(应生成的内容)
    • 评估名称
      • 反馈内容的唯一名称
    • 数据类型
      • 编号
      • 布尔型
      • 字符串
    • 价值
      • 你的评估
    • 理由
      • 关于值的说明(可选)
  6. 单击“ 创建 ”保存标签
  7. 返回到“跟踪”选项卡时,标签将显示为新列

通过 SDK 将标签添加到追踪中

可以使用 MLflow 的 SDK 以编程方式向跟踪添加标签。 这对于基于应用程序逻辑的自动标记或跟踪的批处理非常有用。

有关一组完整的示例,请参阅 日志记录评估概念 页。


import mlflow
@mlflow.trace
def my_app(input: str) -> str:
    return input + "_output"

my_app(input="hello")

trace_id = mlflow.get_last_active_trace_id()


# Log a thumbs up/down rating
mlflow.log_feedback(
    trace_id=trace_id,
    name="quality_rating",
    value=1,  # 1 for thumbs up, 0 for thumbs down
    rationale="The response was accurate and helpful",
    source=mlflow.entities.assessment.AssessmentSource(
        source_type=mlflow.entities.assessment.AssessmentSourceType.HUMAN,
        source_id="bob@example.com",
    ),
)

# Log expected response text
mlflow.log_expectation(
    trace_id=trace_id,
    name="expected_response",
    value="The capital of France is Paris.",
    source=mlflow.entities.assessment.AssessmentSource(
        source_type=mlflow.entities.assessment.AssessmentSourceType.HUMAN,
        source_id="bob@example.com",
    ),
)

人工反馈

后续步骤

继续您的旅程,并参考这些推荐的行动和教程。

参考指南

浏览本指南中提到的概念和功能的详细文档。