作为生成 GenAI 应用程序的开发人员,需要一种方法来跟踪有关应用程序输出质量的观察结果。 通过 MLflow 跟踪 ,可以直接在开发过程中向跟踪添加反馈或期望,从而快速记录质量问题、标记成功示例或添加笔记以供将来参考。
先决条件
- 应用程序通过 MLflow 跟踪进行检测
- 通过运行应用程序生成追踪记录
通过 UI 将标签添加到跟踪
使用 MLflow 可以轻松地通过 MLflow UI 将批注(标签)直接添加到跟踪。
注释
如果使用 Databricks Notebook,还可以在笔记本中通过内嵌显示的跟踪 UI 执行这些步骤。
- 进入 MLflow Experiment UI 中的“Traces”选项卡
- 打开单个追踪
- 在跟踪 UI 中,单击要标记的特定范围
- 选择根跨度会将反馈附加到整个追踪
- 展开最右侧的“评估”选项卡
- 填写表单以添加反馈
-
评估类型
- 反馈:质量主观评估(评级、评论)
- 预期:预期输出或值(应生成的内容)
-
评估名称
- 反馈内容的唯一名称
-
数据类型
- 编号
- 布尔型
- 字符串
-
价值
- 你的评估
-
理由
- 关于值的说明(可选)
-
评估类型
- 单击“ 创建 ”保存标签
- 返回到“跟踪”选项卡时,标签将显示为新列
通过 SDK 将标签添加到追踪中
可以使用 MLflow 的 SDK 以编程方式向跟踪添加标签。 这对于基于应用程序逻辑的自动标记或跟踪的批处理非常有用。
有关一组完整的示例,请参阅 日志记录评估概念 页。
import mlflow
@mlflow.trace
def my_app(input: str) -> str:
return input + "_output"
my_app(input="hello")
trace_id = mlflow.get_last_active_trace_id()
# Log a thumbs up/down rating
mlflow.log_feedback(
trace_id=trace_id,
name="quality_rating",
value=1, # 1 for thumbs up, 0 for thumbs down
rationale="The response was accurate and helpful",
source=mlflow.entities.assessment.AssessmentSource(
source_type=mlflow.entities.assessment.AssessmentSourceType.HUMAN,
source_id="bob@example.com",
),
)
# Log expected response text
mlflow.log_expectation(
trace_id=trace_id,
name="expected_response",
value="The capital of France is Paris.",
source=mlflow.entities.assessment.AssessmentSource(
source_type=mlflow.entities.assessment.AssessmentSourceType.HUMAN,
source_id="bob@example.com",
),
)
后续步骤
继续您的旅程,并参考这些推荐的行动和教程。
参考指南
浏览本指南中提到的概念和功能的详细文档。