使用 Databricks UI 创建监视器

本文演示如何使用 Databricks UI 创建数据监视器。 此外,也可以使用 API

若要访问 Databricks UI,请执行以下操作:

  1. 在工作区左侧栏中,单击 “数据”图标。 打开 目录资源管理器

  2. 导航到要监视的表。

  3. 单击“质量”选项卡。

    Lakehouse 监控质量选项卡。

  4. 单击“入门”按钮。

    Lakehouse 监视“开始”按钮。

  5. “创建监视器”中,选择要设置监视器的选项。

分析

“配置文件类型” 下拉菜单中,选择要创建的监视器类型。 表格中展示了轮廓类型。

配置文件类型 说明
时序配置文件 包含一段时间内测量的值的表。 此表包含时间戳列。
快照配置文件 任何 Delta 托管表、外部表、视图、具体化视图或流式处理表。
推理配置文件 包含机器学习分类或回归模型输出的预测值的表。 此表包括时间戳、模型 ID、模型输入(特征)、包含模型预测的列,以及包含唯一观察 ID 和地面真实标签的可选列。 它还可以包含元数据(例如,人口统计信息),这些元数据不用作模型的输入,但可用于公平性和偏差调查或其他监视。

如果选择 TimeSeriesInference,则需要其他参数,并在以下部分中进行介绍。

注意

  • 首次创建时序或推理配置文件时,监视器仅分析在创建它之前 30 天内的数据。 监视器在创建后,将处理所有新数据。
  • 对具体化视图和流式处理表定义的监视器不支持增量处理。

提示

对于 TimeSeriesInference 概况,最佳做法是在表中启用更改数据馈送(CDF)。 启用 CDF 后,只会处理新追加的数据,而不是每次刷新时重新处理整个表。 这使执行更加高效,同时当您将监视扩展到多个表时降低成本。

TimeSeries 配置文件

对于 TimeSeries 配置文件,必须进行以下选择:

  • 指定 指标粒度 ,确定如何在时段内对数据进行分区。
  • 指定 Timestamp 列,即包含时间戳的表中的列。 时间戳列数据类型必须是TIMESTAMP或可以使用 to_timestamp转换为时间戳的类型。

Inference 配置文件

Inference对于配置文件,除了粒度和时间戳外,还必须进行以下选择:

  • 选择 问题类型,分类或回归。
  • 指定 预测列,该列包含模型的预测值。
  • (可选)指定 Label 列,该列包含模型预测的基础真相。
  • 指定 模型 ID 列,该列包含用于预测的模型的 ID。

高级选项

“高级选项 ”部分中,可以设置计划、添加电子邮件通知、添加自定义指标和切片表达式,以及更改默认监视器配置。

计划

若要设置监视器以按计划运行,请选择 “按计划刷新 ”,然后选择要运行的监视器的频率和时间。 如果不希望监视器自动运行,请选择 “手动刷新”。 如果手动选择 “刷新”,则可以稍后从“ 质量 ”选项卡中刷新指标。

通知

若要为监视器设置电子邮件通知,请输入要通知的电子邮件,然后选择要启用的通知。 每个通知事件类型最多支持 5 封电子邮件。

指标

“指标 ”部分中,可以选择更改以下默认设置:

  • 指标表架构名称:存储监视器创建的指标表的 Unity 目录架构。 此位置的格式必须为 {catalog}。{schema}。 默认情况下,这设置为与受监视表相同的架构位置。 可以指定其他位置。

  • 资产目录:用于存储监视资产的现有目录的绝对路径。 默认情况下,资产存储在默认目录中:“/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}”。 如果在此字段中输入其他位置,将在指定的目录中的“/{table_name}”下创建资产。 此目录可以位于工作区中的任意位置。 对于打算在组织内共享的监视器,可以使用“/Shared/”目录中的路径。

    此字段不能留空。

还可以指定以下设置:

  • Unity 目录基线表名称:包含比较基线数据的表或视图的名称。
  • 指标切片表达式:切片表达式允许定义表的子集,以便除整个表外监视表。 若要创建切片表达式,请单击“添加表达式”并输入表达式定义。 例如,表达式 "col_2 > 10" 生成两个切片:一个用于 col_2 > 10,一个用于 col_2 <= 10。 作为另一个示例,表达式 "col_1" 将为每个唯一值 col_1生成一个切片。 数据按每个表达式独立分组,从而为每个谓词及其补码生成单独的切片。
  • 自定义指标:自定义指标显示在指标表中,如任何内置指标。 若要配置自定义指标,请单击“添加自定义指标”。
    • 输入自定义指标的名称
    • 选择自定义指标 类型。 选择: AggregateDerivedDrift
    • 输入列的下拉列表中,选择要应用指标的列。
    • “输出类型 ”字段中,选择指标的 Spark 数据类型。
    • 在“定义”字段中,输入定义自定义指标的 SQL 代码。

在 UI 中编辑监视器设置

创建监视器后,可以通过单击“质量”选项卡上的“编辑监视器配置”按钮来更改监视器的设置。

在 UI 中刷新和查看监视器结果

若要手动运行监视器,请单击“ 刷新指标”。

有关存储在监视指标表中的统计信息的信息,请参阅 “监视指标表”。 指标表是 Unity Catalog 表。 可以在笔记本或 SQL 查询资源管理器中查询它们,并在目录资源管理器中查看它们。

控制对监视器输出的访问

监视器创建的指标表和仪表板由创建监视器的用户拥有。 可以使用 Unity 目录特权来控制对指标表的访问。 若要在工作区中共享仪表板,请单击仪表板右上角的“共享”按钮。

从 UI 中删除监视器

若要从 UI 中删除监视器,请单击 “刷新指标 ”按钮旁边的 kebab 菜单,然后选择“ 删除监视器”。