本文演示如何使用 Databricks UI 创建数据监视器。 此外,也可以使用 API。
若要访问 Databricks UI,请执行以下操作:
在工作区左侧栏中,单击
打开 目录资源管理器。
导航到要监视的表。
单击“质量”选项卡。
单击“入门”按钮。
在 “创建监视器”中,选择要设置监视器的选项。
分析
从 “配置文件类型” 下拉菜单中,选择要创建的监视器类型。 表格中展示了轮廓类型。
配置文件类型 | 说明 |
---|---|
时序配置文件 | 包含一段时间内测量的值的表。 此表包含时间戳列。 |
快照配置文件 | 任何 Delta 托管表、外部表、视图、具体化视图或流式处理表。 |
推理配置文件 | 包含机器学习分类或回归模型输出的预测值的表。 此表包括时间戳、模型 ID、模型输入(特征)、包含模型预测的列,以及包含唯一观察 ID 和地面真实标签的可选列。 它还可以包含元数据(例如,人口统计信息),这些元数据不用作模型的输入,但可用于公平性和偏差调查或其他监视。 |
如果选择 TimeSeries
或 Inference
,则需要其他参数,并在以下部分中进行介绍。
注意
- 首次创建时序或推理配置文件时,监视器仅分析在创建它之前 30 天内的数据。 监视器在创建后,将处理所有新数据。
- 对具体化视图和流式处理表定义的监视器不支持增量处理。
提示
对于 TimeSeries
和 Inference
概况,最佳做法是在表中启用更改数据馈送(CDF)。 启用 CDF 后,只会处理新追加的数据,而不是每次刷新时重新处理整个表。 这使执行更加高效,同时当您将监视扩展到多个表时降低成本。
TimeSeries
配置文件
对于 TimeSeries
配置文件,必须进行以下选择:
- 指定 指标粒度 ,确定如何在时段内对数据进行分区。
- 指定 Timestamp 列,即包含时间戳的表中的列。 时间戳列数据类型必须是
TIMESTAMP
或可以使用to_timestamp
转换为时间戳的类型。
Inference
配置文件
Inference
对于配置文件,除了粒度和时间戳外,还必须进行以下选择:
- 选择 问题类型,分类或回归。
- 指定 预测列,该列包含模型的预测值。
- (可选)指定 Label 列,该列包含模型预测的基础真相。
- 指定 模型 ID 列,该列包含用于预测的模型的 ID。
高级选项
在 “高级选项 ”部分中,可以设置计划、添加电子邮件通知、添加自定义指标和切片表达式,以及更改默认监视器配置。
计划
若要设置监视器以按计划运行,请选择 “按计划刷新 ”,然后选择要运行的监视器的频率和时间。 如果不希望监视器自动运行,请选择 “手动刷新”。 如果手动选择 “刷新”,则可以稍后从“ 质量 ”选项卡中刷新指标。
通知
若要为监视器设置电子邮件通知,请输入要通知的电子邮件,然后选择要启用的通知。 每个通知事件类型最多支持 5 封电子邮件。
指标
在 “指标 ”部分中,可以选择更改以下默认设置:
指标表架构名称:存储监视器创建的指标表的 Unity 目录架构。 此位置的格式必须为 {catalog}。{schema}。 默认情况下,这设置为与受监视表相同的架构位置。 可以指定其他位置。
资产目录:用于存储监视资产的现有目录的绝对路径。 默认情况下,资产存储在默认目录中:“/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}”。 如果在此字段中输入其他位置,将在指定的目录中的“/{table_name}”下创建资产。 此目录可以位于工作区中的任意位置。 对于打算在组织内共享的监视器,可以使用“/Shared/”目录中的路径。
此字段不能留空。
还可以指定以下设置:
- Unity 目录基线表名称:包含比较基线数据的表或视图的名称。
-
指标切片表达式:切片表达式允许定义表的子集,以便除整个表外监视表。 若要创建切片表达式,请单击“添加表达式”并输入表达式定义。 例如,表达式
"col_2 > 10"
生成两个切片:一个用于col_2 > 10
,一个用于col_2 <= 10
。 作为另一个示例,表达式"col_1"
将为每个唯一值col_1
生成一个切片。 数据按每个表达式独立分组,从而为每个谓词及其补码生成单独的切片。 -
自定义指标:自定义指标显示在指标表中,如任何内置指标。
若要配置自定义指标,请单击“添加自定义指标”。
- 输入自定义指标的名称。
- 选择自定义指标 类型。 选择:
Aggregate
、Derived
或Drift
。 - 在输入列的下拉列表中,选择要应用指标的列。
- 在 “输出类型 ”字段中,选择指标的 Spark 数据类型。
- 在“定义”字段中,输入定义自定义指标的 SQL 代码。
在 UI 中编辑监视器设置
创建监视器后,可以通过单击“质量”选项卡上的“编辑监视器配置”按钮来更改监视器的设置。
在 UI 中刷新和查看监视器结果
若要手动运行监视器,请单击“ 刷新指标”。
有关存储在监视指标表中的统计信息的信息,请参阅 “监视指标表”。 指标表是 Unity Catalog 表。 可以在笔记本或 SQL 查询资源管理器中查询它们,并在目录资源管理器中查看它们。
控制对监视器输出的访问
监视器创建的指标表和仪表板由创建监视器的用户拥有。 可以使用 Unity 目录特权来控制对指标表的访问。 若要在工作区中共享仪表板,请单击仪表板右上角的“共享”按钮。
从 UI 中删除监视器
若要从 UI 中删除监视器,请单击 “刷新指标 ”按钮旁边的 kebab 菜单,然后选择“ 删除监视器”。