计算系统表参考

重要

此功能目前以公共预览版提供。

本文提供了计算系统表的参考指南。 可以使用这些表监视帐户中通用和作业计算的活动和指标:

  • clusters:记录帐户中的计算配置。
  • node_types:包括每个当前可用节点类型的单个记录,包括硬件信息。
  • node_timeline:包括计算利用率指标的逐分钟记录。

群集表架构

群集表是一个变化缓慢的维度表,其中包含通用计算和作业计算的计算配置随时间推移而变化的完整历史记录。

群集系统表位于 system.compute.clusters 并具有以下架构:

列名称 数据类型 说明 示例
account_id string 创建此群集的帐户的 ID。 23e22ba4-87b9-
4cc2-9770-d10b894b7118
workspace_id string 创建此群集的工作区的 ID。 1234567890123456
cluster_id string 与此记录关联的群集的 ID。 0000-123456-crmpt124
cluster_name string 群集的用户定义名称。 My cluster
owned_by string 群集所有者的用户名。 默认为群集创建者,但可以通过群集 API 进行更改。 sample_user@email.com
create_time timestamp 此计算定义的更改的时间戳。 2023-01-09 11:00:00.000
delete_time timestamp 删除群集时的时间戳。 如果群集未删除,则该值为 null 2023-01-09 11:00:00.000
driver_node_type string 驱动程序节点类型名称。 这与云提供商中的实例类型名称匹配。 Standard_D16s_v3
worker_node_type string 工作器节点类型名称。 这与云提供商中的实例类型名称匹配。 Standard_D16s_v3
worker_count bigint 工作线程数。 仅为固定大小的群集定义。 4
min_autoscale_workers bigint 设置的最小工作器数。 此字段仅对自动缩放群集有效。 1
max_autoscale_workers bigint 设置的最大工作器数。 此字段仅对自动缩放群集有效。 1
auto_termination_minutes bigint 配置的自动终止持续时间。 120
enable_elastic_disk boolean 自动缩放磁盘启用状态。 true
tags map 群集的用户定义标记(不包括默认标记)。 {"ResourceClass":"SingleNode"}
cluster_source string 指示群集的创建者:UIAPIJOB UI
init_scripts array init 脚本的路径集。 "/Users/example@email.com
/files/scripts/install-python-pacakges.sh"
aws_attributes struct 特定于 AWS 的设置。 null
azure_attributes struct 特定于 Azure 的设置。 {
"first_on_demand": "0",
"availability": "ON_DEMAND_AZURE",
"spot_bid_max_price": "—1"
}
gcp_attributes struct 特定于 GCP 的设置。 此字段将为空。 null
driver_instance_pool_id string 如果在实例池上配置了驱动程序,则为实例池 ID。 1107-555555-crhod16-pool-DIdnjazB
worker_instance_pool_id string 如果在实例池上配置了工作器,则为实例池 ID。 1107-555555-crhod16-pool-DIdnjazB
dbr_version string 群集的 Databricks Runtime。 14.x-snapshot-scala2.12
change_time timestamp 计算定义的更改的时间戳。 2023-01-09 11:00:00.000
change_date date 更改日期。 用于保留。 2023-01-09

节点类型表架构

节点类型表通过基本硬件信息捕获当前可用的节点类型。 节点类型系统表位于 system.compute.node_types 并具有以下架构:

列名称 数据类型 说明 示例
account_id string 创建此群集的帐户的 ID。 23e22ba4-87b9-4cc2-9770-d10b894b7118
node_type_name string 节点类型的唯一标识符。 Standard_D16s_v3
core_count double 实例的 vCPU 数。 48.0
memory_mb long 实例的总内存。 393216
gpu_count long 实例的 GPU 数。 0

节点时间线表架构

节点时间线表以分钟粒度捕获节点级资源利用率数据。 每个记录包含每个实例在给定分钟内的数据。

节点时间线系统表位于 system.compute.node_timeline 并具有以下架构:

列名称 数据类型 说明 示例
account_id string 运行此计算资源的帐户的 ID。 23e22ba4-87b9-4cc2-9770-d10b894b7118
workspace_id string 运行此计算资源的工作区的 ID。 1234567890123456
cluster_id string 计算资源的 ID。 0000-123456-crmpt124
instance_id string 特定实例的 ID。 i-1234a6c12a2681234
start_time timestamp 记录的开始时间。 2024-07-16T12:00:00Z
end_time timestamp 记录的结束时间。 2024-07-16T13:00:00Z
driver boolean 实例是驱动程序还是工作器节点。 true
cpu_user_percent double 用户空间中 CPU 花费的时间百分比。 34.76163817234407
cpu_system_percent double 内核中 CPU 花费的时间百分比。 1.0895310279488264
cpu_wait_percent double CPU 等待 I/O 所花费的时间百分比。 0.03445157400629276
mem_used_percent double 时间段内使用的计算内存的百分比(包括计算上运行的后台进程使用的内存)。 45.34858216779041
mem_swap_percent double 归因于内存交换的内存使用量百分比。 0.014648443087939
network_sent_bytes bigint 在网络流量中发送的字节数。 517376
network_received_bytes bigint 来自网络流量的接收字节数。 179234
disk_free_bytes_per_mount_point map 按装入点分组的磁盘利用率。 仅当计算正在运行时,才会预配此临时存储。 {"/var/lib/lxc":123455551234,"/":

123456789123,"/local_disk0":123412341234}
node_type string 节点类型的名称。 这将与云提供商中的实例类型名称匹配。 Standard_D16s_v3

已知限制

  • 在 2023 年 10 月 23 日之前标记为已删除的计算资源不会显示在群集表中。 这可能会导致 system.billing.usage 表中的联接与群集表中的记录不匹配。 所有活动的计算资源都已回填。
  • 这些表仅包含通用和作业计算的记录。 它们不包含无服务器计算、Delta Live Tables 计算或 SQL 仓库的记录。
  • 运行不到 10 分钟的节点可能不会显示在 node_timeline 表中。

示例查询

可以使用以下示例查询来回答常见问题:

注意

这些示例中的一些将群集表与 system.billing.usage 表联接在一起。 由于计费记录是跨区域的,而群集记录是特定于区域的,所以计费记录仅匹配你在查询的区域的群集记录。 要查看来自其他区域的记录,请在该区域中执行查询。

将群集记录与最新的计费记录联接

此查询可帮助你了解一段时间内的支出。 将 usage_start_time 更新到最新的计费周期后,它会获取对计费记录的最新更新,以加入群集数据。

在特定的运行期间,每个记录都与群集所有者相关联。 因此,如果群集所有者发生更改,则成本将根据使用群集的时间汇总到正确的所有者。

SELECT
  u.record_id,
  c.cluster_id,
  c.owned_by,
  c.change_time,
  u.usage_start_time,
  u.usage_quantity
FROM
  system.billing.usage u
  JOIN system.compute.clusters c
  JOIN (SELECT u.record_id, c.cluster_id, max(c.change_time) change_time
    FROM system.billing.usage u
    JOIN system.compute.clusters c
    WHERE
      u.usage_metadata.cluster_id is not null
      and u.usage_start_time >= '2023-01-01'
      and u.usage_metadata.cluster_id = c.cluster_id
      and date_trunc('HOUR', c.change_time) <= date_trunc('HOUR', u.usage_start_time)
    GROUP BY all) config
WHERE
  u.usage_metadata.cluster_id is not null
  and u.usage_start_time >= '2023-01-01'
  and u.usage_metadata.cluster_id = c.cluster_id
  and u.record_id = config.record_id
  and c.cluster_id = config.cluster_id
  and c.change_time = config.change_time
ORDER BY cluster_id, usage_start_time desc;

将成本归属于群集所有者

如果想要降低计算成本,可以使用此查询来找出帐户中的哪些群集所有者使用了最多的 DBU。

SELECT
  u.record_id record_id,
  c.cluster_id cluster_id,
  max_by(c.owned_by, c.change_time) owned_by,
  max(c.change_time) change_time,
  any_value(u.usage_start_time) usage_start_time,
  any_value(u.usage_quantity) usage_quantity
FROM
  system.billing.usage u
  JOIN system.compute.clusters c
WHERE
  u.usage_metadata.cluster_id is not null
  and u.usage_start_time >= '2023-01-01'
  and u.usage_metadata.cluster_id = c.cluster_id
  and c.change_time <= u.usage_start_time
GROUP BY 1, 2
ORDER BY cluster_id, usage_start_time desc;

确定平均利用率和峰值利用率最高的计算资源

确定具有最高的平均 CPU 利用率和最高的峰值 CPU 利用率的通用和作业计算。

SELECT
        distinct cluster_id,
driver,
avg(cpu_user_percent + cpu_system_percent) as `Avg CPU Utilization`,
max(cpu_user_percent + cpu_system_percent) as `Peak CPU Utilization`,
        avg(cpu_wait_percent) as `Avg CPU Wait`,
        max(cpu_wait_percent) as `Max CPU Wait`,
        avg(mem_used_percent) as `Avg Memory Utilization`,
        max(mem_used_percent) as `Max Memory Utilization`,
avg(network_received_bytes)/(1024^2) as `Avg Network MB Received per Minute`,
avg(network_sent_bytes)/(1024^2) as `Avg Network MB Sent per Minute`
FROM
        node_timeline
WHERE
        start_time >= date_add(now(), -1)
GROUP BY
        cluster_id,
        driver
ORDER BY
        3 desc;