計算系統數據表參考

本文提供計算系統數據表的參考指南。您可以使用這些資料表來監視帳戶中非無伺服器多用途運算、作業運算和 Lakeflow Spark 宣告式管線運算的活動和計量。計算資料表包括：

clusters：記錄您帳戶中的計算組態。
node_types：包含每個目前可用節點類型的單一記錄，包括硬體資訊。
node_timeline：包含您計算機利用率指標的逐分鐘記錄。

叢集數據表架構

叢集資料表是緩慢變更的維度資料表，其中包含多用途計算、作業計算、Lakeflow Spark 宣告式管線計算和管線維護計算隨時間計算設定的完整歷程記錄。

數據表路徑：此系統數據表位於 system.compute.clusters

欄位名稱	資料類型	描述	範例
`account_id`	字串	建立此叢集之帳戶的標識碼。	`23e22ba4-87b9-` `4cc2-9770-d10b894b7118`
`workspace_id`	字串	建立此叢集的工作區標識碼。	`1234567890123456`
`cluster_id`	字串	此記錄相關聯之叢集的標識碼。	`0000-123456-crmpt124`
`cluster_name`	字串	叢集的使用者定義名稱。	`My cluster`
`owned_by`	字串	叢集擁有者的用戶名稱。默認為叢集建立者，但可透過叢集 API 進行變更。	`sample_user@email.com`
`create_time`	時間戳記	此計算定義的變更時間戳。	`2023-01-09 11:00:00.000`
`delete_time`	時間戳記	刪除叢集時的時間戳。如果叢集未刪除，則值為 `null` 。	`2023-01-09 11:00:00.000`
`driver_node_type`	字串	驅動程式節點類型名稱。這符合雲端提供者的實例類型名稱。	`Standard_D16s_v3`
`worker_node_type`	字串	工作節點類型名稱。這符合雲端提供者的實例類型名稱。	`Standard_D16s_v3`
`worker_count`	Bigint	工人人數。僅針對固定大小的叢集定義。	`4`
`min_autoscale_workers`	Bigint	設定最低工人人數。此欄位僅適用於自動調整規模的叢集。	`1`
`max_autoscale_workers`	Bigint	預設的工作者人數上限。此欄位僅適用於自動調整規模的叢集。	`1`
`auto_termination_minutes`	Bigint	已設定的自動結束時間長度。	`120`
`enable_elastic_disk`	布爾值	磁碟自動調整的啟用狀態。	`true`
`tags`	地圖	叢集的使用者定義標籤（不包含預設標籤）。	`{"ResourceClass":"SingleNode"}`
`cluster_source`	字串	叢集的來源。 `UI`或 `API` 值僅適用於所有用途的計算。所有工作計算都會記錄為 `JOB`。管線為 `PIPELINE` 或 `PIPELINE_MAINTENANCE`。	`UI`
`init_scripts`	陣列	初始化腳本的路徑集。	`"/Users/example@email.com` `/files/scripts/install-python-pacakges.sh"`
`aws_attributes`	結構	AWS 特定設定。	`null`
`azure_attributes`	結構	Azure 專用設定。	`{` `"first_on_demand": "0",` `"availability": "ON_DEMAND_AZURE",` `"spot_bid_max_price": "—1"` `}`
`gcp_attributes`	結構	GCP 特定設定。此欄位將會是空的。	`null`
`driver_instance_pool_id`	字串	如果驅動程式設定在實例集區之上，則為實例集區標識碼。	`1107-555555-crhod16-pool-DIdnjazB`
`worker_instance_pool_id`	字串	如果工作程式配置在實例集區上，則為實例集區識別碼。	`1107-555555-crhod16-pool-DIdnjazB`
`dbr_version`	字串	叢集的 Databricks 執行環境。	`14.x-snapshot-scala2.12`
`change_time`	時間戳記	計算定義的變更時間戳。	`2023-01-09 11:00:00.000`
`change_date`	日期	變更日期。用於資料保留。	`2023-01-09`
`data_security_mode`	字串	計算資源的存取模式。請參閱存取模式參考。	`USER_ISOLATION`
`policy_id`	字串	如果適用，叢集計算策略的識別碼。	`1234F35636110A5B`

存取模式參考

下表會轉譯數據行中包含的 data_security_mode 可能值。欄位也可以 null 適用於特定管線和系統建立的叢集。

價值觀	存取模式
`USER_ISOLATION`	標準
`SINGLE_USER`	專用

舊版存取模式會以下列值來記錄：

價值觀	存取模式
`LEGACY_PASSTHROUGH`	認證傳遞（共享）
`LEGACY_SINGLE_USER`	認證傳遞（單一使用者）
`LEGACY_TABLE_ACL`	習慣
`NONE`	無共用的隔離

節點類型數據表架構

節點類型數據表會擷取目前可用的節點類型及其基本硬體資訊。

資料表路徑：此系統資料表位於 system.compute.node_types。

欄位名稱	資料類型	描述	範例
`account_id`	字串	建立此叢集之帳戶的標識碼。	`23e22ba4-87b9-4cc2-9770-d10b894b7118`
`node_type`	字串	節點類型的唯一標識碼。	`Standard_D16s_v3`
`core_count`	雙倍	實例的 vCPU 數目。	`48.0`
`memory_mb`	長	實例的總記憶體。	`393216`
`gpu_count`	長	實例的 GPU 數目。	`0`

節點時間軸數據表架構

節點時間軸數據表會以分鐘粒度擷取節點層級的資源使用率數據。每筆記錄都包含每個實例中的每分鐘數據。此表格會擷取帳戶中多用途計算、作業計算、Lakeflow Spark 宣告式管線計算和管線維護計算資源的節點時間表。

資料表路徑：此系統資料表位於 system.compute.node_timeline。

欄位名稱	資料類型	描述	範例
`account_id`	字串	執行此計算資源的帳戶標識碼。	`23e22ba4-87b9-4cc2-9770-d10b894b7118`
`workspace_id`	字串	執行此計算資源的工作區識別碼。	`1234567890123456`
`cluster_id`	字串	計算資源的識別碼。	`0000-123456-crmpt124`
`instance_id`	字串	特定實例的標識碼。	`i-1234a6c12a2681234`
`start_time`	時間戳記	記錄的開始時間為世界協調時間（UTC）。	`2024-07-16T12:00:00Z`
`end_time`	時間戳記	記錄的結束時間，以UTC表示。	`2024-07-16T13:00:00Z`
`driver`	布爾值	實例是驅動節點還是工作節點。	`true`
`cpu_user_percent`	雙倍	CPU 在用戶空間中使用的時間百分比。	`34.76163817234407`
`cpu_system_percent`	雙倍	核心中 CPU 花費的時間百分比。	`1.0895310279488264`
`cpu_wait_percent`	雙倍	CPU 等候 I/O 所花費的時間百分比。	`0.03445157400629276`
`mem_used_percent`	雙倍	在時間週期內使用的計算記憶體百分比（包括計算上執行的背景進程所使用的記憶體）。	`45.34858216779041`
`mem_swap_percent`	雙倍	歸因於記憶體交換的記憶體使用量百分比。	`0.014648443087939`
`network_sent_bytes`	Bigint	網路流量中傳送的位元組數目。	`517376`
`network_received_bytes`	Bigint	從網路流量接收的位元組數。	`179234`
`disk_free_bytes_per_mount_point`	地圖	依裝入點分組的磁碟使用率。這隻是在計算執行時布建的暫時記憶體。	`{"/var/lib/lxc":123455551234,"/":` `123456789123,"/local_disk0":123412341234}`
`node_type`	字串	節點類型的名稱。這會比對雲端提供者的實例類型名稱。	`Standard_D16s_v3`
`private_ip`	字串	分配給節點的私有 IP 位址。	`10.0.0.42`

已知的限制

在 2023 年 10 月 23 日之前標示為已刪除的計算資源不會出現在叢集數據表中。這可能會導致來自 system.billing.usage 數據表的聯結不符合叢集數據表中的記錄。所有作用中的計算資源都已回填。
這些數據表只包含所有用途和作業計算的記錄。它們不包含無伺服器運算或 SQL 倉庫的紀錄。
執行不到 10 分鐘的節點可能不會出現在表格node_timeline中。

範例查詢

您可以使用下列範例查詢來回答常見問題：

使用最新的計費記錄加入叢集記錄
識別具有最高平均使用率和尖峰使用率的計算資源

注意

其中一些範例會將叢集表與system.billing.usage表聯結。由於計費記錄是跨區域的，而叢集記錄是區域特定的，因此計費記錄只會符合您查詢的特定區域的叢集記錄。若要查看來自另一個區域的記錄，請在該區域中執行查詢。

將叢集記錄與最新的計費記錄結合

此查詢可協助您瞭解一段時間的花費。將更新 usage_start_time 為最新的計費期間之後，它會擷取最新的帳單記錄更新，以加入叢集數據。

每個記錄都會在該特定執行期間與叢集擁有者相關聯。因此，如果叢集擁有者變更，成本會根據使用叢集的時間匯總到正確的擁有者。

SELECT
  u.record_id,
  c.cluster_id,
  c.owned_by,
  c.change_time,
  u.usage_start_time,
  u.usage_quantity
FROM
  system.billing.usage u
  JOIN system.compute.clusters c
  JOIN (SELECT u.record_id, c.cluster_id, max(c.change_time) change_time
    FROM system.billing.usage u
    JOIN system.compute.clusters c
    WHERE
      u.usage_metadata.cluster_id is not null
      and u.usage_start_time >= '2023-01-01'
      and u.usage_metadata.cluster_id = c.cluster_id
      and date_trunc('HOUR', c.change_time) <= date_trunc('HOUR', u.usage_start_time)
    GROUP BY all) config
WHERE
  u.usage_metadata.cluster_id is not null
  and u.usage_start_time >= '2023-01-01'
  and u.usage_metadata.cluster_id = c.cluster_id
  and u.record_id = config.record_id
  and c.cluster_id = config.cluster_id
  and c.change_time = config.change_time
ORDER BY cluster_id, usage_start_time desc;

識別具有最高平均使用率和尖峰使用率的計算資源

識別具有最高平均 CPU 使用率和最高尖峰 CPU 使用率的所有用途和作業計算。

SELECT
        distinct cluster_id,
driver,
avg(cpu_user_percent + cpu_system_percent) as `Avg CPU Utilization`,
max(cpu_user_percent + cpu_system_percent) as `Peak CPU Utilization`,
        avg(cpu_wait_percent) as `Avg CPU Wait`,
        max(cpu_wait_percent) as `Max CPU Wait`,
        avg(mem_used_percent) as `Avg Memory Utilization`,
        max(mem_used_percent) as `Max Memory Utilization`,
avg(network_received_bytes)/(1024^2) as `Avg Network MB Received per Minute`,
avg(network_sent_bytes)/(1024^2) as `Avg Network MB Sent per Minute`
FROM
        node_timeline
WHERE
        start_time >= date_add(now(), -1)
GROUP BY
        cluster_id,
        driver
ORDER BY
        3 desc;

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-04-22