本文說明如何使用 Azure Databricks UI 中的原生計算計量工具來收集密鑰硬體和 Spark 計量。 計量 UI 適用於所有用途和作業計算。
計量幾乎即時可用,通常延遲不到一分鐘。 計量會儲存在 Azure Databricks 管理的記憶體中,而不是儲存在客戶的記憶體中。
筆記本和作業的無伺服器運算採用查詢洞察,而非使用指標用戶界面。 如需無伺服器計算計量的詳細資訊,請參閱 檢視查詢深入解析。
存取計算度量 UI
若要檢視計算計量 UI:
- 按一下側邊欄中的 [計算]。
- 點擊您想查看指標的計算資源。
- 按一下度量索引標籤。
所有節點的硬體指標預設都會顯示。 若要檢視 Spark 計量,請單擊標示為 [硬體 ] 的下拉功能表,然後選取 [Spark]。 如果實例已啟用 GPU,您也可以選取 GPU 。
依時間週期篩選計量
您可以使用日期選擇器篩選來選取時間範圍,以檢視歷程計量。 計量會每分鐘收集一次,因此您可以依過去 30 天內的任何一天、小時或分鐘範圍進行篩選。 按兩下行事歷圖示,從預先定義的數據範圍中選取,或按下文字框內來定義自訂值。
注意
圖表中顯示的時間間隔會根據您檢視的時間長度進行調整。 根據您目前檢視的時間間隔,大部分計量都是平均值。
您也可以按一下 [重新整理] 按鈕來取得最新的指標。
在節點層級檢視計量
預設情況下,指標頁面會顯示叢集內所有節點(包括驅動程式)在該期間內的平均指標。
你可以點擊「 所有節點」 下拉選單,並選擇你想查看的節點,來查看各個節點的指標。 GPU 計量僅適用於個別節點層級。 個別節點無法使用 Spark 計量。
為了協助識別叢集內的異常節點,你也可以在同一頁面查看所有個別節點的指標。 要進入此檢視,請點選「 所有節點」 下拉選單,選擇 「依節點」,然後選擇你想查看的指標子類別。
硬體計量圖表
下列硬體計量圖表可在計算計量 UI 中檢視:
-
CPU 利用率與活躍節點數:折線圖顯示給定計算在每個時間戳記下的活躍節點數量。 條狀圖顯示 CPU 在每種模式下所花費的時間百分比,依據總 CPU 秒數成本計算。 以下是被追蹤的模式:
-
guest:如果你在運行虛擬機,這些虛擬機所使用的 CPU -
iowait等待I/O的時間 -
idle: CPU 完全沒關係 -
irq:中斷請求所花費的時間 -
nice: 時間,用於具有正良好度的程序,意即優先順序低於其他任務 -
softirq:軟體中斷請求所花費的時間 -
steal如果你是虛擬機器上的使用者,其他虛擬機占用你的 CPU 的時間 -
system:在內核中所花費的時間 -
user:在使用者區停留的時間
-
-
容器記憶體使用量:Spark 容器所消耗的記憶體,對所有適用節點的平均值。 包含不可回收記憶體的平均值(
Container memory used)、作業系統檔案頁面快取(Container memory file cache)、以及設定的記憶體限制(Container memory limit)。 - JVM 堆積使用率:JVM 堆積記憶體使用量,平均所有適用節點。 包含實際堆積使用量、堆積容量及配置的最大堆積上限的平均值。
- 網路接收與傳送:每台裝置透過網路接收與傳送的位元組數。
- 自由檔案系統空間:每個掛載點的檔案系統總使用量,單位為位元組。
點擊硬體分頁底部的節點記憶體使用量,展開以下額外圖表:
-
記憶體使用率與交換:折線圖顯示各模式的總記憶體交換使用量,單位為位元組。 條狀圖顯示各模式的總記憶體使用量,也以位元組為單位。 追蹤下列使用類型:
-
used:作業系統層級記憶體總使用量,包括在計算中執行的背景程序所使用的記憶體。 由於驅動程式和背景程序會佔用記憶體,即使沒有 Spark 工作執行,使用率仍可能出現。 -
other:用於used、buffer、或cached以外目的的記憶體 -
buffer:核心緩衝區所使用的記憶體 -
cached:作業系統層級檔案系統快取所使用的記憶體 -
free:未使用的記憶。 圖表中未歸因於上述類別的任何項目皆免費。
-
Spark 計量圖表
下列 Spark 計量圖表可在計算計量 UI 中檢視:
- 伺服器負載分布:這些圖塊顯示過去一分鐘計算資源中每個節點的 CPU 使用率。 每個圖塊都是可點擊連結到該節點的指標頁面。
- 主動任務:任何特定時間執行的任務總數。
- 總失敗任務:執行器中失敗任務的總數。
- 完成任務總數:執行者中已完成任務的總數。
- 任務總數:執行器中所有任務(執行中、失敗及已完成)的總數。
-
總洗牌讀取:洗牌讀取資料的總大小,以位元組為單位。
Shuffle read表示階段開始時所有執行程式上串行化讀取數據的總和。 -
總洗牌寫入: 洗牌寫入資料的總大小,以位元組計。
Shuffle Write是傳輸之前所有執行程式上所有寫入串行化數據的總和(通常是在階段結尾)。 - 總任務持續時間:JVM 在執行器上執行任務所花費的總時間,以秒數計。
GPU 計量圖表
注意
GPU 計量僅適用於 Databricks Runtime ML 13.3 和更新版本。
下列 GPU 計量圖表可在計算計量 UI 中檢視:
- 伺服器負載分佈:此圖表顯示每個節點過去一分鐘的CPU使用率。
- 單一 GPU 的解碼器使用率:GPU 解碼器的使用百分比。
- 每個 GPU 的編碼器使用率:GPU 編碼器的使用率百分比。
- 每個 GPU 的影格緩衝區記憶體使用狀況(位元組):以位元組計算的影格緩衝區記憶體使用狀況。
- Per-GPU 記憶體使用率:每個 GPU 記憶體的使用百分比。
- 每個 GPU 的利用率:GPU 利用率的百分比。
疑難排解
如果您在一段時間內看到不完整或遺漏的計量,可能是下列其中一個問題:
- Databricks 服務中斷,負責查詢和儲存計量。
- 用戶端的網路問題。
- 計算資源處於或曾處於不健康狀態。