本節說明在 Azure Databricks 使用者介面中使用 Lakeflow Spark 宣告式管線的內建監視和可觀察性功能。 這些功能支援下列工作:
- 觀察管線更新的進度和狀態。 請參閱 監控頁面中可用的管線詳細資料。
- 針對管線事件發出警示,例如管線更新成功或失敗。 請參閱 ,新增有關管線事件的電子郵件通知。
- 查看串流來源的指標,例如 Apache Kafka 和 Auto Loader(公開預覽版)。 請參閱 查看串流指標。
新增管線事件的電子郵件通知
您可以設定一或多個電子郵件地址,以在發生下列情況時接收通知:
- 管線更新成功完成。
- 管線更新失敗,發生可重試或無法重試的錯誤。 選取此選項可接收所有管線失敗的通知。
- 管線更新失敗,並出現無法重試(嚴重)錯誤。 選取此選項,只有在發生無法重試的錯誤時,才會收到通知。
- 單一資料流失敗。
若要設定電子郵件通知,請編輯管線的設定。 請參閱 通知。
備註
使用 Python 事件攔截建立事件的自定義回應,包括通知或自定義處理。
在UI中檢視管線
從 尋找您的管線。工作區側邊欄中的 Jobs &; Pipelines 選項。 這會開啟 [作業和管線] 頁面,您可以在其中檢視您有權存取的每個作業和管線的相關信息。 按一下管線的名稱以開啟管線監控頁面。 若要編輯任務或管線,請按一下
選單,然後選擇 Edit (編輯)。
備註
任務和不同的管線類型有不同的編輯器。 「 編輯」 選項會為您選取的物件開啟正確的編輯器。
使用工作與管道清單
若要檢視您可以存取的管線清單,請按兩下 提要欄位中的作業和管線。 [ 作業和管線 ] 索引標籤會列出所有可用作業和管線的相關信息,例如建立者、觸發條件(如果有的話),以及最後五次執行的結果。
按一下管線或作業的名稱會帶您前往該管線或作業的監視頁面。 若要編輯管線或工作,請按一下 然後選取 編輯。
若要變更清單中顯示的數據行,請按下 [資料行 ,然後選取或取消選取數據行。 例如,若要將 新增
Pipeline Type 為欄,請選取該欄以檢視。
您可以在 作業和管線 列表中篩選作業,如下列螢幕快照所示。
-
文字搜尋:支援 [名稱 ] 和 [ 標識符 ] 欄位的關鍵詞搜尋。 若要搜尋以索引鍵和值建立的標籤,您可以依索引鍵、值或索引鍵和值來搜尋。 例如,針對具有索引鍵
department和值finance的標籤,您可以搜尋department或finance以尋找相符的工作。 若要依索引鍵和值搜尋,請輸入以冒號分隔的索引鍵和值(例如,department:finance)。 - 類型:依 作業、 管線或 全部篩選。 如果您選取 [ 管線] ,您也可以依 管線類型進行篩選,其中包括 ETL 和擷取管線。
- 擁有者:只顯示您擁有的工作。
- 收藏:顯示您標示為收藏的工作。
- 標籤:使用 標籤。 若要依標記搜尋,您可以使用標籤單來篩選最多五個標籤,或直接使用關鍵詞搜尋。
-
以...身份執行:依最多兩個
run as值進行篩選。
若要啟動作業或管線,請按一下 [ ]。 若要停止作業或管線,請按兩下 [
停止] 按鈕。 若要存取其他動作,請單擊
。 例如,您可以編輯或刪除工作或管線,或從該功能表存取管線的設定。
監控頁面中可用的管線詳細資料
備註
有多個預覽可能會影響您在 UI 中監視管線時看到的內容。
- Lakeflow 管線編輯器會變更管線詳細資料的體驗。 如果您選擇加入預覽,則資訊會顯示在與此處所述不同的UI中。 如需該 UI 的詳細資訊,請參閱 Lakeflow 管線編輯器中有哪些變更?。
- 統一執行清單預覽會將管道執行新增至工作執行清單。 如需啟用該預覽後變更的詳細資訊,以及如何啟用它,請參閱 統一執行清單預覽中有哪些變更?。
按一下 [工作與管線 ] 頁面中的管線名稱,會顯示該管線的監視頁面。 您可以從這裡開始管線執行,並檢視先前的執行詳細資料。
管線圖表 (也稱為 DAG) 會在管線更新成功啟動後立即出現。 箭頭代表管線中資料集之間的相依性。 根據預設,管線監控頁面會顯示資料表的最新更新,但您可以從下拉式功能表中選取較舊的更新。
詳細數據包括管線標識碼、計算成本、產品版本,以及針對管線設定的通道。
若要查看資料集的表格式檢視,請按一下 清單 索引標籤。 清單 檢視可讓您查看管線中的所有資料集,這些資料集以表格中的資料列表示,而且當您的管線圖表太大而無法在 「圖表」 檢視中視覺化時,它很有用。 您可以使用多個篩選器 (例如資料集名稱、類型和狀態) 來控制表格中顯示的資料集。 若要切換回 DAG 視覺效果,請按下 [圖形]。
“以 指定使用者身分 執行的人是管線擁有者,所有管線更新均使用該使用者的許可權執行。” 若要變更 run as 使用者,請按下 [權限] 並變更管線擁有者。
Lakeflow 管線編輯器中有哪些變更?
如果您選擇加入 Lakeflow 管線編輯器預覽和新的管線監視 UI,則某些資訊位於 UI 的不同位置。 如需 Lakeflow 管道編輯器的相關資訊,以及選擇參加兩個預覽版,請參閱 啟用 Lakeflow 管道編輯器和更新的監控。
這很重要
這項功能目前處於 公開預覽版。
當選擇加入這兩個預覽功能時,使用管線監視頁面監視的下列變更將會出現:
右側面板中的 [管道詳細資料 ] 和 [更新詳細資料 ] 索引標籤已與頂端的管道詳細資料合併,後面接著更新詳細資料。
按一下圖表中的表格不會在右側面板中顯示表格詳細資料。 右側面板會繼續顯示管線和更新詳細資料。 相反地,底部面板會顯示表格資訊。
在開發模式中執行管線的規則會稍微更新。 如需開發模式的相關資訊,請參閱 開發模式。
- 透過排程或觸發程序執行管線,會遵循是否使用開發模式的管線設定。 您可以在 管線設定中變更管線的預設值。
- 透過監視 UI 執行管線會使用管線設定中定義的模式。 您可以使用下拉式清單中的 [使用不同設定執行 ] 選項來選擇是否使用開發模式。
- 從管線編輯器執行管線會預設為開發模式。 您可以使用下拉式清單中的 [使用不同設定執行 ] 選項來選擇不使用開發模式。
管線詳細資料中不再有原始程式碼的連結。 相反地,請選擇頂端的 Edit pipeline (編輯管線 )。 若要跳至特定資料表的程式碼,請將滑鼠停留在 DAG 中的資料表上,然後按一下 [
導覽至程式碼 按鈕。
根據預設,事件記錄檔不會再顯示在管線監視頁面的每次更新上。 當處理期間發生錯誤時,錯誤會顯示在底部面板中,並顯示 [ 檢視記錄] 按鈕,以檢視該執行的事件記錄。 事件日誌也可通過選擇
來獲得。從右側面板中的執行詳細資料檢視事件記錄檔。
若要在新的 Lakeflow 管線編輯器中執行更新時存取事件記錄檔,請導覽至編輯器底部的 [問題和深入解析 ] 面板,按一下 [檢視記錄],或按一下任何錯誤旁邊的 [ 在記錄中開啟] 按鈕。 如需詳細資訊,請參閱 Lakeflow 管線編輯器和 事件記錄檔的管線設定。
若要取得表格結構描述資訊,請在底部面板的 [表格] 索引標籤中選擇表格,然後選取 [欄]。
查詢歷史記錄可在底部面板中選擇 [效能 ]。
無法從管線詳細資料頁面取得表格註解。 若要查看表格註解,請從「型錄瀏覽器」檢視表格。 若要直接跳至目錄總管中的表格,請將滑鼠停留在 DAG 中的表格上,然後按一下
然後按一下資料
在目錄中檢視。 您也可以按一下
,從底部面板的表格清單存取目錄總管中的資訊。圖示。
統一執行清單預覽中有哪些變更?
如果您已啟用
若要存取統一執行清單,可以從工作區側邊欄中選取 或按一下
,然後選擇 任務與管線,接著選擇 [執行] 索引標籤。
標籤顯示過去 60 天內的最近執行清單。 在下列情況下,會先顯示顯示過去 48 小時內執行成功與失敗的圖表:
- 系統只會將您篩選至作業或管線。
- 您是管理員,或篩選為僅執行
Run as: Me - 在圖表上顯示結果可能需要最多一小時。
您可以依下列方式篩選清單和圖表:
- 工作或管線的名稱。
- 全部、作業或 流程。
- 管線型別 (ETL、擷取、MV/ST 或資料庫資料表同步)。
- 以 使用者身分執行 。
- 執行 開始時間 (過去 48 小時內)。
- 執行 狀態。
- 失敗執行的 錯誤碼 。
除了上述內容之外,您還可以在列表中查看以下欄位:
- 結束時間
- 執行標識碼
- 執行是手動 啟動 還是依排程啟動。
- 執行 Duration。
- 執行參數。
若要變更執行清單中顯示的欄,請按一下 ,然後選取或取消選取欄。
按一下管線執行的 [開始時間]、[結束時間] 或 [名稱] 會帶您前往管線的監視頁面。
當管線正在執行時,您可以按一下 來停止執行。 您可以隨時按一下運行列上的
按鈕,然後選擇 編輯管線 以在編輯器中查看管線。
如何檢視資料集詳細資料?
按一下管線圖表或資料集清單中的資料集,會顯示資料集的詳細資料。 詳細資料包括資料集結構描述、資料品質指標,以及定義資料集之原始程式碼的連結。
檢視更新歷程記錄
若要檢視管線更新的歷程記錄和狀態,請單擊頂端列中的 [更新歷程記錄] 下拉功能表。
在下拉功能表中選取更新,以檢視更新的圖形、詳細數據和事件。 若要返回最新的更新,請按 顯示最新的更新。
檢視串流指標
這很重要
管線的串流可觀察性處於 公開預覽狀態。
您可以檢視 Spark 結構化串流支援的資料來源 (例如 Apache Kafka、Amazon Kinesis、Auto Loader 和 Delta 資料表) 的串流指標,適用於管道中的每個串流流程。 度量會在管線 UI 的右窗格中顯示為圖表,並包含延遲秒數、延遲位元組、延遲記錄和延遲檔案。 圖表會顯示依分鐘匯總的最大值,工具提示會在您將滑鼠停留在圖表上時顯示最大值。 數據限制在目前時間的過去 48 小時內。
在 UI
LDP Chart IconGraph 檢視中檢視管線 DAG 時,管線中具有可用串流計量的資料表會顯示 。 若要檢視串流度量,請按一下
,以在右窗格的 [流程 ] 索引標籤中顯示串流度量圖表。 您也可以套用篩選條件,只檢視具備串流計量的數據表,方法是按一下 [List],然後按一下 [具有串流計量]。
每個串流來源只支援特定的計量。 串流來源不支援的計量無法在UI中檢視。 下表顯示支援的串流來源可用的計量:
| 來源 | 待處理位元組 | 待辦項目記錄 | 待辦專案秒數 | 待辦項目檔案 |
|---|---|---|---|---|
| Kafka | ✓ | ✓ | ||
| Kinesis | ✓ | ✓ | ||
| Delta | ✓ | ✓ | ||
| 自動加載器 | ✓ | ✓ | ||
| Google Pub/Sub 服務 | ✓ | ✓ |