執行管線更新

管線更新會啟動叢集，驗證你的原始碼，並刷新管線中定義的表格和視圖。你可以手動、排程或程式化地觸發更新。

什麼是管線更新？

在建立管線並準備好執行後，您即可啟動更新。管線更新會執行下列動作：

使用正確的組態啟動叢集。
發現所有定義的表格與檢視，並檢查任何分析錯誤，如欄位名稱無效、缺少依賴關係及語法錯誤。
使用最新的可用數據，建立或更新數據表和檢視。

使用試運行，您可以檢查管道原始程式碼中的問題，而無需等待建立或更新表格。此功能在開發或測試管線時非常有用，因為它能讓你發現並修正管線中的錯誤，例如錯誤的資料表或欄位名稱。

如何觸發管線更新？

使用下列其中一個選項來啟動管線更新：

更新觸發程式	詳細資訊
說明書	您可以從 Lakeflow 管線編輯器或管線清單手動觸發管線更新。請參閱手動觸發管線更新。
已排程	您可以使用作業來排程管線的更新。請參閱作業的管線工作。
程式化	您可以使用第三方工具、API 和 CLIs，以程式設計方式觸發更新。請參閱在工作流程中執行管線和管線 REST API。

手動觸發管線更新

使用下列其中一個選項手動觸發管線更新：

從 Lakeflow 管線編輯器執行完整管線或管線的子集（單一來源檔案或單一資料表）。如需詳細資訊，請參閱執行管線程式碼。
從 [作業和管線 ] 清單執行完整管線。點擊，位於清單中與管線同列。
在管線監控頁面中，按一下按鈕。

備註

手動觸發管線更新的預設行為是重新整理管線中定義的所有數據集。

管線刷新語意

下表描述具體化檢視和串流數據表的預設重新整理、完整重新整理和重設檢查點行為：

更新類型	具現化視圖	串流資料表
重新整理（預設值）	更新結果以反映定義查詢的當前結果。 Azure Databricks 會檢視成本，並在效率較高時進行增量更新。請參見具體化視圖的增量刷新	透過串流資料表與流程中定義的邏輯處理新紀錄。
完整重新整理	重新計算結果以反映定義查詢的當前結果。	清除串流資料表的資料、清除流程中的檢查點，並重新處理資料來源中的所有紀錄。請參見串流表的完整刷新
重設串流檢查點	不適用於具體化檢視。	清除流程中的檢查點，但不會清除串流資料表的資料，然後從資料來源中重新處理所有紀錄。

根據預設，管線中所有實體化檢視和串流表會隨著每次更新重新整理。您可以使用下列功能，選擇性地省略更新中的數據表：

選取要重新整理的數據表：在執行更新之前，使用此 UI 新增或移除具體化檢視和串流數據表。請參閱啟動所選數據表的資料流程更新。
更新失敗的資料表：啟動更新程序來修復失敗的具現化檢視和串流資料表，包括所有下游的相依項目。請參閱啟動管線更新以修正失敗的表格。

這兩項功能都支援預設刷新語意或完整刷新。您可以選擇性地使用 [選取數據表以進行重新整理] 對話框，在執行失敗數據表的重新整理時排除其他數據表。

對於串流表，您可以選擇清除所選流的串流檢查點，而不清除來自相關串流表的數據。若要清除所選流程的檢查點，請使用 Databricks REST API 開始重新整理。請參閱啟動管線更新，以移除特定串流流程的檢查點。

何時使用完整刷新

Databricks 建議只在必要時執行完整重新整理。完整重新整理一律會透過定義數據集的邏輯，重新處理來自指定數據源的所有記錄。完成完整重新整理的時間和資源會與源數據的大小相互關聯。

具體化視圖無論是使用預設重新整理還是完整重新整理，都會傳回相同的結果。使用完整重新整理搭配串流資料表會重設所有狀態資訊和檢查點資訊，而且如果輸入資料不再可用，可能會導致記錄丟失。請參見串流表的完整刷新

當輸入數據源包含重新建立數據表或檢視所需狀態所需的數據時，Databricks 只會建議完整重新整理。請考慮下列案例，其中輸入源數據已不再可用，以及執行完整重新整理的結果：

數據源	原因輸入數據不存在	完整重新整理的結果
Kafka	短期保存閾值	Kafka 來源中不再存在的記錄會從目標資料表刪除。
物件記憶體中的檔案	生命周期原則	源目錄中不再存在的數據檔會從目標數據表卸除。
數據表中的記錄	已刪除以符合法規	只會處理源數據表中存在的記錄。

若要防止在資料表或檢視表上執行完整重新整理，請將資料表屬性 pipelines.reset.allowed 設定為 false。請參閱管線資料表屬性。您也可以使用附加流程將數據附加至現有的串流數據表，而不需要完整重新整理。

啟動所選資料表的資料流更新

您可以選擇只針對管線中選取的數據表重新處理數據。例如，在開發期間，您只會變更單一數據表，而想要減少測試時間，或管線更新失敗，而您想要只重新整理失敗的數據表，。

Lakeflow 管線編輯器具有重新處理來源檔案、選取的資料表或單一資料表的選項。如需詳細資訊，請參閱執行管線程式碼。

為失敗的數據表啟動管道更新

如果管線更新因為管線圖形中的一或多個數據表發生錯誤而失敗，您可以只啟動失敗數據表和任何下游相依性的更新。

備註

排除的數據表不會重新整理，即使它們相依於失敗的數據表也一樣。

若要更新失敗的資料表，請在管線監視頁面上，按一下 [重新整理失敗的資料表]。

若要從管線監控頁面只更新選取的失敗資料表：

按一下 [] 按鈕旁邊的 [重新整理失敗的資料表] 按鈕，然後按一下 [選取資料表以重新整理]。 [選取數據表以進行重新整理] 對話框 隨即出現。
若要選取要重新整理的數據表，請按下每個數據表。選取的表會突出顯示並加上標籤。若要從更新中移除數據表，請再次按兩下數據表。
請點擊 重新整理選取。

備註

[重新整理選擇] 按鈕 會顯示括號中選取的表格數目。

若要重新處理已擷取選取的資料表數據，請按一下 [藍色向下插入符號] ，然後按一下 [重新整理選取] 按鈕旁的 [完整重新整理選取]。

啟動管線更新以清除選擇性串流流程的檢查點

您可以選擇性地針對管線中選取的串流流程重新處理數據，而不需要清除任何已內嵌的數據。

備註

未被選取的流程會執行更新 REFRESH。您也可以指定 full_refresh_selection 或 refresh_selection 選擇性地重新整理其他資料表。

要啟動更新以刷新所選串流檢查點，請使用 Lakeflow pipelines REST API 中的更新請求。

參數 reset_checkpoint_selection 接受一串流程名稱。你必須以完整限定的 catalog.schema.flow_name 格式傳遞每個流程名稱。僅使用簡短名稱（例如使用 my_flow 而不是 my_catalog.my_schema.my_flow）會導致管線更新失敗，並出現 IllegalArgumentException。

如果你為流程明確指定了名稱（例如，在 flow_name 中使用 create_auto_cdc_flow 參數），則完整限定流程名稱為 <catalog>.<schema>.<flow_name>。
如果你沒有設定明確的流程名稱，預設流程名稱就是格式上完全限定的目標資料表名稱 catalog.schema.table 。

你可以在管線介面或管線事件日誌中找到流程名稱。

下列範例會使用 curl 命令來呼叫 updates 要求以啟動管線更新：

curl -X POST \
-H "Authorization: Bearer <your-token>" \
-H "Content-Type: application/json" \
-d '{
"reset_checkpoint_selection": ["my_catalog.my_schema.my_streaming_table"]
}' \
https://<your-databricks-instance>/api/2.0/pipelines/<your-pipeline-id>/updates

以下範例重設以自訂名稱定義的流程檢查點：

curl -X POST \
-H "Authorization: Bearer <your-token>" \
-H "Content-Type: application/json" \
-d '{
"reset_checkpoint_selection": ["my_catalog.my_schema.my_custom_flow_name"]
}' \
https://<your-databricks-instance>/api/2.0/pipelines/<your-pipeline-id>/updates

檢查管線是否有錯誤，而不需要等待數據表更新

這很重要

管線 Dry run 功能處於公開預覽狀態。

若要檢查管線的原始程式碼是否有效，而不執行完整更新，請使用 試執行。模擬執行會解析管線中定義的資料集和流程的定義，但不會實體化或發佈任何資料集。在試運行期間發現的錯誤，例如不正確的表格或資料行名稱，會在UI中報告。

若要開始試運行，請在管線詳細資料頁面中按一下藍色倒三角形符號，接著在開始旁邊點選 試運行。

試運行完成後，任何錯誤都會顯示在底部面板的事件匣中。點擊事件托盤會顯示底部面板中發現的任何問題。此外，事件日誌只顯示與試跑相關的事件，且流程圖中不會顯示任何指標。如果找到錯誤，事件記錄檔中會提供詳細資料。

您只能看到最近一次試運行的結果。如果試執行是最近執行的更新，您可以在更新歷程記錄中選取它來查看結果。如果在試執行後執行另一個更新，結果便不再可在 UI 中查看。

更新執行行為

管線更新的行為取決於你如何觸發它：

使用立即執行從管線監控介面觸發的更新會採用快速啟動、以除錯為導向的行為。
從作業、Pipelines API 或連續管線觸發的更新會 使用自動重試及重啟功能。

對於觸發的管線，您可以在 Lakeflow 管線編輯器或管線監控頁面的下拉選單中選擇 「立即以不同設定執行」，以覆蓋特定運行的預設行為。

快速啟動、以除錯為重點的行為

用於 UI Run Now 和臨時更新。這些運行是為了優化快速迭代：

重複使用叢集以避免重新啟動的額外負荷。預設情況下，叢集會持續兩小時。您可以在pipelines.clusterShutdown.delay設定中使用來變更此設定。
停用管線重試，讓您可以立即偵測並修正錯誤。

自動重試與重啟行為

用於任務、API 觸發的更新和持續性管線。這些運行優先考量可靠性與成本效益：

重新啟動叢集，以因應部分可恢復的錯誤，包括記憶體洩漏和過期的認證憑證。
在發生特定錯誤時重試執行，例如無法啟動叢集。
該叢集在完成任務後立即關閉。

備註

執行行為僅限於控制叢集和管線的執行。目錄中用於發佈資料表的儲存位置與目標結構必須作為管線設定的一部分配置，且不會受到執行行為的影響。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-07-10