結構化串流概念

Apache Spark 結構化串流是一種近即時的處理引擎，可使用熟悉的 Spark API，提供端對端容錯與一次處理保證。結構化串流可讓您以對靜態資料表示批次運算的相同方式，在串流資料上表示計算。結構化串流引擎會以累加方式執行計算，並在串流資料送達時持續更新結果。

從資料流讀取

使用結構化串流（Structured Streaming）從支援的資料來源逐步擷取資料。

Feature	說明
自動裝載機	當新資料檔案進入雲端儲存時，逐步且有效率地處理。
Delta Lake 資料表的串流讀取和寫入	使用 Delta Lake 資料表作為串流來源和接收端，並保證精確一次處理。
標準連接器	使用標準連接器連接訊息匯流排、佇列及企業應用程式。
微批次尺寸	限制輸入速率以維持批次大小一致並防止處理延誤。

設定結構化串流如何將資料傳送到目標系統。

Feature	說明
檢查點	儲存處理狀態以啟用容錯性及精確一次傳遞語意。
輸出模式	選擇附加模式、更新模式和完成模式來進行有狀態串流查詢。
觸發間隔	設定觸發間隔以平衡延遲與成本，以符合你的處理需求。
結構化串流中的即時模式	處理即時工作負載的資料，端到端延遲低至五毫秒。

無狀態查詢處理資料列時不保留狀態。有狀態查詢會維持聚合、連接和去重的中間狀態。

追蹤查詢效能、套用優化，並管理生產環境結構化串流工作負載的資料存取。

Feature	說明
透過 StreamingQueryListener 進行監控	使用 Spark UI 與監聽器 API 追蹤查詢進度與效能指標。
以 Unity Catalog 管理和控制	配置 Unity Catalog 以支援串流工作負載，並確保治理和存取控制。

此頁面對您有幫助嗎？