在管線中使用資料流程

使用多個資料流程建置複雜的管線時,您的邏輯流程可能會在計時和成本方面產生重大影響。 本節涵蓋不同結構策略的影響。

平行執行資料流程

如果您平行執行多個資料流程,服務會針對每個活動啟動個別的 Spark 叢集。 這可透過平行方式讓每個作業隔離並執行,但會導致多個叢集同時執行。

如果您的資料流程是透過平行方式執行,建議您不要啟用即時屬性的 Azure IR 時間,因為其會導致多個未使用的暖集區。

提示

請勿針對每個活動多次執行相同的資料流程,而是在 Data Lake 中暫存您的資料,並使用萬用字元路徑來處理單一資料流程中的資料。

循序執行資料流程

如果您依序執行資料流程活動,建議您在 Azure IR 設定中設定 TTL。 服務會重複使用計算資源,因而加速叢集啟動時間。 每個活動仍會加以隔離,並針對每個執行接收新的 Spark 內容。

多載單一資料流程

如果您在單一資料流程內放入所有邏輯,則服務會在單一 Spark 執行個體上執行整個作業。 雖然這似乎是降低成本的方式,但其會將不同的邏輯流程混合在一起,而且可能會難以監視和偵錯。 如果一個元件失敗,則作業的所有其他部分也會失敗。 建議使用獨立商務邏輯流程來組織資料流程。 如果您的資料流程變的太大,請將其分割成分別的元件,以便更輕鬆進行監視和偵錯。 雖然資料流程中的轉換數目沒有固定限制,但轉換數目過多會使作業變得複雜。

平行執行接收器

資料流程接收器的預設行為是依序執行每個接收器、以序列方式執行,且在接收器中遇到錯誤時資料流程會失敗。 此外,除非您進入資料流程屬性,並針對接收器設定不同優先順序,否則所有接收器都會預設為相同的群組。

資料流程可讓您從 UI 設計工具的 [資料流程屬性] 索引標籤,將接收器分組在一起成為群組。 您可以設定接收器的執行順序,以及使用相同的群組號碼將接收器分組在一起。 若要協助管理群組,您可以要求服務在相同的群組中執行接收器,以透過平行方式執行。

在 [接收屬性] 區段下的管線執行資料流程活動是開啟平行接收器載入的選項。 當您啟用「平行執行」時,您會指示資料流程同時、而不是以循序方式寫入連線的接收器。 若要利用平行選項,接收器必須分組在一起,並透過新的分支或條件式分割連線到相同的串流。

在管線中存取 Azure Synapse 資料庫範本

您可以在建立管線時使用 Azure Synapse 資料庫範本。 建立新的資料流程時,請在來源或接收器設定中選取 [工作區資料庫]。 資料庫下拉式清單會列出透過資料庫範本所建立的資料庫。 [工作區資料庫] 選項僅適用於新的資料流程,但當您從 Synapse Studio 資源庫使用現有管線時無法使用。

請參閱其他與效能相關的資料流程文章: