共用方式為


如何在 Microsoft Fabric 中建立自訂 Spark 集區

在本檔中,我們會說明如何在 Microsoft Fabric 中為您的分析工作負載建立自定義 Apache Spark 集區。 Apache Spark 集區可讓用戶根據其特定需求建立量身打造的計算環境,以確保最佳的效能和資源使用率。

您可以指定自動調整的最小和最大節點。 根據這些值,系統會在作業的計算需求變更時動態取得和淘汰節點,進而有效率地調整和改善效能。 Spark 集區中執行程序的動態配置也減輕了手動執行程式設定的需求。 相反地,系統會根據數據量和作業層級計算需求來調整執行程序的數目。 此程式可讓您專注於工作負載,而不必擔心效能優化和資源管理。

注意

若要建立自定義 Spark 集區,您需要工作區的系統管理員存取權。 容量管理員必須在容量 管理員 設定Spark 計算區段中啟用 [自定義工作區集區] 選項。 若要深入瞭解,請參閱適用於網狀架構容量的Spark計算 設定。

建立自定義Spark集區

若要建立或管理與您的工作區相關聯的Spark集區:

  1. 移至您的工作區,然後選取 [ 工作區設定]。

    Screenshot showing where to select Data Engineering in the Workspace settings menu.

  2. 選取 [資料工程師/科學] 選項以展開功能表,然後選取 [Spark 計算]。

    Screenshot showing Spark Settings detail view.

  3. 選取 [ 新增集區] 選項。 在 [ 建立集區] 畫面中,為您的Spark集區命名。 此外,選擇 [節點系列],並根據工作負載的計算需求,從可用的大小 (SmallMediumLarge、X-LargeXX-Large) 中選取節點大小

    Screenshot showing custom pool creation options.

  4. 您可以將自訂集 區的最小節點組態設為 1。 因為 Fabric Spark 為具有單一節點的叢集提供可還原的可用性,因此您不必擔心作業失敗、在失敗期間遺失會話,或針對較小的 Spark 作業支付計算費用。

  5. 您可以啟用或停用自訂 Spark 集區的自動調整。 啟用自動調整時,集區會以動態方式取得新的節點,以達到使用者指定的最大節點限制,然後在作業執行后淘汰它們。 此功能會根據作業需求調整資源,以確保更好的效能。 您可以調整節點的大小,以符合在網狀架構容量 SKU 中購買的容量單位。

    Screenshot showing custom pool creation options for autoscaling and dynamic allocation.

  6. 您也可以選擇為 Spark 集區啟用動態執行程式配置,這會自動決定使用者指定上限內的最佳執行程式數目。 這項功能會根據數據量調整執行程式數目,進而改善效能和資源使用率。

這些自訂集區的預設自動暫停持續時間為2分鐘。 達到自動暫停持續時間之後,會話就會過期,且叢集未配置。 系統會根據使用自定義 Spark 集區的節點數目和持續時間,向您收取費用。