共用方式為


Microsoft Fabric 中的 Apache Spark 工作區管理設定

適用於: Microsoft Fabric 中的 資料工程師 和 資料科學

當您在 Microsoft Fabric 中建立工作區時, 會自動建立與該工作區相關聯的入門集 區。 透過 Microsoft Fabric 中的簡化設定,不需要選擇節點或電腦大小,因為這些選項會在幕後為您處理。 此設定提供更快速(5-10 秒)的 Apache Spark 會話啟動體驗,讓使用者在許多常見案例中開始使用和執行 Apache Spark 作業,而不必擔心設定計算。 針對具有特定計算需求的進階案例,使用者可以建立自定義 Apache Spark 集區,並根據節點的效能需求來調整節點大小。

若要變更工作區中的 Apache Spark 設定,您應該擁有該工作區的系統管理員角色。 若要深入瞭解,請參閱 工作區中的角色。

若要管理與工作區相關聯的集區 Spark 設定:

  1. 移至工作區中的 [工作區設定],然後選擇 [資料工程師/科學] 選項以展開功能表:

    顯示 [工作區設定] 功能選取 資料工程師 位置的螢幕快照。

  2. 您會在左邊選單中看到 [Spark 計算 ] 選項:

    Gif 顯示工作區設定中 Apache Spark 計算的不同區段。

    注意

    如果您將預設集區從入門集區變更為自定義 Spark 集區,您可能會看到較長的會話啟動時間 (~3 分鐘)。

集區

工作區的預設集區

您可以使用自動建立的入門集區,或為工作區建立自定義集區。

  • 入門集區:預先凍結的即時集區會自動為您更快速的體驗建立。 這些叢集的大小為中型。 入門集區會根據購買的網狀架構容量 SKU 設定為預設組態。 系統管理員可以根據其Spark工作負載調整需求來自定義最大節點和執行程式。 若要深入瞭解,請參閱 設定入門集區

  • 自定義 Spark 集區:您可以根據您的 Spark 作業需求調整節點、自動調整規模,以及動態配置執行程式。 若要建立自定義 Spark 集區,容量管理員應該在容量管理員設定的 [Spark 計算] 區段中啟用 [自定義工作區集區] 選項。

注意

默認會啟用自定義工作區集區的容量層級控件。 若要深入瞭解,請參閱 設定和管理 Fabric 容量的數據工程和數據科學設定。

系統管理員可以選取 [ 新增集區] 選項,根據其計算需求建立自定義Spark集區

顯示自訂集區建立選項的螢幕快照。

適用於 Microsoft Fabric 的 Apache Spark 支援單一節點叢集,可讓使用者選取最小節點組態 1,在此情況下,驅動程式和執行程式會在單一節點中執行。 這些單一節點叢集可在節點失敗的情況下提供可還原的高可用性,併為具有較小計算需求的工作負載提供更好的作業可靠性。 您也可以為自訂 Spark 集區啟用或停用自動調整選項。 使用自動調整啟用時,集區會在使用者指定的最大節點限制內取得新的節點,並在作業執行之後淘汰這些節點,以提升效能。

您也可以選取選項,以動態方式配置執行程式,以根據數據磁碟區在指定的最大界限內自動將執行程式數目設為集區,以獲得更佳的效能。

顯示自動調整和動態配置之自定義集區建立選項的螢幕快照。

深入瞭解 適用於 Fabric 的 Apache Spark 計算。

  • 自定義項目的計算組態:身為工作區系統管理員,您可以允許使用者針對個別專案調整計算組態(包括 Driver/Executor Core、Driver/Executor Memory)的會話層級屬性,例如筆記本、使用環境的 Spark 作業定義。

顯示切換以自定義項目計算的螢幕快照。

如果工作區管理員關閉設定,預設集區及其計算組態將會用於工作區中的所有環境。

Environment

環境提供彈性的設定來執行 Spark 作業(筆記本、Spark 作業定義)。 在環境中,您可以設定計算屬性、根據工作負載需求選取不同的運行時間、設定連結庫套件相依性。

在 [環境] 索引標籤中,您可以選擇設定預設環境。 您可以選擇要用於工作區的 Spark 版本。

身為網狀架構工作區管理員,您可以選取 [環境] 作為工作區默認環境。

您也可以透過 [ 環境] 下拉式清單建立新的 。

透過 WS 設定中的附件下拉式清單建立環境

如果您停用具有預設環境的選項,您可以選擇從下拉式清單中所列的可用運行時間版本選取 Fabric 執行時間版本。

顯示選取運行時間版本位置的螢幕快照。

深入瞭解 Apache Spark 運行時間

高並行

高併行模式可讓使用者在Apache Spark中共用適用於 Fabric 資料工程和數據科學工作負載的相同 Spark 會話。 像是筆記本的專案會使用 Spark 工作階段來執行,且啟用時可讓使用者跨多個筆記本共享單一 Spark 工作階段。

顯示高並行設定頁面的螢幕快照。

深入瞭解 Apache Spark for Fabric 中的高並行存取。

機器學習 模型和實驗的自動記錄

系統管理員現在可以為其機器學習模型和實驗啟用自動記錄功能。 此選項會在定型時,自動擷取機器學習模型的輸入參數、輸出計量和輸出專案的值。 深入瞭解自動記錄

顯示自動記錄設定頁面的螢幕快照。