Apache Spark for Fabric 中的高並行模式
高並行模式可讓使用者在適用於資料工程和資料科學工作負載的Spark for Fabric 中共用相同的 Spark 工作階段。 筆記本之類的項目會使用標準 Spark 工作階段來執行。 在高並行模式中,Spark 工作階段可以支援在Spark應用程式內個別「讀取、求值、輸出」迴圈(REPL)核心內獨立執行多個項目。 這些 REPL 核心會為每個項目提供隔離,並防止本機筆記本變數被共用相同工作階段之其他筆記本具有相同名稱的變數覆寫。
當工作階段已在執行時,這可讓使用者在跨多個筆記本重複使用工作階段時,提供立即執行體驗。
注意
在具有高並行模式的自定義集區案例中,相較於標準 Spark 工作階段,使用者會獲得超過 36 倍的工作階段啟動體驗。
重要
工作階段共享條件包括:
- 工作階段應位於單一使用者邊界內。
- 工作階段應該具有相同的預設 Lakehouse 設定。
- 工作階段應該具有相同的 Spark 計算屬性。
在 Spark 工作階段初始化期間,會建立 REPL 核心。 每次新項目開始共用相同的工作階段,且執行程式會以 FAIR 為基礎,配置給 Spark 應用程式內這些 REPL 核心中執行的筆記本,以防止耗盡案例。
相關內容
- 若要開始使用筆記本中的高並行模式,請參閱 設定網狀架構筆記本的高並行模式。