如何在 Fabric 中建立 Apache Spark 工作定義

發行項
10/15/2024

在本教學課程中，了解如何在 Microsoft Fabric 中建立 Spark 工作定義。

必要條件

在開始之前，您必須：

具有作用中訂用帳戶的 Fabric 租用戶帳戶。免費建立帳戶。

提示

若要執行 Spark 工作定義項目，您必須具有主要定義檔案和預設 Lakehouse 內容。如果您沒有 Lakehouse，可遵循建立 Lakehouse 中的步驟建立。

建立 Spark 工作定義

Spark 工作定義建立程序快速且簡單；有數種方式可以開始使用。

建立 Spark 工作定義的選項

有幾種方式可讓您開始使用建立程序：

資料工程首頁：您可以在首頁的 [新增] 區段下，透過 [Spark 工作定義] 卡片輕鬆地建立 Spark 工作定義。
工作區檢視：您也可以使用 [新增] 下拉式功能表，透過 [資料工程] 中的 [工作區] 建立 Spark 工作定義。
建立檢視：另一個建立 Spark 工作定義的進入點是 [資料工程] 下的 [建立] 頁面。

當您建立 Spark 工作定義時，您必須提供名稱。名稱在目前工作區內必須具有唯一性。新的 Spark 工作定義會在您目前的工作區中建立。

針對 PySpark (Python) 建立 Spark 工作定義：

針對 PySpark 建立 Spark 工作定義：

下載範例 Parquet 檔案 yellow_tripdata_2022-01.parquet，並將其上傳至 Lakehouse 的檔案區段。
建立新 Spark 工作定義。
從 [語言] 下拉式清單中選取 [PySpark (Python)]。
下載 createTablefromParquet.py 範例，並將其上傳為主要定義檔案。主要定義檔案 (job.Main) 是包含應用程式邏輯的檔案，而且是執行 Spark 工作的必要項目。針對每個 Spark 工作定義，您只能上傳一個主要定義檔案。

您可以從本機桌面上傳主要定義檔案，也可以藉由提供檔案的完整 ABFSS 路徑，從現有的 Azure Data Lake Storage (ADLS) Gen2 上傳。例如： abfss://your-storage-account-name.dfs.core.windows.net/your-file-path 。
將參考檔案上傳為 .py 檔案。參考檔案是主要定義檔案所匯入的 python 模組。如同主要定義檔案，您可以從桌面或現有的 ADLS Gen2 上傳。支援多個參考檔案。
提示

如果使用 ADLS Gen2 路徑，為確保檔案可供存取，您必須為執行工作的使用者帳戶提供儲存體帳戶的適當權限。執行這項操作有兩種不同的方式：
- 為使用者帳戶指派儲存體帳戶的參與者角色。
- 透過 ADLS Gen2 存取控制清單 (ACL) 將檔案的讀取和執行權限授與使用者帳戶。
針對手動執行，目前登入使用者的帳戶會用於執行工作。
視需要提供工作的命令列引數。使用空格做為分隔符號來分隔引數。
將 Lakehouse 參考新增至工作。您必須將至少一個 Lakehouse 參考新增至工作。此 Lakehouse 是工作的預設 Lakehouse 內容。

支援多個 Lakehouse 參考。在 [Spark 設定] 頁面中尋找非預設的 Lakehouse 名稱和完整的 OneLake 網址。

針對 Scala/JAVA 建立 Spark 工作定義

針對 Scala/JAVA 建立 Spark 工作定義：

建立新 Spark 工作定義。
從 [語言] 下拉式清單中選取 [Spark (Scala/JAVA)]。
將主要定義檔案上傳為 .jar 檔案。主要定義檔案是包含此工作應用程式邏輯的檔案，而且是執行 Spark 工作的必要項目。針對每個 Spark 工作定義，您只能上傳一個主要定義檔案。提供主要類別名稱。
將參考檔案上傳為 .jar 檔案。參考檔案是主要定義檔案所參考/匯入的檔案。
視需要提供工作的命令列引數。
將 Lakehouse 參考新增至工作。您必須將至少一個 Lakehouse 參考新增至工作。此 Lakehouse 是工作的預設 Lakehouse 內容。

針對 R 版本建立 Spark 工作定義

針對 SparkR(R) 建立 Spark 工作定義：

建立新 Spark 工作定義。
從 [語言] 下拉式清單中選取 [SparkR(R)]。
將主要定義檔案上傳為 .R 檔案。主要定義檔案是包含此工作應用程式邏輯的檔案，而且是執行 Spark 工作的必要項目。針對每個 Spark 工作定義，您只能上傳一個主要定義檔案。
將參考檔案上傳為 .R 檔案。參考檔案是主要定義檔案所參考/匯入的檔案。
視需要提供工作的命令列引數。
將 Lakehouse 參考新增至工作。您必須將至少一個 Lakehouse 參考新增至工作。此 Lakehouse 是工作的預設 Lakehouse 內容。

注意

Spark 工作定義將會在您目前的工作區中建立。

自訂 Spark 工作定義的選項

有一些選項可以進一步自訂 Spark 工作定義的執行。

Spark 計算：在 [Spark 計算] 索引標籤內，您可以看到 run-time 版本，這是將用來執行工作的 Spark 版本。您也可以查看將用來執行工作的 Spark 組態設定。您可以按下 [新增] 按鈕來自訂 Spark 組態設定。

最佳化：在 [最佳化] 索引標籤上，您可以啟用和設定工作的重試原則。啟用時，如果工作失敗，則會進行重試。您也可以設定重試次數上限和重試之間的間隔。每次進行重試嘗試時，工作都會重新啟動。請確定工作等冪。

執行 Apache Spark 工作定義

共用方式為

如何在 Fabric 中建立 Apache Spark 工作定義

必要條件