共用方式為


如何在 Fabric 中建立 Apache Spark 工作定義

在本教學課程中,了解如何在 Microsoft Fabric 中建立 Spark 工作定義。

必要條件

在開始之前,您必須:

提示

若要執行 Spark 工作定義項目,您必須具有主要定義檔案和預設 Lakehouse 內容。 如果您沒有 Lakehouse,可遵循建立 Lakehouse 中的步驟建立。

建立 Spark 工作定義

Spark 工作定義建立程序快速且簡單;有數種方式可以開始使用。

建立 Spark 工作定義的選項

有幾種方式可讓您開始使用建立程序:

  • 資料工程首頁:您可以在首頁的 [新增] 區段下,透過 [Spark 工作定義] 卡片輕鬆地建立 Spark 工作定義。

    螢幕擷取畫面,其中顯示選取 Spark 工作定義卡片的位置。

  • 工作區檢視:您也可以使用 [新增] 下拉式功能表,透過 [資料工程] 中的 [工作區] 建立 Spark 工作定義。

    螢幕擷取畫面,其中顯示 [新增] 功能表中選取 Spark 工作定義的位置。

  • 建立檢視:另一個建立 Spark 工作定義的進入點是 [資料工程] 下的 [建立] 頁面。

    螢幕擷取畫面,其中顯示在建立中樞上選取 Spark 工作定義的位置。

當您建立 Spark 工作定義時,您必須提供名稱。 名稱在目前工作區內必須具有唯一性。 新的 Spark 工作定義會在您目前的工作區中建立。

針對 PySpark (Python) 建立 Spark 工作定義:

針對 PySpark 建立 Spark 工作定義:

  1. 下載範例 Parquet 檔案 yellow_tripdata_2022-01.parquet,並將其上傳至 Lakehouse 的檔案區段。

  2. 建立新 Spark 工作定義。

  3. 從 [語言] 下拉式清單中選取 [PySpark (Python)]

  4. 下載 createTablefromParquet.py 範例,並將其上傳為主要定義檔案。 主要定義檔案 (job.Main) 是包含應用程式邏輯的檔案,而且是執行 Spark 工作的必要項目。 針對每個 Spark 工作定義,您只能上傳一個主要定義檔案。

    您可以從本機桌面上傳主要定義檔案,也可以藉由提供檔案的完整 ABFSS 路徑,從現有的 Azure Data Lake Storage (ADLS) Gen2 上傳。 例如: abfss://your-storage-account-name.dfs.core.windows.net/your-file-path

  5. 將參考檔案上傳為 .py 檔案。 參考檔案是主要定義檔案所匯入的 python 模組。 如同主要定義檔案,您可以從桌面或現有的 ADLS Gen2 上傳。 支援多個參考檔案。

    提示

    如果使用 ADLS Gen2 路徑,為確保檔案可供存取,您必須為執行工作的使用者帳戶提供儲存體帳戶的適當權限。 執行這項操作有兩種不同的方式:

    • 為使用者帳戶指派儲存體帳戶的參與者角色。
    • 透過 ADLS Gen2 存取控制清單 (ACL) 將檔案的讀取和執行權限授與使用者帳戶。

    針對手動執行,目前登入使用者的帳戶會用於執行工作。

  6. 視需要提供工作的命令列引數。 使用空格做為分隔符號來分隔引數。

  7. 將 Lakehouse 參考新增至工作。 您必須將至少一個 Lakehouse 參考新增至工作。 此 Lakehouse 是工作的預設 Lakehouse 內容。

    支援多個 Lakehouse 參考。 在 [Spark 設定] 頁面中尋找非預設的 Lakehouse 名稱和完整的 OneLake 網址。

    螢幕擷取畫面,其中顯示已填入主要定義檔案檢測的範例。

針對 Scala/JAVA 建立 Spark 工作定義

針對 Scala/JAVA 建立 Spark 工作定義:

  1. 建立新 Spark 工作定義。

  2. 從 [語言] 下拉式清單中選取 [Spark (Scala/JAVA)]

  3. 將主要定義檔案上傳為 .jar 檔案。 主要定義檔案是包含此工作應用程式邏輯的檔案,而且是執行 Spark 工作的必要項目。 針對每個 Spark 工作定義,您只能上傳一個主要定義檔案。 提供主要類別名稱。

  4. 將參考檔案上傳為 .jar 檔案。 參考檔案是主要定義檔案所參考/匯入的檔案。

  5. 視需要提供工作的命令列引數。

  6. 將 Lakehouse 參考新增至工作。 您必須將至少一個 Lakehouse 參考新增至工作。 此 Lakehouse 是工作的預設 Lakehouse 內容。

針對 R 版本建立 Spark 工作定義

針對 SparkR(R) 建立 Spark 工作定義:

  1. 建立新 Spark 工作定義。

  2. 從 [語言] 下拉式清單中選取 [SparkR(R)]

  3. 將主要定義檔案上傳為 .R 檔案。 主要定義檔案是包含此工作應用程式邏輯的檔案,而且是執行 Spark 工作的必要項目。 針對每個 Spark 工作定義,您只能上傳一個主要定義檔案。

  4. 將參考檔案上傳為 .R 檔案。 參考檔案是主要定義檔案所參考/匯入的檔案。

  5. 視需要提供工作的命令列引數。

  6. 將 Lakehouse 參考新增至工作。 您必須將至少一個 Lakehouse 參考新增至工作。 此 Lakehouse 是工作的預設 Lakehouse 內容。

注意

Spark 工作定義將會在您目前的工作區中建立。

自訂 Spark 工作定義的選項

有一些選項可以進一步自訂 Spark 工作定義的執行。

  • Spark 計算:在 [Spark 計算] 索引標籤內,您可以看到 run-time 版本,這是將用來執行工作的 Spark 版本。 您也可以查看將用來執行工作的 Spark 組態設定。 您可以按下 [新增] 按鈕來自訂 Spark 組態設定。
  • 最佳化:在 [最佳化] 索引標籤上,您可以啟用和設定工作的重試原則。 啟用時,如果工作失敗,則會進行重試。 您也可以設定重試次數上限和重試之間的間隔。 每次進行重試嘗試時,工作都會重新啟動。 請確定工作等冪

    螢幕擷取畫面,其中顯示設定重試原則的位置。