快速入門:使用 Apache Spark 工作定義轉換資料

在本快速入門中,您將使用 Azure Synapse Analytics 與 Apache Spark 作業定義建立管線。

必要條件

建立 Azure Synapse 工作區之後,有兩種方式可以開啟 Synapse Studio:

在本快速入門中,我們會使用名為「sampletest」的工作區作為範例。 其會自動讓您瀏覽至 Synapse Studio 首頁。

Synapse Studio 首頁

使用 Apache Spark 工作定義建立管線

管線包含執行一組活動的邏輯流程。 在本節,您將建立包含 Apache Spark 工作定義活動的管線。

  1. 前往 [整合] 索引標籤。選取管線標頭旁的加號圖示,並選取 [管線]。

    建立新管線

  2. 在管線的 [屬性] 設定頁面中,輸入 [示範] 作為名稱

  3. 在 [活動] 窗格的 Synapse 下,拖曳 Spark 工作定義至管線畫布上。

    拖曳 Spark 工作定義

設定 Apache Spark 工作定義畫布

建立 Apache Spark 工作定義後,即會自動傳送至 Spark 工作定義畫布。

一般設定

  1. 選取畫布上的 spark 工作定義模組。

  2. 在 [一般] 索引標籤中,輸入範例作為名稱

  3. (選項) 您也可以輸入描述。

  4. 逾時:活動可以執行的最長時間。 預設是 7 天,也就是允許的最長時間。 格式是 D.HH:MM:SS (日期.小時:分鐘:秒)。

  5. 重試嘗試:重新嘗試次數的上限。

  6. 重試間隔:每次重新嘗試間隔的秒數。

  7. 安全輸出:核取時,活動輸出不會擷取至記錄。

  8. 安全輸入:核取時,活動輸入不會擷取至記錄。

    Spark 工作定義一般

[設定] 索引標籤

在此面板上,您可以參考 Spark 工作定義執行。

  • 展開 [Spark 作業定義] 清單,您可以選擇現有的 Apache Spark 工作定義。 若要參考 Spark 工作定義執行,您也可以選取新增按鈕,建立新的 Apache Spark 工作定義。

  • (選用) 您可以填入 Apache Spark 作業定義的資訊。 如果下列設定是空的,則會使用 Spark 工作定義本身的設定來執行;如果下列設定不是空的,這些設定將會取代 Spark 工作定義本身的設定。

    屬性 描述
    主要定義檔 用於作業的主要檔案。 從您的儲存體中選取 PY/JAR/ZIP 檔案。 您可以選取 [上傳檔案],以將檔案上傳至儲存體帳戶。
    範例: abfss://…/path/to/wordcount.jar
    來自子資料夾的參考 從主要定義檔的根資料夾掃描子資料夾,這些檔案將會新增為參考檔案。 系統會掃描名為 「jars」、「pyFiles」、「files」 或 「archive」 的資料夾,而且資料夾名稱會區分大小寫。
    Main class name (主要類別名稱) 主要定義檔中的完整識別碼或主要類別。
    範例: WordCount
    命令列引數 您可以按一下新增按鈕,新增命令列引數。 請注意,新增命令列引數會覆寫 Spark 工作定義所定義的命令列引數。
    範例:abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Apache Spark 集區 您可以從清單中選取 Apache Spark 集區。
    Python 程式碼參考 用於主要定義檔中參考的其他 Python 程式碼檔案。
    它支援將檔案 (.py、.py3 .zip) 傳遞至 「pyFiles」 屬性。 它會覆寫 Spark 作業定義中定義的 「pyFiles」 屬性。
    參考檔案 主要定義檔中用來作為參考的其他檔案。
    動態配置執行程式 此設定會對應到 Spark 設定中的動態配置屬性,以進行 Spark 應用程式執行程式配置。
    執行程式數目下限 要在針對工作所指定 Spark 集區中配置的執行程式數目下限。
    執行程式數目上限 要在針對工作所指定 Spark 集區中配置的執行程式數目上限。
    驅動程式大小 在指定 Apache Spark 集區中提供給作業使用的驅動程式所能使用的核心和記憶體數目。
    Spark 設定 指定下列主題中所列的 Spark 組態屬性值:Spark 組態 - 應用程式屬性。 使用者可以使用預設組態和自訂群組態。

    Spark 工作定義管線設定

  • 您可以按一下新增動態內容按鈕,或按快速鍵 Alt+Shift+D,新增動態內容。 在 [新增動態內容] 頁面,您可使用任何組合的運算式、函式和系統變數,新增至動態內容。

    新增動態內容

[使用者屬性] 索引標籤

您可以在此面板新增 Apache Spark 工作定義活動的屬性。

使用者屬性

後續步驟

前往下列文章,以了解 Azure Synapse Analytics 支援: