使用 Spark 執行範例筆記本

適用于:SQL Server 2019 (15.x)

重要事項

Microsoft SQL Server 2019 巨量資料叢集附加元件將會淘汰。 SQL Server 2019 巨量資料叢集的支援將于 2025 年 2 月 28 日結束。 如需詳細資訊,請參閱Microsoft SQL Server 平臺上的巨量資料選項

本教學課程示範如何在 SQL Server 2019 巨量資料叢集的 Azure Data Studio 中載入和執行筆記本。 這可讓資料科學家和資料工程師對叢集執行 Python、R 或 Scala 程式碼。

秘訣

如果您想要的話,也可以下載並執行用於本教學課程中命令的指令碼。 如需指示,請參閱 GitHub 上的 Spark 範例

先決條件

下載範例筆記本檔案

使用下列指示,將範例筆記本檔案 spark-sql.ipynb 載入 Azure Data Studio。

  1. 開啟 Bash 命令提示字元 (Linux) 或 Windows PowerShell。

  2. 巡覽至您要下載範例筆記本檔案的目錄。

  3. 執行下列 curl 命令,從 GitHub 下載筆記本檔案:

    curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb
    

開啟 Notebook

下列步驟說明如何在 Azure Data Studio 中開啟筆記本檔案:

  1. 在 Azure Data Studio 中,連線到巨量資料叢集的主要執行個體。 如需詳細資訊,請參閱連線到巨量資料叢集

  2. 按兩下 [伺服器] 視窗中的 HDFS/Spark 閘道連線。 然後選取 [開啟筆記本]。

    開啟筆記本

  3. 等候 [核心] 和目標內容 ([附加至] ) 填入。 將 [核心] 設定為 [PySpark3],並將 [附加至] 設定為巨量資料叢集端點的 IP 位址。

    設定 [核心] 和 [附加至]

重要事項

在 Azure Data Studio 中,所有 Spark 筆記本類型 (Scala Spark、PySpark 和 SparkR) 通常會在第一次執行資料格時定義一些重要的 Spark 會話相關變數。 這些變數包括: sparkscsqlContext 。 將邏輯複製到要執行的 azdata bdc spark batch create Python 檔案中,以批次提交邏輯 (時,例如) ,請確定您據此定義變數。

執行筆記本資料格

您可以按下資料格左側的播放按鈕,執行每個筆記本資料格。 資料格完成執行之後,會在筆記本中顯示結果。

執行筆記本資料格

連續執行範例筆記本中的每個資料格。 如需搭配SQL Server 巨量資料叢集使用筆記本的詳細資訊,請參閱下列資源:

後續步驟

深入了解筆記本: