分享方式:


教學課程:使用適用於 Visual Studio Code 的 Databricks 擴充功能,在叢集上執行 Python 並做為作業

本教學課程會逐步引導您設定 Visual Studio Code 的 Databricks 擴充功能,然後在 Azure Databricks 叢集上執行 Python,並在遠端工作區中以 Azure Databricks 作業的形式執行。 請參閱 什麼是適用於Visual StudioCode的 Databricks延伸模組?

需求

本教學課程需要:

  • 您已安裝適用於 Visual Studio Code 的 Databricks 擴充功能。 請參閱 安裝適用於Visual Studio Code的 Databricks 擴充功能。
  • 您有要使用的遠端 Azure Databricks 叢集。 記下叢集的名稱。 若要檢視可用的叢集,請在 Azure Databricks 工作區提要欄位中,按兩下 [ 計算]。 請參閱 計算

步驟 1:建立新的 Databricks 專案

在此步驟中,您會建立新的 Databricks 專案,並設定與遠端 Azure Databricks 工作區的連線。

  1. 啟動 Visual Studio Code,然後按兩下 [ 檔案 > 開啟資料夾 ],然後在本機開發電腦上開啟一些空白資料夾。
  2. 在提要欄位中,按兩下 Databricks 標誌圖示。 這會開啟 Databricks 延伸模組。
  3. 在 [ 組態 ] 檢視中,按兩下 [遷移至 Databricks 專案]。
  4. 設定 Databricks 工作區的命令選擇區 隨即開啟。 針對 Databricks 主機,輸入或選取每個 工作區的 URL,例如 https://adb-1234567890123456.7.azuredatabricks.net
  5. 選取項目的驗證配置檔。 請參閱 Visual Studio Code Databricks 延伸模組的驗證設定。

步驟 2:將叢集資訊新增至 Databricks 擴充功能並啟動叢集

  1. 在 [組 ] 檢視已開啟時,按兩下 [ 選取叢集 ],或按兩下齒輪 (設定叢集) 圖示。

    設定叢集

  2. 在命令 選擇區中,選取您先前建立的叢集名稱。

  3. 如果尚未啟動,請按兩下播放圖示 [啟動叢集]。

步驟 3:建立和執行 Python 程式代碼

  1. 建立本機 Python 程式代碼檔案:在提要欄中,按兩下資料夾 (檔案總管) 圖示。

  2. 在主功能表上,按兩下 [ 檔案 > 新檔案]。 將檔案 命名為 demo.py ,並將它儲存至專案的根目錄。

  3. 將下列程式代碼新增至檔案,然後加以儲存。 此程式代碼會建立並顯示基本 PySpark DataFrame 的內容:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. 按兩下編輯器索引標籤清單旁的 [在 Databricks 上執行] 圖示,然後按兩下 [上傳並執行檔案]。 輸出會出現在 [偵錯控制台] 檢視中

    從圖示上傳並執行檔案

    或者,在 [總管] 檢視中,以滑鼠右鍵按下demo.py檔案,然後按兩下 [在 Databricks>上傳和執行檔案上執行]。

    從操作功能表上傳並執行檔案

步驟 4:以作業身分執行程序代碼

若要以 demo.py 作業執行,請按兩下 編輯器索引標籤清單旁的 [在 Databricks 上執行] 圖示,然後按兩下 [ 以工作流程執行檔案]。 輸出會出現在檔案編輯器旁邊的個別編輯器索引標籤中 demo.py

從圖示以工作流程身分執行檔案

或者,以滑鼠右鍵按兩下 demo.py [總管] 面板中的檔案,然後選取 [在 Databricks>執行檔案] 上執行為工作流程。

從操作功能表以工作流程身分執行檔案

下一步

既然您已成功使用適用於 Visual Studio Code 的 Databricks 延伸模組來上傳本機 Python 檔案,並從遠端執行,您也可以: