教學:使用 Visual Studio Code 的 Databricks 擴充功能,在叢集上及作為作業執行 Python

這個教學會帶你如何設定 Visual Studio Code 的 Databricks 擴充功能,然後在 Azure Databricks 叢集上執行 Python,並在遠端工作空間中以 Azure Databricks 工作形式執行。 請參見 Databricks 擴充套件 for Visual Studio Code

需求

本教學課程需要:

  • 你已經安裝了 Visual Studio Code 的 Databricks 擴充功能。 請參見 安裝 Visual Studio Code 的 Databricks 擴充套件
  • 你有一個遠端的 Azure Databricks 叢集可以使用。 記下叢集的名稱。 要查看可用的叢集,請在Azure Databricks工作區側邊欄點擊 Compute。 請參閱計算

步驟 1:建立新的 Databricks 專案

在此步驟中,你會建立一個新的 Databricks 專案,並設定與遠端 Azure Databricks 工作空間的連線。

  1. 啟動 Visual Studio Code,然後點選 File > 開啟資料夾,然後在你本地開發機器上開啟一個空資料夾。
  2. 在提要欄位中,按兩下 Databricks 標誌圖示。 這會開啟 Databricks 延伸模組。
  3. 在 [組態] 檢視中,點擊 [建立組態]。
  4. 設定 Databricks 工作區的命令選擇區 隨即開啟。 針對 Databricks 主機,輸入或選取每個 工作區的 URL,例如 https://adb-1234567890123456.7.azuredatabricks.net
  5. 選取項目的身份驗證設定檔。 請參見 在 Visual Studio Code 中設定 Databricks 擴充套件的授權

步驟 2:將叢集資訊新增至 Databricks 擴充功能並啟動叢集

  1. 在配置檢視已開啟時,點選 [選取叢集] 或點選齒輪(設定叢集)圖示。

    設定叢集

  2. 在命令 選擇區中,選取您先前建立的叢集名稱。

  3. 如果尚未啟動,請按播放圖示 [啟動叢集]。

步驟三:建立並執行 Python 程式碼

  1. 建立本地的 Python 程式碼檔:在側邊欄點選資料夾(Explorer)圖示。

  2. 在主選單中,點選 File > 新檔案,選擇一個Python檔案。 將檔案命名 為 demo.py ,並將它儲存至專案的根目錄。

  3. 將下列程式代碼新增至檔案,然後加以儲存。 此程式代碼會建立並顯示基本 PySpark DataFrame 的內容:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. 按兩下編輯器索引標籤清單旁的 [在 Databricks 上執行] 圖示,然後按兩下 [上傳並執行檔案]。 輸出會出現在 [偵錯控制台] 檢視中

    從圖示上傳並執行檔案

    或者,在 [總管] 檢視中,以滑鼠右鍵點擊 demo.py 檔案,然後選擇 [在 Databricks 執行]> 和 [上傳及執行檔案]

    從操作功能表上傳並執行檔案

步驟 4:以作業身分執行程序代碼

若要將 demo.py 當作作業執行,請按一下編輯器索引標籤清單旁的在 Databricks 上執行圖示,然後按一下以工作流程執行檔案。 輸出會出現在檔案編輯器旁邊的個別編輯器索引標籤中 demo.py

從圖示以工作流程方式執行檔案

或者,以滑鼠右鍵按一下demo.py 檔案總管面板中的檔案,然後選擇在 Databricks 上執行>執行檔案為工作流程

從操作功能表以工作流程身分執行檔案

下一步

現在你已經成功使用 Visual Studio Code 的 Databricks 擴充功能上傳本地 Python 檔案並遠端執行,你也可以: