共用方式為


教學課程:使用適用於 Visual Studio Code 的 Databricks 擴充功能,在叢集上執行 Python 並做為作業

本教學課程會逐步引導您設定 Visual Studio Code 的 Databricks 擴充功能,然後在 Azure Databricks 叢集上執行 Python,並在遠端工作區中以 Azure Databricks 作業的形式執行。 請參閱什麼是適用於 Visual Studio Code 的 Databricks 延伸模組?

需求

本教學課程需要:

  • 您已安裝適用於 Visual Studio Code 的 Databricks 擴充功能。 請參閱 安裝適用於Visual Studio Code的 Databricks 擴充功能。
  • 您有可供使用的遠端 Azure Databricks 叢集。 記下叢集的名稱。 若要檢視可用的叢集,請在 Azure Databricks 工作區提要欄位中,按兩下 [ 計算]。 請參閱計算

步驟 1:建立新的 Databricks 專案

在此步驟中,您會建立新的 Databricks 專案,並設定與遠端 Azure Databricks 工作區的連線。

  1. 啟動 Visual Studio Code,然後按兩下 [ 檔案 > 開啟資料夾 ],然後在本機開發電腦上開啟一些空白資料夾。
  2. 在提要欄位中,按兩下 Databricks 標誌圖示。 這會開啟 Databricks 延伸模組。
  3. 在 [組態] 檢視中,點擊 [建立組態]。
  4. 設定 Databricks 工作區的命令選擇區 隨即開啟。 針對 Databricks 主機,輸入或選取每個 工作區的 URL,例如 https://adb-1234567890123456.7.azuredatabricks.net
  5. 選取項目的身份驗證設定檔。 請參閱 為 Visual Studio Code設定 Databricks 擴充套件的授權。

步驟 2:將叢集資訊新增至 Databricks 擴充功能並啟動叢集

  1. 在配置檢視已開啟時,點選 [選取叢集] 或點選齒輪(設定叢集)圖示。

    設定叢集

  2. 在命令 選擇區中,選取您先前建立的叢集名稱。

  3. 如果尚未啟動,請按播放圖示 [啟動叢集]。

步驟 3:建立和執行 Python 程式代碼

  1. 建立本機 Python 程式碼檔案:在側邊欄中,按一下資料夾(檔案瀏覽器)圖示。

  2. 在主功能表上,按一下 [檔案] > [新增檔案] 並選擇 Python 檔案。 將檔案命名 為 demo.py ,並將它儲存至專案的根目錄。

  3. 將下列程式代碼新增至檔案,然後加以儲存。 此程式代碼會建立並顯示基本 PySpark DataFrame 的內容:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. 按兩下編輯器索引標籤清單旁的 [在 Databricks 上執行] 圖示,然後按兩下 [上傳並執行檔案]。 輸出會出現在 [偵錯控制台] 檢視中

    從圖示上傳並執行檔案

    或者,在 [總管] 檢視中,以滑鼠右鍵點擊 demo.py 檔案,然後選擇 [在 Databricks 執行]> 和 [上傳及執行檔案]

    從操作功能表上傳並執行檔案

步驟 4:以作業身分執行程序代碼

若要將 demo.py 當作作業執行,請按一下編輯器索引標籤清單旁的在 Databricks 上執行圖示,然後按一下以工作流程執行檔案。 輸出會出現在檔案編輯器旁邊的個別編輯器索引標籤中 demo.py

從圖示以工作流程方式執行檔案

或者,以滑鼠右鍵按一下demo.py 檔案總管面板中的檔案,然後選擇在 Databricks 上執行>執行檔案為工作流程

從操作功能表以工作流程身分執行檔案

下一步

既然您已成功使用適用於 Visual Studio Code 的 Databricks 延伸模組來上傳本機 Python 檔案,並從遠端執行,您也可以: