分享方式:


使用適用於 Visual Studio Code 的 Databricks 擴充功能,在 Azure Databricks 中以作業的形式在叢集或檔案或筆記本上執行檔案

Visual Studio Code 的 Databricks 擴充功能可讓您在叢集或 Python、R、Scala 或 SQL 程式代碼或筆記本上執行 Python 程式代碼,做為 Azure Databricks 中的作業。

此資訊假設您已經安裝並設定 Visual Studio Code 的 Databricks 擴充功能。 請參閱 安裝適用於Visual Studio Code的 Databricks 擴充功能。

注意

若要從 Visual Studio Code 內對程式代碼或筆記本進行偵錯,請使用 Databricks Connect。 請參閱使用 Databricks Connect 針對適用於 Visual Studio Code 的 Databricks 延伸模組進行偵錯程式代碼,以及使用 Databricks Connect 使用適用於 Visual Studio Code 的 Databricks 擴充功能執行和偵錯筆記本數據格。

在叢集上執行 Python 檔案

若要使用適用於 Visual Studio Code 的 Databricks 擴充功能,在 Azure Databricks 叢集上執行 Python 檔案,並開啟您的專案:

  1. 開啟您要在叢集上執行的 Python 檔案。
  2. 執行下列其中一個動作:
    • 在檔案編輯器的標題欄中,按兩下 Databricks 上的 [執行] 圖示,然後按兩下 [ 上傳並執行檔案]。

      從圖示上傳並執行檔案

    • [檔案總管] 檢視中>,以滑鼠右鍵單擊檔案,然後從操作功能表中選取 [在 Databricks>上傳和執行檔案上執行]。

      從操作功能表上傳並執行檔案

檔案會在叢集上執行,而且輸出可在 [偵錯控制台] 中取得(檢視>偵錯控制台)。

以作業身分執行 Python 檔案

若要使用適用於 Visual Studio Code 的 Databricks 擴充功能,以 Azure Databricks 作業的形式執行 Python 檔案,並開啟您的專案:

  1. 開啟您要以作業身分執行的 Python 檔案。
  2. 執行下列其中一個動作:
    • 在檔案編輯器的標題欄中,按兩下 [在 Databricks 上執行] 圖示,然後按兩下 [ 以工作流程身分執行檔案]。

      從圖示以工作流程身分執行檔案

    • [總管] 檢視 (檢視>總管) 中,以滑鼠右鍵按兩下檔案,然後從操作功能表中選取 [在 Databricks>執行檔案為工作流程] 上執行。

      從操作功能表以工作流程身分執行檔案

新的編輯器索引標籤隨即出現,標題為 Databricks 作業執行。 檔案會在工作區中以作業的形式執行,而且任何輸出都會列印到新編輯器索引標籤的 [輸出 ] 區域。

若要檢視作業執行的相關信息,請按兩下 [新增 Databricks 作業執行編輯器] 索引標籤中的 [工作執行標識符] 連結。您的工作區隨即開啟,作業執行的詳細數據會顯示在工作區中。

以作業身分執行 Python、R、Scala 或 SQL 筆記本

若要使用適用於 Visual Studio Code 的 Databricks 擴充功能,以 Azure Databricks 作業的形式執行筆記本,並開啟您的專案:

  1. 開啟您要以作業身分執行的筆記本。

    提示

    若要將 Python、R、Scala 或 SQL 檔案轉換成 Azure Databricks 筆記本,請將批註新增至檔案開頭,並在每個數據格之前新增批注# Databricks notebook source# COMMAND ----------。 如需詳細資訊,請參閱 匯入檔案並將其轉換成筆記本

    格式化為 Databricks Notebook1 的 Python 程式代碼檔案

  2. 執行下列其中一項動作:

    • 在筆記本檔案編輯器的標題欄中,按兩下 [在 Databricks 上執行] 圖示,然後按兩下 [ 以工作流程身分執行檔案]。

    注意

    如果 Databricks 上執行為工作流程 無法使用,請參閱 建立自定義執行組態

    • [檔案總管] 檢視中>,以滑鼠右鍵單擊筆記本檔案,然後從操作功能表中選取 [在 Databricks>執行檔案為工作流程上執行]。

新的編輯器索引標籤隨即出現,標題為 Databricks 作業執行。 筆記本會在工作區中以作業的形式執行。 筆記本及其輸出會顯示在新編輯器索引標籤的 [輸出 ] 區域中。

若要檢視作業執行的相關信息,請按兩下 [Databricks 作業執行編輯器] 索引標籤中的 [工作執行標識符] 連結。您的工作區隨即開啟,作業執行的詳細數據會顯示在工作區中。

建立自定義執行組態

Visual Studio Code Databricks 延伸模組的自定義執行組態可讓您將自定義自變數傳遞至作業或筆記本,或為不同的檔案建立不同的執行設定。

若要建立自定義執行組態,請單擊Visual StudioCode主功能表中的[ 執行 > 新增組態 ]。 然後,針對叢集式執行組態選取 DatabricksDatabricks:作業型回合組態的工作流程

例如,下列自定義回合組態會 修改執行檔案作為工作流程 啟動命令,以將自變數傳遞 --prod 至作業:

{
  "version": "0.2.0",
  "configurations": [
    {
      "type": "databricks-workflow",
      "request": "launch",
      "name": "Run on Databricks as Workflow",
      "program": "${file}",
      "parameters": {},
      "args": ["--prod"]
    }
  ]
}

提示

如果您想要使用 Python 組態,但利用屬於擴充功能設定一部分的 Databricks Connect 驗證,請新增 "databricks": true 至您的 "type": "python" 組態。

使用自定義執行組態,您也可以傳入命令行自變數,並按 F5 來執行程式代碼。 如需詳細資訊,請參閱 Visual Studio Code 檔中的啟動組態