分享方式:


搭配 Databricks Connect for Python 使用 Visual Studio Code

注意

本文涵蓋 Databricks Runtime 13.3 LTS 和更新版本適用的 Databricks Connect。

本文說明如何使用 Databricks Connect for Python 搭配 Visual Studio Code。 Databricks Connect 可讓您將熱門 IDE、Notebook 伺服器和其他自定義應用程式連線到 Azure Databricks 叢集。 請參閱 什麼是 Databricks Connect?。 如需本文的 Scala 版本,請參閱 搭配 Databricks Connect for Scala 使用 Visual Studio Code。

注意

開始使用 Databricks Connect 之前,您必須先 設定 Databricks Connect 用戶端

提示

適用於 Visual Studio Code 的 Databricks 延伸模組已經內建支援 Databricks Connect for Databricks Runtime 13.3 LTS 和更新版本。 如需 Visual Studio Code 的 Databricks 擴充功能,請參閱 使用 Databricks Connect 偵錯程式代碼

若要使用 Databricks Connect 與 Visual Studio Code 和 Python,請遵循這些指示。

  1. 啟動 Visual Studio Code。

  2. 開啟包含 Python 虛擬環境的資料夾(檔案 > 開啟資料夾)。

  3. 在 Visual Studio Code 終端機 (檢視 > 終端機)中,啟動虛擬環境。

  4. 將目前的 Python 解釋器設定為從虛擬環境參考的解釋器:

    1. 在 [命令選擇區][檢視 > 命令選擇區] 上,輸入 Python: Select Interpreter,然後按 Enter
    2. 選取從虛擬環境參考的 Python 解釋器路徑。
  5. 將 新增至包含範例程式代碼或您自己的程式碼的 Python 程式代碼檔案.py資料夾。 如果您使用自己的程式代碼,您至少必須初始化DatabricksSession,如範例程式代碼所示

  6. 若要執行程式代碼,請按下主功能表上的 [ 執行 > 執行但不偵錯 ]。 所有 Python 程式代碼都會在本機執行,而涉及 DataFrame 作業的所有 PySpark 程式代碼都會在遠端 Azure Databricks 工作區的叢集上執行,並執行回應會傳回給本機呼叫者。

  7. 若要偵錯程式代碼:

    1. 開啟 Python 程式代碼檔案後,設定您希望程式代碼在執行時暫停的任何斷點。
    2. 按下提要欄中的 [ 執行] 和 [偵錯] 圖示,或按下主選單上的 [ 檢視 > 執行 ]。
    3. 在 [ 執行和偵錯] 檢視中,按兩下 [ 執行和偵錯] 按鈕。
    4. 依照畫面上的指示開始執行和偵錯程序代碼。

    所有 Python 程式代碼都會在本機偵錯,而所有 PySpark 程式代碼都會繼續在遠端 Azure Databricks 工作區中的叢集上執行。 核心 Spark 引擎程式代碼無法直接從客戶端進行偵錯。

如需更具體的執行和偵錯指示,請參閱在 VS Code 中設定和執行調試程式和 Python 偵錯。