分享方式:


搭配適用於 Python 的 Databricks Connect 使用 PyCharm

注意

本文涵蓋 Databricks Runtime 13.3 LTS 和更新版本適用的 Databricks Connect。

本文涵蓋如何使用適用於 Python 的 Databricks Connect 搭配 PyCharm。 Databricks Connect 可讓您將熱門 IDE、Notebook 伺服器和其他自定義應用程式連線到 Azure Databricks 叢集。 請參閱 什麼是 Databricks Connect?

注意

開始使用 Databricks Connect 之前,您必須先 設定 Databricks Connect 用戶端

IntelliJ IDEA Ultimate 也提供 PyCharm 與 Python 的外掛程式支援。 如需詳細資訊,請參閱 適用於 IntelliJ IDEA Ultimate 的 Python 外掛程式。

若要使用 Databricks Connect 與 PyCharm 和 Python,請遵循 venv 或詩歌的這些指示 本文已使用 PyCharm Community Edition 2023.3.5 進行測試。 如果您使用不同版本的 PyCharm,下列指示可能會有所不同。

搭配使用 PyCharm 搭配 venv 和 Databricks Connect for Python

  1. 啟動 PyCharm。

  2. 建立專案:按兩下 [ 檔案 > 新專案]。

  3. 在 [ 新增專案 ] 對話框中,按兩下 [ 純 Python]。

  4. 針對 [位置],按兩下資料夾圖示,然後選取您在安裝 Databricks Connect for Python建立之現有venv虛擬環境的路徑。

  5. 針對 [解釋器類型],按兩下 [ 自定義環境]。

  6. 針對 [ 環境],選取 [ 選取現有]。

  7. 針對 [ 類型],選取 [Python]。

  8. 針對 [路徑],請使用資料夾圖示或下拉式清單來選取現有 venv 虛擬環境中 Python 解釋器的路徑。

    提示

    虛擬環境的 Python 解釋器 venv 通常會安裝在 中 </path-to-venv>/bin。 如需詳細資訊,請參閱 venv

  9. 按一下 [確定]

  10. 按一下 [建立]

  11. 將 Python 程式代碼 (.py) 檔案新增至專案,其中包含 範例程式代碼或您自己的程式代碼 。 如果您使用自己的程式代碼,您至少必須初始化DatabricksSession,如範例程式代碼所示

  12. 開啟 Python 程式代碼檔案後,設定您希望程式代碼在執行時暫停的任何斷點。

  13. 若要執行程式代碼,請按兩下 [執行執行>]。 所有 Python 程式代碼都會在本機執行,而涉及 DataFrame 作業的所有 PySpark 程式代碼都會在遠端 Azure Databricks 工作區的叢集上執行,並執行回應會傳回給本機呼叫者。

  14. 若要偵錯程式代碼,請按兩下 [ 執行 > 偵錯]。 所有 Python 程式代碼都會在本機偵錯,而所有 PySpark 程式代碼都會繼續在遠端 Azure Databricks 工作區中的叢集上執行。 核心 Spark 引擎程式代碼無法直接從客戶端進行偵錯。

  15. 依照畫面上的指示開始執行或偵錯程序代碼。

如需更具體的執行和偵錯指示,請參閱 執行,而不需要任何先前的設定偵錯

搭配適用於 Python 的詩歌和 Databricks Connect 使用 PyCharm

  1. 啟動 PyCharm。

  2. 建立專案:按兩下 [ 檔案 > 新專案]。

    1. 在 [ 新增專案 ] 對話框中,按兩下 [ 純 Python]。
  3. 針對 [位置],按兩下資料夾圖示,然後選取您在安裝適用於 Python 的 Databricks Connect 中建立之現有 Poetry 虛擬環境的路徑。

  4. 針對 [解釋器類型],按兩下 [ 自定義環境]。

  5. 針對 [ 環境],選取 [ 選取現有]。

  6. 針對 [ 類型],選取 [Python]。

  7. 針對 [路徑],使用資料夾圖示或下拉式清單來選取現有詩歌虛擬環境中 Python 解釋器的路徑。

    提示

    請務必選取 Python 解釋器的路徑。 請勿選取詩歌可執行文件的路徑。

    如需安裝 Python 解釋器系統版本的相關信息,請參閱 如何將 Python 新增至 PATH

  8. 按一下 [確定]

  9. 按一下 [建立]

  10. 將 Python 程式代碼 (.py) 檔案新增至專案,其中包含 範例程式代碼或您自己的程式代碼 。 如果您使用自己的程式代碼,您至少必須初始化DatabricksSession,如範例程式代碼所示

  11. 開啟 Python 程式代碼檔案後,設定您希望程式代碼在執行時暫停的任何斷點。

  12. 若要執行程式代碼,請按兩下 [執行執行>]。 所有 Python 程式代碼都會在本機執行,而涉及 DataFrame 作業的所有 PySpark 程式代碼都會在遠端 Azure Databricks 工作區的叢集上執行,並執行回應會傳回給本機呼叫者。

  13. 若要偵錯程式代碼,請按兩下 [ 執行 > 偵錯]。 所有 Python 程式代碼都會在本機偵錯,而所有 PySpark 程式代碼都會繼續在遠端 Azure Databricks 工作區中的叢集上執行。 核心 Spark 引擎程式代碼無法直接從客戶端進行偵錯。

  14. 依照畫面上的指示開始執行或偵錯程序代碼。

如需更具體的執行和偵錯指示,請參閱 執行,而不需要任何先前的設定偵錯