分享方式:


搭配適用於 Python 的 PyDev 和 Databricks Connect 使用 Eclipse

注意

本文涵蓋 Databricks Runtime 13.3 LTS 和更新版本適用的 Databricks Connect。

本文涵蓋如何使用 Databricks Connect for Scala 和 Eclipse 搭配 PyDev。 Databricks Connect 可讓您將熱門 IDE、Notebook 伺服器和其他自定義應用程式連線到 Azure Databricks 叢集。 請參閱 什麼是 Databricks Connect?

注意

開始使用 Databricks Connect 之前,您必須先 設定 Databricks Connect 用戶端

若要搭配 PyDev 使用 Databricks Connect 和 Eclipse,請遵循這些指示。

  1. 啟動 Eclipse。
  2. 建立專案:按兩下 [檔案 > 新 > 專案 > PyDev > PyDev 專案],然後按 [ 下一步]。
  3. 指定 項目名稱
  4. 針對 [項目內容],指定 Python 虛擬環境的路徑。
  5. 按兩下 [請設定解釋器],再進行程式。
  6. 按兩下 [ 手動設定]。
  7. 按兩下 [ 新增 > 瀏覽 python/pypy exe]。
  8. 流覽至並選取從虛擬環境參考之 Python 解釋器的完整路徑,然後按兩下 [ 開啟]。
  9. 在 [ 選取解釋器] 對話框中,按兩下 [ 確定]。
  10. 在 [ 需要選取專案] 對話框中,按兩下 [ 確定]。
  11. 在 [ 喜好設定 ] 對話框中,按兩下 [ 套用並關閉]。
  12. [PyDev 專案 ] 對話框中,按兩下 [ 完成]。
  13. 按兩下 [ 開啟檢視方塊]。
  14. 將 Python 程式代碼 (.py) 檔案新增至專案,其中包含 範例程式代碼或您自己的程式代碼 。 如果您使用自己的程式代碼,您至少必須初始化DatabricksSession,如範例程式代碼所示
  15. 開啟 Python 程式代碼檔案後,設定您希望程式代碼在執行時暫停的任何斷點。
  16. 若要執行程式代碼,請按兩下 [執行執行>]。 所有 Python 程式代碼都會在本機執行,而涉及 DataFrame 作業的所有 PySpark 程式代碼都會在遠端 Azure Databricks 工作區的叢集上執行,並執行回應會傳回給本機呼叫者。
  17. 若要偵錯程式代碼,請按兩下 [ 執行 > 偵錯]。 所有 Python 程式代碼都會在本機偵錯,而所有 PySpark 程式代碼都會繼續在遠端 Azure Databricks 工作區中的叢集上執行。 核心 Spark 引擎程式代碼無法直接從客戶端進行偵錯。

如需更具體的執行和偵錯指示,請參閱 執行程式