次の方法で共有


Databricks Connect for Python で PyDev と Eclipse を使用する

Note

この記事では、Databricks Runtime 13.0 以降用の Databricks Connect について説明します。

この記事では、Databricks Connect for Scala と Eclipse および PyDev を使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、その他のカスタム アプリケーションを Azure Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

Note

Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定する必要があります。

Eclipse と PyDev で Databricks Connect を使用するには、次の手順に従います。

  1. Eclipse を起動します。
  2. [File]>[New]>[Project]>[PyDev]>[PyDev Project] の順にクリックし、[Next] をクリックして、プロジェクトを作成します。
  3. プロジェクト名を指定します。
  4. [Project contents] で、Python 仮想環境へのパスを指定します。
  5. [Please configure an interpreter before proceding] をクリックします。
  6. [Manual config]をクリックします。
  7. [New]>[Browse for python/pypy exe] をクリックします。
  8. 仮想環境から参照される Python インタープリターへの完全なパスを参照して選択し、[Open] をクリックします。
  9. [Select interpreter] ダイアログで、[OK] をクリックします。
  10. [Selection needed] ダイアログで、[OK] をクリックします。
  11. [Preferences] ダイアログで、[Apply and Close] をクリックします。
  12. [PyDev Project] ダイアログで、[Finish] をクリックします。
  13. [Open Perspective] をクリックします。
  14. コード例または独自のコードを含む Python コード (.py) ファイルをプロジェクトに追加します。 独自のコードを使用する場合は、コード例に示すように、少なくとも DatabricksSession をインスタンス化する必要があります。
  15. Python コード ファイルを開いた状態で、実行中にコードを一時停止するブレークポイントを設定します。
  16. コードを実行するには、[実行] > [実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードは、リモートの Azure Databricks ワークスペース内のクラスターで実行され、実行応答がローカル呼び出し元に返送されます。
  17. コードをデバッグするには、[実行] > [デバッグ] をクリックします。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモートの Azure Databricks ワークスペース内のクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

具体的な実行とデバッグの手順については、プログラムの実行に関する記事 (英語) を参照してください。