Databricks Connect for Python で PyDev と Eclipse を使用する
Note
この記事では、Databricks Runtime 13.3 LTS 以降用の Databricks Connect について説明します。
この記事では、Databricks Connect for Scala と Eclipse および PyDev を使用する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、その他のカスタム アプリケーションを Azure Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。
Note
Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定する必要があります。
Eclipse と PyDev で Databricks Connect を使用するには、次の手順に従います。
- Eclipse を起動します。
- [File]>[New]>[Project]>[PyDev]>[PyDev Project] の順にクリックし、[Next] をクリックして、プロジェクトを作成します。
- プロジェクト名を指定します。
- [Project contents] で、Python 仮想環境へのパスを指定します。
- [Please configure an interpreter before proceding] をクリックします。
- [Manual config]をクリックします。
- [New]>[Browse for python/pypy exe] をクリックします。
- 仮想環境から参照される Python インタープリターへの完全なパスを参照して選択し、[Open] をクリックします。
- [Select interpreter] ダイアログで、[OK] をクリックします。
- [Selection needed] ダイアログで、[OK] をクリックします。
- [Preferences] ダイアログで、[Apply and Close] をクリックします。
- [PyDev Project] ダイアログで、[Finish] をクリックします。
- [Open Perspective] をクリックします。
- コード例または独自のコードを含む Python コード (
.py
) ファイルをプロジェクトに追加します。 独自のコードを使用する場合は、コード例に示すように、少なくともDatabricksSession
をインスタンス化する必要があります。 - Python コード ファイルを開いた状態で、実行中にコードを一時停止するブレークポイントを設定します。
- コードを実行するには、[実行] > [実行] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードは、リモートの Azure Databricks ワークスペース内のクラスターで実行され、実行応答がローカル呼び出し元に返送されます。
- コードをデバッグするには、[実行] > [デバッグ] をクリックします。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモートの Azure Databricks ワークスペース内のクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。
具体的な実行とデバッグの手順については、プログラムの実行に関する記事 (英語) を参照してください。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示