次の方法で共有


Databricks Connect for Python で従来の Jupyter Notebook を使用する

Note

この記事では、Databricks Runtime 13.0 以降用の Databricks Connect について説明します。

この記事では、Databricks Connect for Python で 従来の Jupyter Notebook を使用する方法について説明します。 Databricks Connect を使うと、一般的なノートブック サーバー、IDE、その他のカスタム アプリケーションを Azure Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

Note

Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定する必要があります。

クラシック Jupyter Notebookと Python で Databricks Connect を使用するには、次の手順に従います。

  1. クラシック Jupyter Notebook をインストールするには、Python 仮想環境がアクティブな状態で、ターミナルまたはコマンド プロンプトから次のコマンドを実行します。

    pip3 install notebook
    
  2. Web ブラウザーでクラシック Jupyter Notebook を起動するには、アクティブな Python 仮想環境から次のコマンドを実行します。

    jupyter notebook
    

    クラシック Jupyter Notebook が Web ブラウザーに表示されない場合は、localhost または 127.0.0.1 で始まる URL を仮想環境からコピーし、Web ブラウザーのアドレス バーに入力します。

  3. クラシック Jupyter Notebook の [Files] タブで、[New]>[Python 3 (ipykernel)] をクリックして、新しいノートブックを作成します。

  4. ノートブックの最初のセルに、コード例または独自のコードを入力します。 独自のコードを使用する場合は、コード例に示すように、少なくとも DatabricksSession をインスタンス化する必要があります。

  5. ノートブックを実行するには、[Cell]>[Run All] をクリックします。 すべての Python コードはローカルで実行されますが、DataFrame 操作を含むすべての PySpark コードは、リモートの Azure Databricks ワークスペース内のクラスターで実行され、実行応答がローカル呼び出し元に返送されます。

  6. ノートブックをデバッグするには、ノートブックの先頭に次のコード行を追加します。

    from IPython.core.debugger import set_trace

    次に、set_trace() を呼び出して、ノートブック実行のその時点にデバッグ ステートメントを入力します。 すべての Python コードはローカルでデバッグされますが、すべての PySpark コードはリモートの Azure Databricks ワークスペース内のクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

  7. クラシック Jupyter Notebook をシャットダウンするには、[File]>[Close and Halt] をクリックします。 クラシック Jupyter Notebook プロセスがターミナルまたはコマンド プロンプトで引き続き実行されている場合は、Ctrl + c を押してから、y を入力して確定してこのプロセスを停止します。