Visual Studio Code用 Databricks 拡張機能を使用すると、ローカル開発マシン上の Visual Studio Code または Cursor からリモート Azure Databricks ワークスペースに接続できます。 次に以下のことを行えます。
- 宣言型オートメーション バンドルを定義、デプロイ、実行して、Visual Studio Code UI を使用して、Lakeflow ジョブ、Lakeflow Spark 宣言パイプライン、MLOps スタックに CI/CD パターンとベスト プラクティスを適用します。 「宣言型オートメーション バンドルとは」および「宣言型オートメーション バンドル」拡張機能の機能を参照してください。
- リモート ワークスペース内の Azure Databricks クラスターまたはサーバーレス コンピューティングで、Visual Studio Codeからローカル Python コード ファイルを実行します。 「クラスターでPython ファイルを実行する」を参照してください。
- Visual Studio Code から、ローカルの Python コード ファイル (
.py) および Python、R、Scala、SQL ノートブック (.py、.ipynb、.r、.scala、.sql) をリモート ワークスペースで Lakeflow ジョブとして実行します。 「ジョブとしてPython ファイルを実行するを参照してください。 - 選択ダイアログをトリガーする簡単なチェックリストを使用して、デバッグ環境と Databricks Connect を設定および構成します。 Visual Studio Code の Databricks 拡張機能の Databricks Connect を使用した
Debug コードを参照してください。 - Databricks Connect を使用して、Visual Studio Code でノートブックをセルごとにデバッグします。 Visual Studio Code の Databricks 拡張機能を使用した Databricks Connect でのノートブック セルの実行とデバッグについては、
を参照してください。 - Visual Studio Codeで開発したローカル コードをリモート ワークスペース内のコードと同期します。 「ワークスペース フォルダーを Databricks と同期する」を参照してください
注
Visual Studio Code用の Databricks 拡張機能では、R、Scala、SQL ノートブックを自動ジョブとして実行できますが、Visual Studio Code内でこれらの言語に対するより深いサポートは提供されません。
概要
Visual Studio Code用の Databricks 拡張機能の使用を開始するには:
- 拡張機能をインストールします。
- 新しい Databricks プロジェクトを作成するか、既存のVisual Studio Codeプロジェクトを変換します。
- Databricks 拡張機能 UI を使用して、プロジェクトを簡単に構成できます。
- extension チュートリアルの一部として、いくつかのPython コードを実行します。
- Databricks Connect 統合を使用してコードをデバッグします。
-
pytestを使用してコードをテストします。 Visual Studio Code の Databricks 拡張機能を使用して Python テストを実行する方法については、こちらを参照してください。
新しい Databricks プロジェクトを作成する
拡張機能がインストールされたら、Visual Studio Code用の Databricks 拡張機能を使用して、新しい Databricks プロジェクトを作成できます。
- Visual Studio Codeを起動します。
- Visual Studio Codeサイドバーの Databricks アイコンをクリックして拡張機能を開きます。
- [新しいプロジェクト 作成] をクリックします。
-
[コマンド パレット] で、プロジェクトのホストと認証方法を選択します。
Visual Studio Code 用 Databricks 拡張機能の承認設定 を参照してください。 - [新しいプロジェクトの作成先となるフォルダーへのパスを入力] で、プロジェクトの作成先であるローカル開発用コンピューター上のフォルダーへのパスを入力するか、[フォルダーの選択ダイアログを開く] をクリックしてプロジェクト フォルダーへのパスを選択します。
- Databricks プロジェクトの初期化ビューの [使用するテンプレート] で、上下矢印を使用しプロジェクト テンプレートを選択した後、Enter キーを押します。 バンドル プロジェクト テンプレートの詳細については、「 宣言型オートメーション バンドル プロジェクト テンプレート」を参照してください。
- このプロジェクトに固有な名前を入力するか、プロジェクトの既定の名前 (
my_project) をそのままにして、Enter キーを押します。 - スタブ (サンプル) ノートブック、スタブ (サンプル) Delta Live Tables パイプライン、またはスタブ (サンプル) Python パッケージをプロジェクトに追加するか、これらのスタブ (サンプル) の任意の組み合わせを追加するかを選択します。
- 任意のキーを押して、Databricks Project Init エディター タブを閉じます。
- [開くプロジェクトを選択] では、先ほど作成したプロジェクトを選択します。
既存の宣言型オートメーション バンドル プロジェクトを開く
宣言型オートメーション バンドル プロジェクトには、プロジェクトのルート フォルダーに databricks.yml ファイルがあります。
宣言型オートメーション バンドルの構成を参照してください。 既存の宣言型オートメーション バンドル プロジェクトで拡張機能を使用する場合:
Visual Studio Codeを起動します。 メイン メニューで [ファイル]>[フォルダーを開く] の順にクリックし、バンドル プロジェクトを含むディレクトリに移動します。
Visual Studio Codeサイドバーの Databricks アイコンをクリックして、拡張機能の機能を開いて使用を開始します。
Visual Studio Codeの Databricks 拡張機能が現在のフォルダー内の複数の宣言型オートメーション バンドル プロジェクトを検出した場合は、プロジェクトを開くか、ルート フォルダーにプロジェクト構成ファイルを作成することを選択できます。
- プロジェクトを選択した場合は、 コマンド パレットで既存の宣言型オートメーション バンドル プロジェクトを選択します。
- ルート フォルダーに構成を作成すると、そのフォルダーがバンドル プロジェクトになります。
プロジェクトのホストと認証方法を選択します。 Visual Studio Code の Databricks 拡張機能の承認を設定する方法については、を参照してください。
注
Visual Studio Code v1 の Databricks 拡張機能を使用して作成されたプロジェクトを開くと、プロジェクトの既存の認証とワークスペース構成を使用して自動的に移行が試行されます。 移行ボタンは、自動移行が失敗した場合にのみ有効になります。
Databricks プロジェクトを切り替える
Visual Studio Code用の Databricks 拡張機能を使用すると、Visual Studio Code ワークスペース内に複数の Databricks プロジェクトを作成し、簡単に切り替えることができます。 Visual Studio Code ワークスペースでマルチバンドル プロジェクトを開いた状態で、次の手順を実行します。
Visual Studio Codeサイドバーの Databricks アイコンをクリックして拡張機能を開きます。
ローカル フォルダー をクリックして、拡張機能で使用するプロジェクトを選択します。
注
実行アクションは、アクティブなバンドル内のファイルでのみ使用できます。
プロジェクトを Databricks プロジェクトに変換する
Databricks プロジェクトに変換する既存のプロジェクトがある場合:
- Visual Studio Codeを起動します。 メイン メニューで [ファイル]>[フォルダーを開く] の順にクリックし、プロジェクトに移動しそれを開きます。
- Visual Studio Codeサイドバーの Databricks アイコンをクリックして拡張機能を開きます。
- [構成の作成] をクリックします。
- [コマンド パレット] で、プロジェクトのホストと認証方法を選択します。 Visual Studio Code の Databricks 拡張機能の承認の設定に関するを参照してください。