チュートリアル： Visual Studio CodeのDatabricks拡張を使用したクラスタ上およびジョブとしてのPythonの実行

2025-01-31

このチュートリアルでは、Visual Studio Code用のDatabricksエクステンションをセットアップし、Azure Databricksクラスタ上でPythonを実行し、リモートワークスペースでAzure Databricksジョブとして実行する手順を説明します。「Visual Studio Code 用 Databricks 拡張機能について」を参照してください。

要件

このチュートリアルには、次のものが必要です：

「Visual Studio Code 用 Databricks 拡張機能がインストールされました。「Visual Studio Code 用 Databricks 拡張機能のインストール」を参照してください。
使用するリモート Azure Databricks クラスターがあります。クラスターの名前を書き留めます。利用可能なクラスタを表示するには、Azure Databricks ワークスペースのサイドバーで、コンピューティング をクリックします。「コンピューティング」を参照してください。

ステップ 1: 新しいプロジェクトを作成します

この手順では、新しい Databricks プロジェクトを作成し、リモートの Azure Databricks ワークスペースとの接続を設定します。

Visual Studio Code を起動し、 [ファイル] > [フォルダーを開く] をクリックして ローカル開発マシンで空のフォルダーを開きます。
Visual Studio Code サイドバーで、Databricks ロゴアイコンをクリックします。これで、Databricks 拡張機能が開きます。
構成ビューで、[構成作成] をクリックします。
Databricks ワークスペースを構成するコマンドパレット が開きます。 Databricks ホストの場合は、など、https://adb-1234567890123456.7.azuredatabricks.net を入力または選択します。
プロジェクトの認証プロファイルを選択します。「Visual Studio Codeの Databricks 拡張機能の承認を設定する」を参照してください。

手順 2: Databricks 拡張機能にクラスター情報を追加し、クラスターを起動する

構成ビューが既に開いている状態で、[クラスターの選択] クリックするか歯車アイコン (構成クラスター) をクリックします。
コマンドパレットで、既に作成したクラスターの名前を選択します。
まだ起動していない場合には、再生アイコン (クラスターの開始) をクリックします。

手順 3: Python コードを作成して実行する

ローカル Python コードファイルを作成する: サイドバーで、フォルダー (エクスプローラー) アイコンをクリックします。
メインメニュー上の [ファイル] > [新しいファイル] をクリックし、Python ファイルを選択します。 demo.py ファイルに名前を付け、プロジェクトのルートに保存します。

次のコードをファイルに追加して保存します。このコードは、次のように基本的な PySpark DataFrame のコンテンツを作成して表示します。

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession.builder.getOrCreate()

schema = StructType([
   StructField('CustomerID', IntegerType(), False),
   StructField('FirstName',  StringType(),  False),
   StructField('LastName',   StringType(),  False)
])

data = [
   [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
   [ 1001, 'Joost',   'van Brunswijk' ],
   [ 1002, 'Stan',    'Bokenkamp' ]
]

customers = spark.createDataFrame(data, schema)
customers.show()

# +----------+---------+-------------------+
# |CustomerID|FirstName|           LastName|
# +----------+---------+-------------------+
# |      1000|  Mathijs|Oosterhout-Rijntjes|
# |      1001|    Joost|      van Brunswijk|
# |      1002|     Stan|          Bokenkamp|
# +----------+---------+-------------------+

エディタータブの一覧の横にある Run on Databricks アイコンをクリックして、[ アップロードとファイルの実行] をクリックします。出力は [デバッグコンソール] ビューに表示されます。

または、エクスプローラビューでdemo.pyファイルを右クリックし、Databricks>UploadおよびRun Fileで実行をクリックします。