Spark を使用したサンプルノートブックの実行

2020-03-30

適用対象: SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 ビッグデータクラスターのアドオンは廃止されます。 SQL Server 2019 ビッグデータクラスターのサポートは、2025 年 2 月 28 日に終了します。ソフトウェアアシュアランス付きの SQL Server 2019 を使用する既存の全ユーザーはプラットフォームで完全にサポートされ、ソフトウェアはその時点まで SQL Server の累積更新プログラムによって引き続きメンテナンスされます。詳細については、お知らせのブログ記事と「Microsoft SQL Server プラットフォームのビッグデータオプション」を参照してください。

このチュートリアルでは、SQL Server 2019 ビッグデータクラスターで Azure Data Studio にノートブックを読み込んで実行する方法について説明します。これにより、データサイエンティストやデータエンジニアは、クラスターに対して Python、R、または Scala コードを実行することができます。

ヒント

必要に応じて、このチュートリアルのコマンド用のスクリプトをダウンロードして実行できます。手順については、GitHub の Spark サンプルを参照してください。

[前提条件]

ビッグデータツール
- kubectl
- Azure Data Studio
- SQL Server 2019 の拡張機能
ビッグデータクラスターにサンプルデータを読み込む

サンプルのノートブックファイルをダウンロードする

次の手順を使用して、サンプルのノートブックファイル spark-sql.ipynb を Azure Data Studio に読み込みます。

bash コマンドプロンプト (Linux) または Windows PowerShell を開きます。
サンプルのノートブックファイルをダウンロードするディレクトリに移動します。

次の curl コマンドを実行し、GitHub からノートブックファイルをダウンロードします。

curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb

ノートブックを開く

次の手順では、Azure Data Studio でノートブックファイルを開く方法を示しています。

Azure Data Studio で、ビッグデータクラスターのマスターインスタンスに接続します。詳細については、ビッグデータクラスターへの接続に関するページを参照してください。
[サーバー] ウィンドウで、HDFS/Spark ゲートウェイ接続をダブルクリックします。その後、 [ノートブックを開く] を選択します。
[カーネル] とターゲットコンテキスト ( [アタッチ先] ) が設定されるまで待ちます。 [カーネル] を PySpark3 に設定し、 [アタッチ先] をビッグデータクラスターエンドポイントの IP アドレスに設定します。

重要

Azure Data Studio では、すべての種類の Spark ノートブック (Scala Spark、PySpark、SparkR) で通常、最初のセルの実行時に、一部の重要な Spark セッションに関連する変数が定義されます。これらの変数は、spark、sc、および sqlContext です。バッチ送信用のノートブックからロジックを (たとえば、azdata bdc spark batch create を使って実行する Python ファイルに) コピーする場合は、必要に応じて変数を定義してください。

ノートブックセルを実行する

セルの左側にある [再生] ボタンを押して、各ノートブックセルを実行することができます。セルの実行が完了した後、結果がノートブックに表示されます。

ノートブックセルを実行する

サンプルノートブック内の各セルを続けて実行します。 SQL Server ビッグデータクラスターでノートブックを使用する方法の詳細については、次のリソースを参照してください。

次のステップ

ノートブックについてさらに学習します:

ノートブックの使用方法

次の方法で共有

Spark を使用したサンプル ノートブックの実行

[前提条件]

サンプルのノートブック ファイルをダウンロードする

ノートブックを開く

ノートブック セルを実行する

次のステップ

その他のリソース

Spark を使用したサンプルノートブックの実行

サンプルのノートブックファイルをダウンロードする

ノートブックセルを実行する