演習 - Azure Data Factory 内でコンピューティング変換を使う - Training

8 分

場合によっては、コードの記述が不要な大規模な変換が要件を満たさないことがあります。 Azure Data Factory を使用すると、さまざまなソースから収集された生データを取り込み、Azure Databricks、Azure HDInsight のようなコンピューティングリソースを操作したり、その他のコンピューティングリソースを要件に合わせて再構築したりできます。

ADF と Azure Databricks

たとえば、Azure Databricks と ADF の統合により、ADF パイプライン内に Databricks のノートブックを追加して、Databricks の分析機能とデータ変換機能を活用することができます。データワークフロー内にノートブックを追加して、さまざまなソースから ADF に読み込まれた生データを構造化し、変換することができます。 Databricks を使用してデータを変換したら、それを任意のデータウェアハウスソースに読み込むことができます。

ADF と Azure Databricks の総合機能を使用したデータインジェストと変換には、基本的に以下の手順が含まれます。

Azure ストレージアカウントを作成する - 最初の手順は、取り込んで変換したデータを保存する Azure ストレージアカウントを作成することです。
Azure データファクトリを作成する - ストレージアカウントをセットアップしたら、Azure portal を使用して Azure データファクトリを作成する必要があります。
データワークフローパイプラインを作成する - ストレージと ADF の稼働開始後、まずパイプラインを作成します。その際の最初の手順は、ADF のコピーアクティビティを使用してソースからデータをコピーすることです。コピーアクティビティを使用すると、オンプレミスおよびクラウド上のさまざまなソースからデータをコピーできます。
Databricks のノートブックをパイプラインに追加する - データを ADF にコピーしたら、コピーアクティビティの後、Databricks のノートブックをパイプラインに追加します。このノートブックには、必要に応じて生データを変換およびクリーンアップするための構文とコードが含まれている場合があります。
データに対する分析を実行する - データがクリーンアップされ、必要な形式に構造化されたので、Databricks のノートブックを使用して、必要な結果を出力するためにデータをさらにトレーニングまたは分析することができます。

Azure Data Factory とは何か、Azure Databricks との統合がデータの読み込みと変換にどのように役立つかを学びました。それでは、エンドツーエンドのサンプルデータワークフローを作成しましょう。

Azure Databricks ノートブックと Azure Data Factory パイプラインを統合する

Azure Databricks ノートブックと Azure Data Factory パイプラインを統合するには、次のようないくつかのタスクを実行する必要があります。

Databricks アクセストークンを生成する。
Databricks ノートブックを生成する
リンクサービスを作成する
Databricks ノートブックアクティビティを使用するパイプラインを作成する。
パイプラインの実行をトリガーする。

注意

次の手順では、Azure Databricks クラスターが既にプロビジョニングされているものとします

タスク 1: Databricks アクセストークンを生成する。

Azure portal で [リソースグループ] をクリックし、[awrgstudxx] をクリックして、[awdbwsstudxx] をクリックします。ここで、xx は自分の名前の頭文字です。
[ワークスペースの起動] をクリックします
Databricks ワークスペースの左下隅にある、ユーザーの [設定] をクリックします。
[ユーザー設定] をクリックします。
[アクセストークン] タブにアクセスし、[新しいトークンの生成] ボタンをクリックします。
"ADF 統合" のコメントに説明を入力し、有効期間を 10 日に設定して、[生成] をクリックします
生成されたトークンをコピーしてメモ帳に保存し、[完了] をクリックします。

タスク 2: Databricks ノートブックを生成する

画面の左側で [ワークスペース] アイコンをクリックし、"ワークスペース" という語の横にある矢印をクリックして、[作成] をクリックします。次に、[フォルダー] をクリックします。フォルダーに adftutorial という名前を指定し、[フォルダーの作成] をクリックします。ワークスペースに adftutorial フォルダーが表示されます。
adftutorial の横にあるドロップダウン矢印をクリックし、[作成] をクリックして、[ノートブック] をクリックします。
[ノートブックの作成] ダイアログボックスで mynotebook の名前を入力し、言語が Python であることを確認して、[作成] をクリックします。 mynotebook というタイトルのノートブックが表示されます

新しく作成されたノートブック "mynotebook" に次のコードを追加します。

# Creating widgets for leveraging parameters, and printing the parameters

dbutils.widgets.text("input", "","")
dbutils.widgets.get("input")
y = getArgument("input")
print ("Param -\'input':")
print (y)

注意

ノートブックのパスは /adftutorial/mynotebook です

タスク 3: リンクサービスを作成する

Microsoft Edge で、Azure portal のポータルのタブをクリックし、Azure Data Factory に戻って、[Azure Data Factory Studio を開く] をクリックします。
画面の左側で、[管理] アイコンをクリックします。
[接続] の下で、[リンクされたサービス] をクリックします。
画面の上部にある [リンクされたサービス] で [+ 新規] をクリックします。
[コンピューティング] タブで、[Azure Databricks] をクリックして、[続行] をクリックします。
[New Linked Service (Azure Databricks)](新しいリンクサービス (Azure Databricks)) 画面で、次の詳細を入力し、[完了] をクリックします
- [名前]: xx_dbls。ここで、xx は自分のイニシャルです
- [Databricks ワークスペース]: awdbwsstudxx。ここで、xx は自分のイニシャルです
- [クラスターの選択]: 既存のものを使用します
- [Domain/ Region](ドメイン/リージョン): 値を設定する必要があります
- [アクセストークン]: メモ帳からアクセストークンをコピーし、このフィールドに貼り付けます
- [Choose from existing cluster](既存のクラスターから選択): awdbclstudxx。ここで、xx は自分のイニシャルです
- 他のオプションは既定の設定のままにします
Note

[完了] をクリックすると、xx_dbls が作成された [作成と監視] 画面に戻り、前の演習で作成した他のリンクサービスが表示されます。

タスク 4: Databricks ノートブックアクティビティを使用するパイプラインを作成する。

画面の左側の [作成] アイコンをクリックし、[パイプライン] をクリックします。パイプラインデザイナーのタブが開きます。
パイプラインデザイナーの下部にあるパラメータータブをクリックし、[+ 新規] をクリックします
パラメーターを作成します。名前は name、種類は文字列にします
[アクティビティ] メニューの [Databricks] を展開します。
[ノートブック] をクリックしてキャンバスにドラッグします。
[Notebook1] ウィンドウの下部のプロパティで、以下の手順を実行します。
- [Azure Databricks] タブに切り替えます。
- 前の手順で作成した xx_dbls を選択します。
- [設定] タブに切り替えて、ノートブックのパスに /adftutorial/mynotebook を付加します。
- [Base Parameters](基本パラメーター) を展開し、[+ 新規] をクリックします
- パラメーターを作成します。名前を input、値を @pipeline().parameters.name にします
[Notebook1] で、[テンプレートとして保存] ボタンの横にある [検証] をクリックします。画面の右側にウィンドウが表示され、"Your Pipeline has been validated. (パイプラインが検証されました。) エラーは見つかりませんでした。" >> をクリックしてウィンドウを閉じます。
[Publish All](すべて発行) をクリックして、リンクサービスとパイプラインを発行します。

注意

デプロイが成功したことを知らせるメッセージが表示されます。

タスク 5: パイプラインの実行をトリガーする

[Notebook1] で [トリガーの追加] をクリックし、[デバッグ] ボタンの横にある [Trigger Now](今すぐトリガー) をクリックします。
[Pipeline Run](パイプラインの実行) ダイアログボックスで、name パラメーターの指定が求められます。ここでは、パラメーターとして /path/filename を使用します。 [完了] をクリックします。キャンバスで Notebook1 アクティビティの上に赤い円が表示されます。

タスク 6: パイプラインを監視する

画面の左側で、[監視] タブをクリックします。パイプライン実行が表示されることを確認します。ノートブックが実行される Databricks ジョブクラスターを作成するには、5 分から 8 分ほどかかります。
[最新の情報に更新] を定期的にクリックして、パイプラインの実行の状態を確認します。
パイプラインの実行に関連付けられているアクティビティの実行を表示するために、 [アクション] 列の [View Activity Runs](アクティビティの実行の表示) を選択します。

タスク 7: 出力を確認する

Microsoft Edge で、[mynotebook - Databricks] タブをクリックします
Azure Databricks ワークスペースで [クラスター] をクリックすると、ジョブの状態 (実行の保留中、実行中、または終了) を確認できます。
クラスター awdbclstudxx をクリックし、[イベントログ] をクリックして、アクティビティを表示します。

注意

[開始] のイベントの種類と、パイプライン実行をトリガーした時刻が表示されるはずです。

続行

演習 - Azure Data Factory 内でコンピューティング変換を使う

ADF と Azure Databricks

Azure Databricks ノートブックと Azure Data Factory パイプラインを統合する

タスク 1: Databricks アクセス トークンを生成する。