チュートリアル:Azure Data Factory を使用して HDInsight でオンデマンドの Apache Hadoop クラスターを作成する

2024-06-15

このチュートリアルでは、Azure Data Factory を使用して Azure HDInsight で Apache Hadoop クラスター (オンデマンド) を作成する方法について説明します。その後 Azure Data Factory でデータパイプラインを使用して Hive ジョブを実行し、クラスターを削除します。このチュートリアルを完了すると、クラスターの作成、ジョブの実行、クラスターの削除がスケジュールに従って実行されるビッグデータジョブの実行を operationalize する方法を習得できます。

このチュートリアルに含まれるタスクは次のとおりです。

Azure のストレージアカウントの作成
Azure Data Factory のアクティビティを理解する
Azure Portal を使用してデータファクトリを作成する
リンクされたサービスを作成します
パイプラインを作成する
パイプラインをトリガーする
パイプラインを監視する
出力を検証する

Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。

前提条件

インストール済みの PowerShell Az モジュール。
Microsoft Entra サービスプリンシパル。サービスプリンシパルを作成したら、リンク先の記事の手順に従って、アプリケーション ID と認証キーを必ず取得してください。このチュートリアルで、後ほどこれらの値が必要になります。また、サービスプリンシパルが、サブスクリプションまたはクラスターが作成されるリソースグループの共同作成者ロールのメンバーであることを確認してください。必要な値を取得し、適切なロールを割り当てる手順については、「Microsoft Entra サービスプリンシパルを作成する」を参照してください。

予備の Azure オブジェクトを作成します。

このセクションでは、オンデマンドで作成する HDInsight クラスターに使用する各種オブジェクトを作成します。作成されるストレージアカウントには、クラスターで実行されるサンプル Apache Hive ジョブのシミュレートに使用するサンプル HiveQL スクリプトの partitionweblogs.hql が含まれます。

このセクションでは、Azure PowerShell スクリプトを使用してストレージアカウントを作成し、ストレージアカウント内の必要なファイルをコピーします。このセクションの Azure PowerShell サンプルスクリプトでは、次のタスクを実行します。

Azure へのサインイン
Azure リソースグループを作成します。
Azure Storage アカウントを作成します。
ストレージアカウントに BLOB コンテナーを作成します。
サンプル HiveQL スクリプト (partitionweblogs.hql) を BLOB コンテナーにコピーします。サンプルスクリプトは、別のパブリック BLOB コンテナーで既に使用できます。下記の PowerShell スクリプトでは、作成された Azure ストレージアカウントにこれらのファイルのコピーを作成します。

ストレージアカウントを作成してファイルをコピーする

重要

スクリプトを使って作成する Azure リソースグループと Azure ストレージアカウントの名前を指定します。スクリプトによって出力されたリソースグループ名、ストレージアカウント名、ストレージアカウントキーを書き留めます。これらは、次のセクションで必要になります。

$resourceGroupName = "<Azure Resource Group Name>"
$storageAccountName = "<Azure Storage Account Name>"
$location = "East US"

$sourceStorageAccountName = "hditutorialdata"  
$sourceContainerName = "adfv2hiveactivity"

$destStorageAccountName = $storageAccountName
$destContainerName = "adfgetstarted" # don't change this value.

####################################
# Connect to Azure
####################################
#region - Connect to Azure subscription
Write-Host "`nConnecting to your Azure subscription ..." -ForegroundColor Green
$sub = Get-AzSubscription -ErrorAction SilentlyContinue
if(-not($sub))
{
    Connect-AzAccount
}

# If you have multiple subscriptions, set the one to use
# Select-AzSubscription -SubscriptionId "<SUBSCRIPTIONID>"

#endregion

####################################
# Create a resource group, storage, and container
####################################

#region - create Azure resources
Write-Host "`nCreating resource group, storage account and blob container ..." -ForegroundColor Green

New-AzResourceGroup `
    -Name $resourceGroupName `
    -Location $location

New-AzStorageAccount `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName `
    -Kind StorageV2 `
    -Location $location `
    -SkuName Standard_LRS `
    -EnableHttpsTrafficOnly 1

$destStorageAccountKey = (Get-AzStorageAccountKey `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName)[0].Value

$sourceContext = New-AzStorageContext `
    -StorageAccountName $sourceStorageAccountName `
    -Anonymous

$destContext = New-AzStorageContext `
    -StorageAccountName $destStorageAccountName `
    -StorageAccountKey $destStorageAccountKey

New-AzStorageContainer `
    -Name $destContainerName `
    -Context $destContext
#endregion

####################################
# Copy files
####################################
#region - copy files
Write-Host "`nCopying files ..." -ForegroundColor Green

$blobs = Get-AzStorageBlob `
    -Context $sourceContext `
    -Container $sourceContainerName `
    -Blob "hivescripts\hivescript.hql"

$blobs|Start-AzStorageBlobCopy `
    -DestContext $destContext `
    -DestContainer $destContainerName `
    -DestBlob "hivescripts\partitionweblogs.hql"

Write-Host "`nCopied files ..." -ForegroundColor Green
Get-AzStorageBlob `
    -Context $destContext `
    -Container $destContainerName
#endregion

Write-host "`nYou will use the following values:" -ForegroundColor Green
write-host "`nResource group name: $resourceGroupName"
Write-host "Storage Account Name: $destStorageAccountName"
write-host "Storage Account Key: $destStorageAccountKey"

Write-host "`nScript completed" -ForegroundColor Green

ストレージアカウントを確認する

Azure Portal にサインオンします。
左側から、 [すべてのサービス]>[全般]>[リソースグループ] の順に移動します。
PowerShell スクリプトで作成したリソースグループの名前を選択します。一覧表示されるリソースグループが多すぎる場合は、フィルターを使用します。
[概要] ビューには、リソースグループを他のプロジェクトと共有する場合を除き、リソースが 1 つだけ表示されています。このリソースが、前の手順で指定した名前のストレージアカウントです。ストレージアカウント名を選択します。
[コンテナー] タイルを選択します。
adfgetstarted コンテナーを選択します。 hivescripts というフォルダーが表示されます。
このフォルダーを開き、サンプルスクリプトファイル (partitionweblogs.hql) があることを確認します。

Azure Data Factory のアクティビティを理解する

Azure Data Factory では、データの移動と変換を調整して自動化します。 Azure Data Factory を使用すると、入力データスライスを処理するために HDInsight Hadoop クラスターをジャストインタイムで作成し、処理が完了したらクラスターを削除できます。

Azure Data Factory では、データファクトリに 1 つまたは複数のデータパイプラインを設定できます。データパイプラインには、1 つ以上のアクティビティがあります。次の 2 種類のアクティビティがあります。

データ移動アクティビティ - データ移動アクティビティを使用して、ソースデータストアから宛先データストアにデータを移動します。
データ変換アクティビティ - データ変換アクティビティは、データを変換/処理するために使用します。 HDInsight Hive アクティビティは、Data Factory でサポートされるデータ変換アクティビティの 1 つです。このチュートリアルでは、Hive 変換アクティビティを使用します。

この記事では、オンデマンドの HDInsight Hadoop クラスターを作成するように Hive アクティビティを構成します。アクティビティを実行してデータを処理するときには、次のことが行われます。

スライスを処理するために、HDInsight Hadoop クラスターが Just-In-Time 方式で自動的に作成されます。
クラスター上で HiveQL スクリプトを実行することによって入力データが処理されます。このチュートリアルの Hive アクティビティに関連付けられた HiveQL スクリプトは、次のアクションを実行します。
- 既存のテーブル (hivesampletable) を使用して別のテーブル (HiveSampleOut) を作成します。
- HiveSampleOut テーブルに、元の hivesampletable の特定の列だけを設定します。
HDInsight Hadoop クラスターは、処理が完了し、(TimeToLive 設定で) 構成された時間アイドル状態になると、削除されます。この TimeToLive アイドル時間内に次のデータスライスを処理できる場合、スライスを処理するために同じクラスターが使用されます。

Data Factory の作成

Azure portal にサインインします。
左側のメニューで、+ Create a resource>[分析]>[データファクトリ] の順に移動します。

新しいデータファクトリタイルに以下の値を入力するか選択します。

プロパティ	値
名前	データファクトリの名前を入力します。この名前はグローバルに一意である必要があります。
Version	V2のままにします。
サブスクリプション	Azure サブスクリプションを選択します。
Resource group	PowerShell スクリプトを使用して作成したリソースグループを選択します。
場所	場所は、リソースグループの作成時に指定した場所に自動的に設定されます。このチュートリアルでは、場所は [米国東部] に設定されます。
Enable GIT	このボックスはオフにしてください。

Create Azure Data Factory using Azure portal.

［作成］ を選択しますデータファクトリの作成には、2 ～ 4 分ほどかかることがあります。
データファクトリが作成されると、 [リソースに移動] ボタンを含むデプロイ成功通知が届きます。 [リソースに移動] を選択して、Data Factory の既定のビューを開きます。
[作成と監視] を選択して、Azure Data Factory の作成および監視ポータルを起動します。

リンクされたサービスを作成します

このセクションでは、データファクトリ内に 2 つのリンクされたサービスを作成します。

Azure ストレージアカウントをデータファクトリにリンクする、Azure Storage のリンクされたサービス。このストレージは、オンデマンドの HDInsight クラスターによって使用されます。また、クラスター上で実行される Hive スクリプトも含まれています。
オンデマンドの HDInsight のリンクされたサービス。 Azure Data Factory によって、HDInsight クラスターが自動的に作成され、Hive スクリプトが実行されます。 HDInsight クラスターは、事前に構成された時間だけアイドル状態になったら削除されます。

Azure Storage のリンクされたサービスを作成する

[始めましょう] ページの左側のウィンドウで、 [作成者] アイコンをクリックします。
ウィンドウの左下隅にある [接続] を選択し、 [+ 新規] を選択します。
[New Linked Service](新しいリンクされたサービス) ダイアログボックスで [Azure Blob Storage] を選択し、 [続行] をクリックします。

ストレージのリンクサービスに次の値を指定します。

プロパティ	値
名前	「`HDIStorageLinkedService`」と入力します。
Azure サブスクリプション	ドロップダウンリストからサブスクリプションを選択します。
ストレージアカウント名	PowerShell スクリプトの一部として作成した Azure Storage アカウントを選択します。

[テスト接続] を選択し、成功した場合は [作成] を選択します。

Provide name for Azure Storage linked service.

オンデマンドの HDInsight のリンクされたサービスを作成する

[+ 新規] ボタンをもう一度選択して、別のリンクされたサービスを作成します。
[New Linked Service](新しいリンクされたサービス) ウィンドウで、 [Compute] (計算) タブを選択します。
[Azure HDInsight] を選択し、 [続行] を選択します。

[New Linked Service] (新しいリンクサービス) ウィンドウで次の値を入力し、残りは既定値のままにしておきます。

プロパティ	値
名前	「`HDInsightLinkedService`」と入力します。
Type	[On-demand HDInsight](オンデマンド HDInsight) を選択します。
Azure Storage のリンクされたサービス	[`HDIStorageLinkedService`] を選択します。
クラスターの種類	[hadoop] を選択します。
Time to Live	HDInsight クラスターを使用できるようにしておく期間を指定します。この期間を過ぎると、クラスターは自動的に削除されます。
サービスプリンシパル ID	前提条件の一部として作成した Microsoft Entra サービスプリンシパルのアプリケーション ID を指定します。
サービスプリンシパルキー	Microsoft Entra サービスプリンシパルの認証キーを指定します。
Cluster name prefix(クラスター名のプレフィックス)	データファクトリによって作成されるすべてのクラスターの種類にプレフィックスとして追加する値を指定します。
サブスクリプション	ドロップダウンリストからサブスクリプションを選択します。
リソースグループの選択	以前に使用した PowerShell スクリプトの一部として作成したリソースグループを選択します。
OS type/Cluster SSH ユーザー名	SSH ユーザー名 (通常は`sshuser`) を入力します。
OS type/Cluster SSH パスワード	SSH ユーザーのパスワードを指定します。
OS type/Cluster ユーザー名	クラスターのユーザー名 (通常は`admin`) を入力します。
OS type/Cluster パスワード	クラスターユーザーのパスワードを指定します。

[作成] を選択します。

Provide values for HDInsight linked service.

パイプラインを作成する

+ (正符号) ボタンを選択し、[パイプライン] を選択します。
[アクティビティ] ツールボックスで [HDInsight] を展開し、パイプラインデザイナー画面に Hive アクティビティをドラッグします。 [全般] タブで、アクティビティの名前を指定します。
Hive アクティビティが選択されていることを確認し、 [HDI Cluster](HDI クラスター) タブを選択します。 [HDInsight Linked Service](HDInsight のリンクされたサービス) ドロップダウンリストで、HDInsight 用に以前に作成したリンクサービスの HDInsightLinkedService を選択します。
[スクリプト] タブを選択し、次の手順を実行します。
1. [スクリプトにリンクされたサービス] でドロップダウンリストから [HDIStorageLinkedService] を選択します。この値は、以前に作成したストレージのリンクされたサービスです。
2. [ファイルパス] で [ストレージを参照] を選択し、サンプル Hive スクリプトがある場所に移動します。以前に PowerShell スクリプトを実行した場合、この場所は adfgetstarted/hivescripts/partitionweblogs.hql になります。
3. [詳細設定]>[パラメーター] で、[Auto-fill from script] を選択します。このオプションを選択すると、実行時に値を必要とする、Hive スクリプトのパラメーターが検索されます。
4. [値] ボックスに、wasbs://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ 形式で既存のフォルダーを追加します。パスの大文字と小文字は区別されます。このパスにスクリプトの出力が保存されます。ストレージアカウントではセキュリティで保護された転送が既定で有効であることが必要になったため、wasbs スキーマが不可欠です。
[検証] を選択してパイプラインを検証します。 >> (右矢印) ボタンを選択して、検証ウィンドウを閉じます。
最後に、 [すべて発行] を選択して、成果物を Azure Data Factory に発行します。

パイプラインをトリガーする

デザイナー画面のツールバーで、 [Add trigger] (トリガーを追加)>[Trigger Now](今すぐトリガー) を選択します。
ポップアップサイドバーで [OK] を選択します。

パイプラインを監視する

左側で [監視] タブに切り替えます。 [Pipeline Runs](パイプラインの実行) の一覧にパイプライン実行が表示されます。 [状態] 列で実行の状態を確認します。
[最新の情報に更新] を選択して、状態を更新します。
[View Activity Runs](アクティビティの実行の表示) アイコンをクリックして、パイプラインに関連付けられているアクティビティの実行を表示することもできます。作成したパイプラインにはアクティビティが 1 つしかないため、次のスクリーンショットでは、アクティビティの実行が 1 つしか表示されていません。前のビューに戻るには、ページの上部にある [パイプライン] を選択します。

出力を検証する

出力を検証するには、Azure Portal 上で、このチュートリアルで使用したストレージアカウントに移動します。次のフォルダーまたはコンテナーが表示されます。
- パイプラインの一部として実行された Hive スクリプトの出力が含まれた adfgerstarted/outputfolder が表示されます。
- adfhdidatafactory-<リンクされたサービスの名前>-<タイムスタンプ> コンテナーが表示されます。このコンテナーは、パイプライン実行の一環として作成された HDInsight クラスターの既定のストレージの場所です。
- Azure Data Factory のジョブログがある adfjobs コンテナーが表示されます。

リソースをクリーンアップする

オンデマンドの HDInsight クラスターを作成した場合、HDInsight クラスターを明示的に削除する必要はありません。クラスターは、パイプラインの作成時に指定した構成に基づいて削除されます。クラスターを削除した後も、クラスターに関連付けられているストレージアカウントは引き続き存在します。データをそのまま保持できるように、この動作は仕様です。データを保持する必要がない場合は、作成したストレージアカウントを削除してかまいません。

また、このチュートリアルで作成したリソースグループ全体を削除することもできます。このプロセスにより、作成したストレージアカウントと Azure Data Factory が削除されます。

リソースグループを削除します

Azure Portal にサインオンします。
左側のウィンドウの [リソースグループ] を選択します。
PowerShell スクリプトで作成したリソースグループの名前を選択します。一覧表示されるリソースグループが多すぎる場合は、フィルターを使用します。リソースグループが開きます。
[リソース] タイルには、リソースグループを他のプロジェクトと共有する場合を除き、既定のストレージアカウントとデータファクトリが表示されます。
[リソースグループの削除] を選択します。この操作を実行すると、ストレージアカウントと、そのストレージアカウントに格納されているデータが削除されます。
リソースグループ名を入力して削除を確認し、 [削除] をクリックします。

次のステップ

この記事では、Azure Data Factory を使用してオンデマンドの HDInsight クラスターを作成し、Apache Hive ジョブを実行する方法を説明しました。次の記事に進み、HDInsight クラスターをカスタム構成で作成する方法を確認してください。

Azure HDInsight クラスターをカスタム構成で作成する