ビッグデータクラスターで HDFS 階層化用の ADLS Gen2 をマウントする方法

2020-06-29

以降のセクションでは、Azure Data Lake Storage Gen2 データソースを使用して HDFS 階層制御を構成する方法の例を示します。

重要

Microsoft SQL Server 2019 ビッグデータクラスターのアドオンは廃止されます。 SQL Server 2019 ビッグデータクラスターのサポートは、2025 年 2 月 28 日に終了します。ソフトウェアアシュアランス付きの SQL Server 2019 を使用する既存の全ユーザーはプラットフォームで完全にサポートされ、ソフトウェアはその時点まで SQL Server の累積更新プログラムによって引き続きメンテナンスされます。詳細については、お知らせのブログ記事と「Microsoft SQL Server プラットフォームのビッグデータオプション」を参照してください。

[前提条件]

展開済みのビッグデータクラスター
ビッグデータツール
- azdata
- kubectl

Azure Data Lake Storage にデータを読み込む

次のセクションでは、HDFS の階層化をテストするために Azure Data Lake Storage Gen2 を設定する方法について説明します。 Azure Data Lake Storage にデータが既に格納されている場合は、このセクションをスキップして独自のデータを使用できます。

Data Lake Storage Gen2 機能を使用してストレージアカウントを作成します。
このストレージアカウントにデータ用のファイルシステムを作成します。
CSV または Parquet ファイルをコンテナーにアップロードします。これは、ビッグデータクラスター内の HDFS にマウントされる外部 HDFS データです。

マウント用の資格情報

OAuth 資格情報を使用してマウントする

OAuth 資格情報を使用してマウントするには、次の手順に従う必要があります。

Azure portal に移動します
Microsoft Entra ID に移動します。左側のナビゲーションバーにこのサービスが表示されます。
リソースメニューから [アプリの登録 ] を選択し、新しい登録を作成します。
Web アプリケーションを作成し、ウィザードに従います。 この手順で作成するアプリの名前を覚えておいてください。この名前は、承認されたユーザーとして ADLS アカウントに追加する必要があります。アプリを選択した際には、概要にあるアプリケーションクライアント ID を記録しておきます。
Web アプリケーションが作成されたら、 証明書とシークレット に移動し、 新しいクライアントシークレットの作成を選択します。キーの長さを選択します。 [追加] を使用してシークレットを保存します。
[アプリの登録] ページに戻り、上部にある [エンドポイント] をクリックします。 "OAuth トークンエンドポイント (v2) の URL をメモしてください。
これで、OAuth に関して次の点が示されます。
- Web アプリケーションの "アプリケーションクライアント ID"
- クライアントシークレット
- トークンエンドポイント

ADLSアカウントへのサービスプリンシパルの追加

もう一度ポータルに移動し、ADLS ストレージアカウントファイルシステムに移動し、左側のメニューで [アクセス制御 (IAM)] を選択します。
[ロールの割り当ての追加] を選択する
ロール "ストレージ BLOB データ共同作成者" を選択する
上記で作成した名前を検索します (一覧には表示されませんが、完全な名前を検索すると見つかります)。
ロールを保存します。

認証情報を用いてマウントを行う前に、5〜10分待ってください。

OAuth 資格情報の環境変数を設定する

ビッグデータクラスターにアクセスできるクライアントコンピューターでコマンドプロンプトを開きます。次の形式を使用して環境変数を設定します。資格情報はコンマ区切りのリストに含まれている必要があります。 'set' コマンドは Windows で使用されます。 Linux を使用している場合は、代わりに 'export' を使用してください。

資格情報を指定するときは、コンマ ", " の間の改行またはスペースを削除する必要があることに注意してください。以下の書式設定は、読みやすくするためだけです。

   set MOUNT_CREDENTIALS=fs.azure.account.auth.type=OAuth,
   fs.azure.account.oauth.provider.type=org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider,
   fs.azure.account.oauth2.client.endpoint=[token endpoint],
   fs.azure.account.oauth2.client.id=[Application client ID],
   fs.azure.account.oauth2.client.secret=[client secret]

アクセスキーを使用してマウントする

Azure portal で ADLS アカウント用に取得できるアクセスキーを使用してマウントすることもできます。

ヒント

ストレージアカウントのアクセスキー (<storage-account-access-key>) を検索する方法の詳細については、「アカウントキーと接続文字列の表示」を参照してください。

アクセスキー資格情報の環境変数を設定する

ビッグデータクラスターにアクセスできるクライアントコンピューターでコマンドプロンプトを開きます。
ビッグデータクラスターにアクセスできるクライアントコンピューターでコマンドプロンプトを開きます。次の形式を使用して環境変数を設定します。資格情報はコンマ区切りのリストに含まれている必要があります。 'set' コマンドは Windows で使用されます。 Linux を使用している場合は、代わりに 'export' を使用してください。

set MOUNT_CREDENTIALS=fs.azure.abfs.account.name=<your-storage-account-name>.dfs.core.windows.net,
fs.azure.account.key.<your-storage-account-name>.dfs.core.windows.net=<storage-account-access-key>

リモート HDFS ストレージをマウントする

アクセスキーまたは OAuth のMOUNT_CREDENTIALS環境変数を設定したら、マウントを開始できます。次の手順では、Azure Data Lake のリモート HDFS ストレージをビッグデータクラスターのローカル HDFS ストレージにマウントします。

kubectl を使用して、ビッグデータクラスター内のエンドポイント コントローラー-svc-external サービスの IP アドレスを検索します。 外部 IP を探します。
```
kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
```
クラスターのユーザー名とパスワードを使用して、コントローラーエンドポイントの外部 IP アドレスを使用して azdata でログインします。
```
azdata login -e https://<IP-of-controller-svc-external>:30080
```
環境変数MOUNT_CREDENTIALSを設定する (手順を上にスクロール)
azdata bdc hdfs mount create を使用して、Azure にリモート HDFS ストレージをマウントします。次のコマンドを実行する前に、プレースホルダーの値を置き換えます。
```
azdata bdc hdfs mount create --remote-uri abfs://<blob-container-name>@<storage-account-name>.dfs.core.windows.net/ --mount-path /mounts/<mount-name>
```
注

mount create コマンドは非同期です。現時点では、マウントが成功したかどうかを示すメッセージはありません。マウントの状態を確認するには、状態セクションを参照してください。

正常にマウントされた場合は、HDFS データに対してクエリを実行し、それに対して Spark ジョブを実行できます。ビッグデータクラスターの HDFS には、 --mount-pathで指定された場所に表示されます。

マウント状況を確認する

ビッグデータクラスター内のすべてのマウントの状態を一覧表示するには、次のコマンドを使用します。

azdata bdc hdfs mount status

HDFS の特定のパスにあるマウントの状態を一覧表示するには、次のコマンドを使用します。

azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>

マウントを更新する

次の例では、マウントを更新します。この更新により、マウントキャッシュもクリアされます。

azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>

マウントを削除する

マウントを削除するには、 azdata bdc hdfs mount delete コマンドを使用し、HDFS でマウントパスを指定します。

azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>

次のステップ

SQL Server 2019 ビッグデータクラスターの詳細については、「SQL Server 2019 ビッグデータクラスターとは」を参照してください。