Azure portal を使用して、Azure Data Lake Storage Gen1 を使用する HDInsight クラスターを作成する

[アーティクル]
05/29/2018

Azure portal を使用して、既定のストレージまたは追加のストレージとして Azure Data Lake Storage Gen1 を使用する HDInsight クラスターを作成する方法を説明します。追加のストレージは HDInsight クラスターでは省略可能ですが、業務データは追加のストレージアカウントに格納することをお勧めします。

前提条件

開始する前に、次の要件を満たしていることを確認します。

Azure サブスクリプション。 Azure 無料試用版の取得に関するページをご覧ください。
Azure Data Lake Storage Gen1 アカウント。「Azure portal で Azure Data Lake Storage Gen1 の使用を開始する」の手順に従ってください。アカウントのルートフォルダーも作成する必要があります。この記事では、 /clusters という名前のルートフォルダーを使用します。
Microsoft Entra サービスプリンシパル。このハウツーガイドでは、Microsoft Entra IDでサービスプリンシパルを作成する方法について説明します。ただし、サービスプリンシパルを作成するには、Microsoft Entra管理者である必要があります。管理者である場合は、この前提条件をスキップして続行することができます。

注意

サービスプリンシパルは、Microsoft Entra管理者の場合にのみ作成できます。 Data Lake Storage Gen1を使用して HDInsight クラスターを作成するには、Microsoft Entra管理者がサービスプリンシパルを作成する必要があります。また、「証明書を使用したサービスプリンシパルの作成」で説明しているように、サービスプリンシパルは証明書を使って作成する必要があります。

HDInsight クラスターの作成

このセクションでは、既定のまたは追加のストレージとして Data Lake Storage Gen1 を使用する HDInsight クラスターを作成します。この記事では、Data Lake Storage Gen1 の構成の一部のみを取り上げます。一般的なクラスターの作成に関する情報および手順については、HDInsight での Hadoop クラスターの作成に関するページを参照してください。

Data Lake Storage Gen1 を既定のストレージとして使用してクラスターを作成する

既定のストレージアカウントとして Data Lake Storage Gen1 を使用する HDInsight クラスターを作成するには:

Azure portal にサインインする
HDInsight クラスターの作成に関する一般的な情報については、「クラスターの作成」を参照してください。
[ストレージ] ブレードの [プライマリストレージの種類] で、 [Azure Data Lake Storage Gen1] を選択して、次の情報を入力します。
- [Data Lake Store アカウントを選択する] : 既存の Data Lake Storage Gen1 アカウントを選択します。既存の Data Lake Storage Gen1 アカウントが必要です。「前提条件」を参照してください。
- [ルートパス] : クラスターに固有のファイルが格納されるパスを入力します。このスクリーンショットでは、 /clusters/myhdiadlcluster/ です。この場合、 /clusters フォルダーが存在する必要があり、Portal では myhdicluster フォルダーが作成されます。 myhdicluster がクラスター名です。
- [Data Lake Store アクセス] : Data Lake Storage Gen1 アカウントと HDInsight クラスターの間のアクセスを構成します。手順については、「Data Lake Storage Gen1 のアクセスの構成」を参照してください。
- [追加のストレージアカウント] : クラスターの追加のストレージアカウントとして Azure ストレージアカウントを追加します。 Data Lake Storage Gen1 アカウントの追加は、プライマリストレージタイプとして Data Lake Storage Gen1 アカウントを構成する際に、他の Data Lake Storage Gen1 アカウントのデータに対するクラスターのアクセス許可を与えることで完了します。「Data Lake Storage Gen1 のアクセスの構成」を参照してください。
[Data Lake Store アクセス] で、 [選択] をクリックし、HDInsight での Hadoop クラスターの作成に関するページの説明に従ってクラスターの作成に進みます。

Data Lake Storage Gen1 を追加のストレージとして使用してクラスターを作成する

次の手順で、既定のストレージとして Azure Blob ストレージアカウントを使い、追加のストレージとして Data Lake Storage Gen1 を使用するストレージアカウントを使って HDInsight クラスターを作成します。

Data Lake Storage Gen1 を追加のストレージアカウントとして使用する HDInsight クラスターを作成するには:

Azure portal にサインインする
HDInsight クラスターの作成に関する一般的な情報については、「クラスターの作成」を参照してください。
[ストレージ] ブレードの [プライマリストレージの種類] で、 [Azure Storage] を選択して、次の情報を入力します。
- 選択方法 - Azure サブスクリプションの一部であるストレージアカウントを指定するには、[個人用サブスクリプション] を選択し、ストレージアカウントを選択します。 Azure サブスクリプションの外部にあるストレージアカウントを指定するには、アクセスキー を選択し、外部のストレージアカウントの情報を入力します。
- [既定のコンテナー] - 既定値を使用するか、独自の名前を指定します。
- [追加のストレージアカウント] - 追加のストレージとして Azure ストレージアカウントを追加します。
- [Data Lake Store アクセス] - Data Lake Storage Gen1 アカウントと HDInsight クラスターの間のアクセスを構成します。手順については、「Data Lake Storage Gen1 のアクセスの構成」を参照してください。

Data Lake Storage Gen1 のアクセスの構成

このセクションでは、Microsoft Entra サービスプリンシパルを使用して HDInsight クラスターからのData Lake Storage Gen1アクセスを構成します。

サービスプリンシパルの指定

Azure Portal から、既存のサービスプリンシパルを使用するか、新しいものを作成することができます。

Azure portal からサービスプリンシパルを作成するには:

「Microsoft Entra IDを使用してサービスプリンシパルと証明書を作成する」を参照してください。

Azure portal から既存のサービスプリンシパルを使用するには:

サービスプリンシパルには、ストレージアカウントの所有者権限を与える必要があります。サービスプリンシパルをストレージアカウントの所有者にする権限を設定する方法に関するページを参照してください。
[Data Lake Store アクセス] を選択します。
[Data Lake Storage Gen1 アクセス] ブレードで、[既存のものを使用] を選択します。
[サービスプリンシパル] を選択し、サービスプリンシパルを選択します。
選択したサービスプリンシパルに関連付けられている証明書 (.pfx ファイル) をアップロードし、証明書のパスワードを入力します。
[アクセス] を選択して、フォルダーへのアクセスを構成します。「ファイルのアクセス許可を構成する」を参照してください。

サービスプリンシパルをストレージアカウントの所有者にする権限を設定する

ストレージアカウントの [アクセス制御 (IAM)] ブレードで [ロールの割り当てを追加する] をクリックします。
[ロールの割り当てを追加する] ブレードで、ロールとして "所有者" を選択し、SPN を選択し、[保存] をクリックします。

ファイルのアクセス許可を構成する

構成は、アカウントを既定のストレージとして使用するか、追加のストレージアカウントとして使用するかによって異なります。

既定のストレージとして使用する
- Data Lake Storage Gen1 アカウントのルートレベルでのアクセス許可
- HDInsight クラスター記憶域のルートレベルでのアクセス許可。たとえば、このチュートリアルで使用した /clusters フォルダー。
追加のストレージとして使用する
- ファイルアクセスが必要なフォルダーのアクセス許可。

Data Lake Storage Gen1 を使用するストレージアカウントのルートレベルでアクセス許可を割り当てるには:

[Data Lake Storage Gen1 アクセス] ブレードで、[アクセス] を選択します。 [ファイルアクセス許可の選択] ブレードが開きます。サブスクリプション内のすべてのストレージアカウントが一覧表示されます。
Data Lake Storage Gen1 を使用するアカウント名の上にマウスポインターを置いて (クリックしないでください) チェックボックスを表示し、そのチェックボックスを選択します。

既定では、 [読み取り] 、 [書き込み] 、 [実行] がすべて選択されています。
ページの下部にある [選択] をクリックします。
[実行] を選択して、アクセス許可を割り当てます。
[Done] を選択します。

HDInsight クラスターのルートレベルでアクセス許可を割り当てるには:

[Data Lake Storage Gen1 アクセス] ブレードで、[アクセス] を選択します。 [ファイルアクセス許可の選択] ブレードが開きます。サブスクリプション内のすべての Data Lake Storage Gen1 を使用するストレージアカウントが一覧表示されます。
[ファイルアクセス許可の選択] ブレードで、Data Lake Storage Gen1 を使用するストレージアカウントの名前を選択して、その内容を表示します。
フォルダーの左側のチェックボックスを選択して HDInsight クラスター記憶域のルートを選択します。前のスクリーンショットでは、クラスター記憶域のルートは、Data Lake Storage Gen1 を既定のストレージとして選択したときに指定した /clusters フォルダーです。
フォルダーのアクセス許可を設定します。既定では、[読み取り]、[書き込み]、[実行] がすべて選択されています。
ページの下部にある [選択] をクリックします。
[実行] を選択します。
[Done] を選択します。

Data Lake Storage Gen1 を追加のストレージとして使用している場合は、HDInsight クラスターからアクセスするフォルダーに対してのみアクセス許可を割り当てる必要があります。たとえば、次のスクリーンショットでは、Data Lake Storage Gen1 を使用するストレージアカウントの mynewfolder フォルダーへのアクセスのみを提供します。

HDInsight クラスターにサービスプリンシパルのアクセス許可を割り当てる

クラスター設定の確認

クラスターのセットアップが完了したら、クラスターブレードで、次の手順のいずれかまたは両方を実行して結果を確認します。

クラスターに関連付けられているストレージが、指定した Data Lake Storage Gen1 を使用するストレージアカウントであることを確認するには、左側のペインで [ストレージアカウント] を選択します。
サービスプリンシパルが HDInsight クラスターに正しく関連付けられていることを確認するには、左側のペインで [Data Lake Storage Gen1 アクセス] を選択します。

例

Data Lake Storage Gen1 をストレージとして使用するクラスターを設定したら、HDInsight クラスターを使用して Data Lake Storage Gen1 に格納されているデータを分析する方法について、以下に示すいくつかの例をご覧ください。

(プライマリストレージとしての) Data Lake Storage Gen1 に格納されているデータに対して Hive クエリを実行する

Hive クエリを実行する場合は、Ambari ポータルで提供されている Hive ビューインターフェイスを使用します。 Ambari Hive ビューの使用方法については、「HDInsight での Hive View と Hadoop の使用」をご覧ください。

Data Lake Storage Gen1 内のデータを操作するときは、いくつかの文字列を変更する必要があります。

たとえば、プライマリストレージとして Data Lake Storage Gen1 を使用するクラスターを作成した場合は、データのパスは adl://<>/azuredatalakestore.net/path/to/file になります。 Data Lake Storage Gen1 に格納されているサンプルデータからテーブルを作成する Hive クエリは、次のようなステートメントになります。

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

上記のクエリで、

adl://hdiadlsg1storage.azuredatalakestore.net/ は Data Lake Storage Gen1 を使用するアカウントのルートです。
/clusters/myhdiadlcluster はクラスターの作成時に指定したクラスターデータのルートです。
/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ はクエリで使用したサンプルファイルの場所です。

(追加ストレージとしての) Data Lake Storage Gen1 に格納されているデータに対して Hive クエリを実行する

作成したクラスターで既定のストレージとして Blob Storage を使用している場合、追加ストレージとして使用されている Data Lake Storage Gen1 を使用するストレージアカウントにサンプルデータは含まれません。このような場合、Blob Storage から Data Lake Storage Gen1 を使用するストレージアカウントにデータを転送してから、上の例に示したようにクエリを実行します。

Blob Storage から Data Lake Storage Gen1 を使用するストレージアカウントにデータをコピーする方法については、次の記事をご覧ください。

Spark クラスターで Data Lake Storage Gen1 を使用する

Spark クラスターを使用すると、Data Lake Storage Gen1 に格納されているデータに対して Spark ジョブを実行できます。詳細については、HDInsight Spark クラスターを使用した Data Lake Storage Gen1 のデータの分析に関するページをご覧ください。

Azure portal を使用して、Azure Data Lake Storage Gen1 を使用する HDInsight クラスターを作成する

前提条件

HDInsight クラスターの作成

Data Lake Storage Gen1 を既定のストレージとして使用してクラスターを作成する

Data Lake Storage Gen1 を追加のストレージとして使用してクラスターを作成する