Microsoft Purview で Azure Data Lake Gen1 に接続する

この記事では、Azure Data Lake Storage Gen1 データ ソースを Microsoft Purview に登録するプロセスについて説明します。これには、Azure Data Lake Storage Gen1 ソースを認証して操作する手順が含まれます。

注:

Azure Data Lake Storage Gen2が一般公開されました。 今すぐ使用を開始することをお勧めします。 詳細については、 製品ページを参照してください。

サポートされている機能

メタデータ抽出 フル スキャン 増分スキャン スコープスキャン 分類 ラベル付け アクセス ポリシー 系統 データ共有 ライブ ビュー
はい いいえ 限ら れた** 不要 不要

** データセットが Data Factory Copy アクティビティのソース/シンクとして使用されている場合は、系列がサポートされます

前提条件

登録

このセクションでは、ADLS Gen1 データ ソースを登録し、適切な認証メカニズムを設定して、データ ソースを正常にスキャンできるようにします。

登録手順

データ ソースのスキャンを設定する前に、Microsoft Purview でデータ ソースを登録することが重要です。

  1. 次の方法で Microsoft Purview ガバナンス ポータルを開きます。

  2. データ マップに移動する --> ソース

    Microsoft Purview ガバナンス ポータルを開くリンクを示すスクリーンショット

    データ マップの [ソース] リンクに移動するスクリーンショット

  3. [コレクション] メニューを使用してコレクション階層を作成し、必要に応じて個々のサブコレクションにアクセス許可を割り当てます

    コレクション階層を作成するコレクション メニューを示すスクリーンショット

  4. [ ソース ] メニューの適切なコレクションに移動し、[ 登録 ] アイコンを選択して新しい ADLS Gen1 データ ソースを登録します

    データ ソースの登録に使用されるコレクションを示すスクリーンショット

  5. Azure Data Lake Storage Gen1 データ ソースを選択し、[続行] を選択します

    データ ソースの選択を許可するスクリーンショット

  6. データ ソースに適切な名前を指定し、関連する Azure サブスクリプション、既存の Data Lake Store アカウント名コレクションを選択し、[適用] を選択します

    データ ソースを登録するために入力する詳細を示すスクリーンショット

  7. 選択したコレクションの下に ADLS Gen1 ストレージ アカウントが表示されます

    スキャンを開始するためにコレクションにマップされたデータ ソースを示すスクリーンショット

スキャン

スキャンの前提条件

データ ソースをスキャンするためのアクセス権を持つためには、ADLS Gen1 ストレージ アカウントの認証方法を構成する必要があります。 次のオプションがサポートされています。

注:

ストレージ アカウントに対してファイアウォールが有効になっている場合は、スキャンを設定するときにマネージド ID 認証方法を使用する必要があります。

  • システム割り当てマネージド ID (推奨) - Microsoft Purview アカウントが作成されるとすぐに、Azure AD テナントにシステム マネージド ID が自動的に作成されます。 リソースの種類に応じて、Microsoft Purview SAMI がスキャンを実行するには、特定の RBAC ロールの割り当てが必要です。

  • ユーザー割り当てマネージド ID (プレビュー) - システムマネージド ID と同様に、ユーザー割り当てマネージド ID は、Microsoft Purview が Azure Active Directory に対する認証を許可するために使用できる資格情報リソースです。 詳細については、 ユーザー割り当てマネージド ID ガイドを参照してください。

  • サービス プリンシパル - この方法では、Azure Active Directory テナントに新しいサービス プリンシパルを作成するか、既存のサービス プリンシパルを使用できます。

スキャンの認証

スキャンにシステムまたはユーザー割り当てマネージド ID を使用する

ADLS Gen1 データ ソースをスキャンするアクセス許可を Microsoft Purview アカウントに付与することが重要です。 スキャンアクセス許可を付与する内容に応じて、サブスクリプション、リソース グループ、またはリソース レベルで、システム マネージド ID またはユーザー割り当てマネージド ID を追加できます。

注:

Azure リソースにマネージド ID を追加できるようにするには、サブスクリプションの所有者である必要があります。

  1. Azure portalから、カタログのスキャンを許可するサブスクリプション、リソース グループ、またはリソース (Azure Data Lake Storage Gen1 ストレージ アカウントなど) を見つけます。

  2. [概要] を選択し、[データ エクスプローラー] を選択します

    ストレージ アカウントを示すスクリーンショット

  3. 上部のナビゲーションで [ アクセス ] を選択します

    ストレージ アカウントのデータ エクスプローラーを示すスクリーンショット

  4. [選択] を選択し、[ユーザーまたはグループの選択] メニューで、Microsoft Purview に既に登録されている Microsoft Purview 名 (システム マネージド ID) またはユーザー割り当てマネージド ID (プレビュー) を追加します。

  5. [ 読み取りと 実行のアクセス許可 ] を 選択します。 次のスクリーンショットに示すように、[ このフォルダーとすべての子] と [アクセス許可エントリ] と [追加] オプションの 既定のアクセス許可エントリ を必ず選択してください。 [OK] を選択します。

    Microsoft Purview アカウントのアクセス許可を割り当てる詳細を示すスクリーンショット

ヒント

アクセス許可エントリは、現在のファイルとフォルダーのアクセス許可エントリです。 既定のアクセス許可エントリは、新しいファイルとフォルダーによって継承されるアクセス許可エントリです。 現在既存のファイルにのみアクセス許可を付与するには、 アクセス許可エントリを選択します。 今後追加されるファイルとフォルダーをスキャンするためのアクセス許可を付与するには、 既定のアクセス許可エントリを含めます

スキャンにサービス プリンシパルを使用する

新しいサービス プリンシパルの作成

新しいサービス プリンシパルを作成する必要がある場合は、Azure AD テナントにアプリケーションを登録し、データ ソースのサービス プリンシパルへのアクセスを提供する必要があります。 Azure AD グローバル管理者またはアプリケーション管理者などの他のロールは、この操作を実行できます。

サービス プリンシパルのアプリケーション ID の取得
  1. 既に作成されているサービス プリンシパル概要に存在するアプリケーション (クライアント) ID をコピーする

    サービス プリンシパルのアプリケーション (クライアント) ID を示すスクリーンショット

ADLS Gen1 アカウントへのサービス プリンシパル アクセスの付与

ADLS Gen2 データ ソースをスキャンするアクセス許可をサービス プリンシパルに付与することが重要です。 サービス プリンシパルのアクセス権は、必要なアクセス許可に応じて、サブスクリプション、リソース グループ、またはリソース レベルで追加できます。

注:

Azure リソースにサービス プリンシパルを追加できるようにするには、サブスクリプションの所有者である必要があります。

  1. ストレージ アカウントを開き、[概要] を選択して、ストレージ アカウントへのサービス プリンシパルのアクセス権を指定します -->Data Explorer

    ストレージ アカウントを示すスクリーンショット

  2. 上部のナビゲーションで [ アクセス ] を選択します

    ストレージ アカウントのデータ エクスプローラーを示すスクリーンショット

  3. [ユーザーまたはグループ選択] の選択で[選択] を選択し、[サービス プリンシパルを追加する] を選択します。

  4. [ 読み取りと 実行のアクセス許可 ] を 選択します。 [ このフォルダーとすべての子] を選択し、[追加] オプションで [アクセス許可エントリ] と既定のアクセス許可エントリ を選択してください。 [OK] を選択します。

    サービス プリンシパルのアクセス許可を割り当てる詳細を示すスクリーンショット

スキャンの作成

  1. Microsoft Purview アカウントを開き、[Microsoft Purview ガバナンス ポータルを開く] を選択します

  2. [データ マップ] -->[ソース] に移動してコレクション階層を表示します

    コレクション階層を示すスクリーンショット

  3. 前に登録した ADLS Gen1 データ ソースの下にある [新しいスキャン] アイコンを選択します

    新しいスキャン アイコンを含むデータ ソースを示すスクリーンショット

システムまたはユーザー割り当てマネージド ID を使用している場合

スキャンの [名前] を 指定し、[ 資格情報] でシステムまたはユーザー割り当てマネージド ID を選択し、スキャンに適したコレクションを選択して、[ 接続のテスト] を選択します。 接続に成功したら、[続行] を選択 します

スキャンを実行するマネージド ID オプションを示すスクリーンショット

サービス プリンシパルを使用している場合

  1. スキャンの [名前] を指定し、スキャンに適したコレクションを選択し、[資格情報] で [+ 新規] を選択します

    サービス プリンシパル オプションを示すスクリーンショット

  2. サービス プリンシパルの作成時に使用された適切な Key Vault 接続シークレット名を選択します。 サービス プリンシパル ID は、前に示したようにコピーされたアプリケーション (クライアント) ID です

    サービス プリンシパル キー コンテナー オプションを示すスクリーンショット

  3. [ 接続のテスト] を選択します。 接続が正常に完了したら、[続行] を選択 します

    サービス プリンシパルのテスト接続を示すスクリーンショット

スキャンのスコーピングと実行

  1. スキャンの範囲を特定のフォルダーとサブフォルダーに設定するには、一覧から適切な項目を選択します。

    スキャンのスコープを設定する

  2. 次に、スキャン ルール セットを選択します。 システムの既定値、既存のカスタム ルール セット、または新しいルール セットをインラインで作成することができます。

    スキャン ルール セット

  3. 新しい スキャン ルール セットを作成する場合は、スキャン ルールに含める ファイルの種類 を選択します。

    スキャン ルール セットのファイルの種類

  4. スキャン ルールに含める 分類ルール を選択できます

    スキャン ルール セット分類ルール

    スキャン ルール セットの選択

  5. スキャン トリガーを選択します。 スケジュールを設定することも、スキャンを 1 回実行することもできます。

    スキャン トリガー

    スキャン トリガーの選択

  6. スキャンを確認し、[ 保存して実行] を選択します。

    スキャンの確認

スキャンの表示

  1. コレクション内のデータ ソースに移動し、[詳細の表示] を選択してスキャンの状態をチェックします

    スキャンの表示

  2. スキャンの詳細は、前回の実行状態でのスキャンの進行状況と、スキャンおよび分類された資産の数を示します

    スキャンの詳細を表示する

  3. スキャン全体が正常に実行されると、[ 最終実行] 状態[進行中 ] に更新され、[ 完了] に更新されます

    スキャンの進行中の表示

    スキャンの完了を表示する

スキャンの管理

スキャンは、完了時に管理することも、再度実行することもできます。

  1. [スキャン名] を選択してスキャンを管理する

    スキャンの管理

  2. スキャンをもう一度実行し、スキャンを編集しスキャンを削除できます

    スキャン オプションを管理する

    注:

    • スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。
    • ソース テーブルが変更され、Microsoft Purview の [スキーマ] タブで説明を編集した後にソース テーブルを再スキャンした場合、資産はスキーマの変更で更新されなくなります。
  3. インクリメンタル スキャンまたはフル スキャンをもう一度実行できます。

    スキャンの完全または増分を管理する

    スキャン結果を管理する

次の手順

ソースを登録したら、次のガイドに従って、Microsoft Purview とデータの詳細を確認してください。