Microsoft Purview で Azure Data Lake Gen1 に接続する
この記事では、Azure Data Lake Storage Gen1 データ ソースを Microsoft Purview に登録するプロセスについて説明します。これには、Azure Data Lake Storage Gen1 ソースを認証して操作する手順が含まれます。
注:
Azure Data Lake Storage Gen2が一般公開されました。 今すぐ使用を開始することをお勧めします。 詳細については、 製品ページを参照してください。
サポートされている機能
メタデータ抽出 | フル スキャン | 増分スキャン | スコープスキャン | 分類 | ラベル付け | アクセス ポリシー | 系統 | データ共有 | ライブ ビュー |
---|---|---|---|---|---|---|---|---|---|
○ | ○ | ○ | ○ | ○ | はい | いいえ | 限ら れた** | 不要 | 不要 |
** データセットが Data Factory Copy アクティビティのソース/シンクとして使用されている場合は、系列がサポートされます
前提条件
アクティブなサブスクリプションを持つ Azure アカウント。 無料でアカウントを作成します。
アクティブな Microsoft Purview アカウント。
Microsoft Purview ガバナンス ポータルでソースを登録して管理するには、データ ソース管理者およびデータ 閲覧者である必要があります。 詳細については、 Microsoft Purview のアクセス許可に関するページ を参照してください。
登録
このセクションでは、ADLS Gen1 データ ソースを登録し、適切な認証メカニズムを設定して、データ ソースを正常にスキャンできるようにします。
登録手順
データ ソースのスキャンを設定する前に、Microsoft Purview でデータ ソースを登録することが重要です。
次の方法で Microsoft Purview ガバナンス ポータルを開きます。
- Microsoft Purview アカウントに https://web.purview.azure.com 直接移動して選択します。
- Azure portalを開き、Microsoft Purview アカウントを検索して選択します。 [Microsoft Purview ガバナンス ポータル] ボタンを選択します。
データ マップに移動する --> ソース
[コレクション] メニューを使用してコレクション階層を作成し、必要に応じて個々のサブコレクションにアクセス許可を割り当てます
[ ソース ] メニューの適切なコレクションに移動し、[ 登録 ] アイコンを選択して新しい ADLS Gen1 データ ソースを登録します
Azure Data Lake Storage Gen1 データ ソースを選択し、[続行] を選択します
データ ソースに適切な名前を指定し、関連する Azure サブスクリプション、既存の Data Lake Store アカウント名、コレクションを選択し、[適用] を選択します
選択したコレクションの下に ADLS Gen1 ストレージ アカウントが表示されます
スキャン
スキャンの前提条件
データ ソースをスキャンするためのアクセス権を持つためには、ADLS Gen1 ストレージ アカウントの認証方法を構成する必要があります。 次のオプションがサポートされています。
注:
ストレージ アカウントに対してファイアウォールが有効になっている場合は、スキャンを設定するときにマネージド ID 認証方法を使用する必要があります。
システム割り当てマネージド ID (推奨) - Microsoft Purview アカウントが作成されるとすぐに、Azure AD テナントにシステム マネージド ID が自動的に作成されます。 リソースの種類に応じて、Microsoft Purview SAMI がスキャンを実行するには、特定の RBAC ロールの割り当てが必要です。
ユーザー割り当てマネージド ID (プレビュー) - システムマネージド ID と同様に、ユーザー割り当てマネージド ID は、Microsoft Purview が Azure Active Directory に対する認証を許可するために使用できる資格情報リソースです。 詳細については、 ユーザー割り当てマネージド ID ガイドを参照してください。
サービス プリンシパル - この方法では、Azure Active Directory テナントに新しいサービス プリンシパルを作成するか、既存のサービス プリンシパルを使用できます。
スキャンの認証
スキャンにシステムまたはユーザー割り当てマネージド ID を使用する
ADLS Gen1 データ ソースをスキャンするアクセス許可を Microsoft Purview アカウントに付与することが重要です。 スキャンアクセス許可を付与する内容に応じて、サブスクリプション、リソース グループ、またはリソース レベルで、システム マネージド ID またはユーザー割り当てマネージド ID を追加できます。
注:
Azure リソースにマネージド ID を追加できるようにするには、サブスクリプションの所有者である必要があります。
Azure portalから、カタログのスキャンを許可するサブスクリプション、リソース グループ、またはリソース (Azure Data Lake Storage Gen1 ストレージ アカウントなど) を見つけます。
[概要] を選択し、[データ エクスプローラー] を選択します
上部のナビゲーションで [ アクセス ] を選択します
[選択] を選択し、[ユーザーまたはグループの選択] メニューで、Microsoft Purview に既に登録されている Microsoft Purview 名 (システム マネージド ID) またはユーザー割り当てマネージド ID (プレビュー) を追加します。
[ 読み取りと 実行のアクセス許可 ] を 選択します。 次のスクリーンショットに示すように、[ このフォルダーとすべての子] と [アクセス許可エントリ] と [追加] オプションの 既定のアクセス許可エントリ を必ず選択してください。 [OK] を選択します。
ヒント
アクセス許可エントリは、現在のファイルとフォルダーのアクセス許可エントリです。 既定のアクセス許可エントリは、新しいファイルとフォルダーによって継承されるアクセス許可エントリです。 現在既存のファイルにのみアクセス許可を付与するには、 アクセス許可エントリを選択します。 今後追加されるファイルとフォルダーをスキャンするためのアクセス許可を付与するには、 既定のアクセス許可エントリを含めます。
スキャンにサービス プリンシパルを使用する
新しいサービス プリンシパルの作成
新しいサービス プリンシパルを作成する必要がある場合は、Azure AD テナントにアプリケーションを登録し、データ ソースのサービス プリンシパルへのアクセスを提供する必要があります。 Azure AD グローバル管理者またはアプリケーション管理者などの他のロールは、この操作を実行できます。
サービス プリンシパルのアプリケーション ID の取得
既に作成されているサービス プリンシパルの概要に存在するアプリケーション (クライアント) ID をコピーする
ADLS Gen1 アカウントへのサービス プリンシパル アクセスの付与
ADLS Gen2 データ ソースをスキャンするアクセス許可をサービス プリンシパルに付与することが重要です。 サービス プリンシパルのアクセス権は、必要なアクセス許可に応じて、サブスクリプション、リソース グループ、またはリソース レベルで追加できます。
注:
Azure リソースにサービス プリンシパルを追加できるようにするには、サブスクリプションの所有者である必要があります。
ストレージ アカウントを開き、[概要] を選択して、ストレージ アカウントへのサービス プリンシパルのアクセス権を指定します -->Data Explorer
上部のナビゲーションで [ アクセス ] を選択します
[ユーザーまたはグループの選択] の選択で[選択] を選択し、[サービス プリンシパルを追加する] を選択します。
[ 読み取りと 実行のアクセス許可 ] を 選択します。 [ このフォルダーとすべての子] を選択し、[追加] オプションで [アクセス許可エントリ] と既定のアクセス許可エントリ を選択してください。 [OK] を選択します。
スキャンの作成
Microsoft Purview アカウントを開き、[Microsoft Purview ガバナンス ポータルを開く] を選択します
[データ マップ] -->[ソース] に移動してコレクション階層を表示します
前に登録した ADLS Gen1 データ ソースの下にある [新しいスキャン] アイコンを選択します
システムまたはユーザー割り当てマネージド ID を使用している場合
スキャンの [名前] を 指定し、[ 資格情報] でシステムまたはユーザー割り当てマネージド ID を選択し、スキャンに適したコレクションを選択して、[ 接続のテスト] を選択します。 接続に成功したら、[続行] を選択 します。
サービス プリンシパルを使用している場合
スキャンの [名前] を指定し、スキャンに適したコレクションを選択し、[資格情報] で [+ 新規] を選択します。
サービス プリンシパルの作成時に使用された適切な Key Vault 接続とシークレット名を選択します。 サービス プリンシパル ID は、前に示したようにコピーされたアプリケーション (クライアント) ID です
[ 接続のテスト] を選択します。 接続が正常に完了したら、[続行] を選択 します
スキャンのスコーピングと実行
スキャンの範囲を特定のフォルダーとサブフォルダーに設定するには、一覧から適切な項目を選択します。
次に、スキャン ルール セットを選択します。 システムの既定値、既存のカスタム ルール セット、または新しいルール セットをインラインで作成することができます。
新しい スキャン ルール セットを作成する場合は、スキャン ルールに含める ファイルの種類 を選択します。
スキャン ルールに含める 分類ルール を選択できます
スキャン トリガーを選択します。 スケジュールを設定することも、スキャンを 1 回実行することもできます。
スキャンを確認し、[ 保存して実行] を選択します。
スキャンの表示
コレクション内のデータ ソースに移動し、[詳細の表示] を選択してスキャンの状態をチェックします
スキャンの詳細は、前回の実行状態でのスキャンの進行状況と、スキャンおよび分類された資産の数を示します
スキャン全体が正常に実行されると、[ 最終実行] 状態 が [進行中 ] に更新され、[ 完了] に更新されます
スキャンの管理
スキャンは、完了時に管理することも、再度実行することもできます。
[スキャン名] を選択してスキャンを管理する
スキャンをもう一度実行し、スキャンを編集し、スキャンを削除できます
注:
- スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。
- ソース テーブルが変更され、Microsoft Purview の [スキーマ] タブで説明を編集した後にソース テーブルを再スキャンした場合、資産はスキーマの変更で更新されなくなります。
インクリメンタル スキャンまたはフル スキャンをもう一度実行できます。
次の手順
ソースを登録したら、次のガイドに従って、Microsoft Purview とデータの詳細を確認してください。