Microsoft Purview でAzure Data Lake Storageに接続する
この記事では、Microsoft Purview で Azure Data Lake Storage (ADLS Gen2) データ ソースを登録して管理するプロセスについて説明します。これには、ADLS Gen2 ソースの認証と操作の手順が含まれます。
サポートされている機能
メタデータ抽出 | フル スキャン | 増分スキャン | スコープスキャン | 分類 | ラベル付け | アクセス ポリシー | 系統 | データ共有 | ライブ ビュー |
---|---|---|---|---|---|---|---|---|---|
○ | ○ | ○ | ○ | ○ | はい | はい (プレビュー) | 限ら れた* | ○ | はい |
* データセットが Data Factory または Synapse パイプラインでソース/シンクとして使用される場合は、系列がサポートされます。
ソースAzure Data Lake Storage Gen2スキャンする場合、Microsoft Purview では次のような技術メタデータの抽出がサポートされます。
- ストレージ アカウント
- Data Lake Storage Gen2 サービス
- ファイル システム (コンテナー)
- フォルダー
- Files
- リソース セット
スキャンを設定するときに、ADLS Gen2 全体または選択的フォルダーをスキャンできます。 サポートされているファイル形式については 、こちらを参照してください。
前提条件
アクティブなサブスクリプションを持つ Azure アカウント。 無料でアカウントを作成します。
アクティブな Microsoft Purview アカウント。
Microsoft Purview ガバナンス ポータルでソースを登録して管理するには、データ ソース管理者およびデータ 閲覧者である必要があります。 詳細については、 Microsoft Purview のアクセス許可に関するページ を参照してください。
ADLS Gen 2 アカウントに登録するには、少なくとも閲覧者アクセス許可が必要です。
登録
このセクションでは、Purview でスキャンとデータ共有用の ADLS Gen2 データ ソースを登録できます。
レジスタの前提条件
- ソースを登録し、Microsoft Purview ガバナンス ポータルで管理するには、データ ソース 管理と他の Purview ロール (データ閲覧者、Data Share共同作成者など) のいずれかである必要があります。 詳細については、 Microsoft Purview のアクセス許可に関するページ を参照してください。
登録手順
データ ソースのスキャンを設定する前に、Microsoft Purview でデータ ソースを登録することが重要です。
Microsoft Purview ガバナンス ポータルに移動するには、次の手順を実行します。
- Microsoft Purview アカウントに https://web.purview.azure.com 直接移動して選択します。
- Azure portalを開き、Microsoft Purview アカウントを検索して選択します。 [Microsoft Purview ガバナンス ポータル] ボタンを選択します。
データ マップに移動する --> ソース
[コレクション] メニューを使用してコレクション階層を作成し、必要に応じて個々のサブコレクションにアクセス許可を割り当てます
[ ソース ] メニューの適切なコレクションに移動し、[ 登録 ] アイコンを選択して新しい ADLS Gen2 データ ソースを登録します
Azure Data Lake Storage Gen2 データ ソースを選択し、[続行] を選択します
データ ソースに適した 名前 を指定し、関連する Azure サブスクリプション、既存 の Data Lake Store アカウント名 、 コレクション を選択し、[ 適用] を選択します。 このドキュメントを慎重に確認できるようになるまで、[ データ使用管理 ] トグルは 無効 な位置のままに します。
選択したコレクションの下に ADLS Gen2 ストレージ アカウントが表示されます
スキャン
スキャンの認証
Azure ネットワークによって Azure リソース間の通信が許可される場合がありますが、Azure 内にファイアウォール、プライベート エンドポイント、または仮想ネットワークを設定している場合は、次のいずれかの構成に従う必要があります。
ネットワーク制約 | 統合ランタイムの種類 | 使用可能な資格情報の種類 |
---|---|---|
プライベート エンドポイントまたはファイアウォールなし | Azure IR | マネージド ID (推奨)、サービス プリンシパル、またはアカウント キー |
ファイアウォールが有効になっているが、プライベート エンドポイントがない | Azure IR | マネージド ID |
プライベート エンドポイントが有効 | *セルフホステッド IR | サービス プリンシパル、アカウント キー |
重要
- *セルフホステッド統合ランタイムを使用するには、最初に作成し、Microsoft Purview のネットワーク設定を確認する必要があります
- Self-Hosted 統合ランタイムを使用して Parquet ファイルをスキャンする場合は、IR マシンに 64 ビット JRE 8 (Java ランタイム環境) または OpenJDK をインストールする必要があります。 Java ランタイム環境のインストール ガイドをチェックできます。
スキャンにシステムまたはユーザー割り当てマネージド ID を使用する
使用できるマネージド ID には、次の 2 種類があります。
システム割り当てマネージド ID (推奨) - Microsoft Purview アカウントが作成されるとすぐに、Azure AD テナントにシステム割り当てマネージド ID (SAMI) が自動的に作成されます。 リソースの種類に応じて、Microsoft Purview システム割り当てマネージド ID (SAMI) がスキャンを実行するには、特定の RBAC ロールの割り当てが必要です。
ユーザー割り当てマネージド ID (プレビュー) - システム マネージド ID と同様に、ユーザー割り当てマネージド ID (UAMI) は、Microsoft Purview が Azure Active Directory に対する認証を許可するために使用できる資格情報リソースです。 詳細については、 ユーザー割り当てマネージド ID ガイドを参照してください。
ADLS Gen2 データ ソースをスキャンするアクセス許可を Microsoft Purview アカウントまたはユーザー割り当てマネージド ID (UAMI) に付与することが重要です。 必要なスキャンアクセス許可のレベルに応じて、Microsoft Purview アカウントのシステム割り当てマネージド ID (Microsoft Purview アカウントと同じ名前) または UAMI をサブスクリプション、リソース グループ、またはリソース レベルで追加できます。
注:
Azure リソースにマネージド ID を追加できるようにするには、サブスクリプションの所有者である必要があります。
Azure portalから、カタログのスキャンを許可するサブスクリプション、リソース グループ、またはリソース (Azure Data Lake Storage Gen2 ストレージ アカウントなど) を見つけます。
左側のナビゲーションで [Access Control (IAM)] を選択し、[+ 追加] --[>ロールの割り当ての追加] を選択します
[ロール] を [ストレージ BLOB データ閲覧者] に設定し、[入力の選択] ボックスに Microsoft Purview アカウント名またはユーザー割り当てマネージド ID を入力します。 次に、[ 保存] を 選択して、このロールの割り当てを Microsoft Purview アカウントに付与します。
注:
詳細については、「Azure Active Directory を使用して BLOB とキューへのアクセスを承認する」の手順を参照してください。
注:
ストレージ アカウントに対してファイアウォールが有効になっている場合は、スキャンを設定するときに マネージド ID 認証方法を使用する必要があります。
Azure portalで ADLS Gen2 ストレージ アカウントに移動する
[セキュリティとネットワーク ネットワーク>] に移動します
[アクセスの許可] で [選択したネットワーク] を選択します。
[例外] セクションで、[信頼された Microsoft サービスがこのストレージ アカウントにアクセスすることを許可する] を選択し、[保存] をクリックします
スキャンを作成する
Microsoft Purview アカウントを開き、[Microsoft Purview ガバナンス ポータルを開く] を選択します
[データ マップ] -->[ソース] に移動してコレクション階層を表示します
前に登録した ADLS Gen2 データ ソースの下にある [新しいスキャン] アイコンを選択します
システムまたはユーザー割り当てマネージド ID を使用している場合
スキャンの [名前] を 指定し、[ 資格情報] でシステム割り当てマネージド ID またはユーザー割り当てマネージド ID を選択し、スキャンに適切なコレクションを選択して、[ 接続のテスト] を選択します。 接続に成功したら、[続行] を選択 します。
スキャンのスコープと実行
スキャンの範囲を特定のフォルダーとサブフォルダーに設定するには、一覧から適切な項目を選択します。
次に、スキャン ルール セットを選択します。 システムの既定値、既存のカスタム ルール セット、または新しいルール セットをインラインで作成することができます。
新しい スキャン ルール セットを作成する場合は、スキャン ルールに含める ファイルの種類 を選択します。
スキャン ルールに含める 分類ルール を選択できます
スキャン トリガーを選択します。 スケジュールを設定することも、スキャンを 1 回実行することもできます。
スキャンを確認し、[ 保存して実行] を選択します。
スキャンとスキャンの実行を表示する
既存のスキャンを表示するには:
- Microsoft Purview ガバナンス ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。
- データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
- 表示する結果を含むスキャンを選択します。 このウィンドウには、以前のすべてのスキャン実行と、各スキャン実行の状態とメトリックが表示されます。
- 実行 ID を選択して、スキャン実行の詳細をチェックします。
スキャンを管理する
スキャンを編集、取り消し、または削除するには:
Microsoft Purview ガバナンス ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。
データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
管理するスキャンを選択します。 次のことを実行できます。
- [スキャンの編集] を選択して スキャンを編集します。
- [スキャンの実行の取り消し] を選択して、進行中 のスキャンを取り消します。
- [スキャンの削除] を選択して スキャンを削除します。
注:
- スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。
- ソース テーブルが変更され、Microsoft Purview の [スキーマ] タブで説明を編集した後にソース テーブルを再スキャンした場合、資産は スキーマ の変更で更新されなくなります。
データの共有
Microsoft Purview データ共有 (プレビュー) を使用すると、ADLS Gen2 から ADLS Gen2 へのインプレース データの共有が可能になります。 このセクションでは、データをインプレースで共有および受信するための ADLS Gen2 固有の要件の詳細について説明します。 データ共有の使用方法に関するステップ バイ ステップ ガイドについては、「データを共有する方法」と「共有を受け取る方法」を参照してください。
インプレース データ共有でサポートされるストレージ アカウント
インプレース データ共有では、次のストレージ アカウントがサポートされています。
- リージョン: カナダ中部、カナダ東部、英国南部、英国西部、オーストラリア東部、東日本、韓国南部、南アフリカ北部
- 冗長性オプション: LRS、GRS、RA-GRS
- 階層: ホット、クール
プレビューでは、運用ワークロードのないストレージ アカウントのみを使用します。
注:
ソースとターゲットのストレージ アカウントは、互いに同じリージョンに存在する必要があります。 Microsoft Purview アカウントと同じリージョンに存在する必要はありません。
データを共有するために必要なストレージ アカウントのアクセス許可
ストレージ アカウント資産を共有に追加または更新するには、次のいずれかのアクセス許可が必要です。
- Microsoft.Authorization/roleAssignments/write - このアクセス許可は 所有者 ロールで使用できます。
- Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ - このアクセス許可は 、Blob Storage データ所有者 ロールで使用できます。
共有データを受信するために必要なストレージ アカウントのアクセス許可
受信した共有にストレージ アカウント資産をマップするには、次のいずれかのアクセス許可が必要です。
- Microsoft.Storage/storageAccounts/write - このアクセス許可は、 共同作成者 ロールと 所有者 ロールで使用できます。
- Microsoft.Storage/storageAccounts/blobServices/containers/write - このアクセス許可は、 共同作成者、 所有者、 ストレージ BLOB データ共同作成者 、ストレージ BLOB データ所有者 ロールで使用できます。
ソース ストレージ アカウントの共有データを更新する
ソース ストレージ アカウントから共有フォルダー内の共有ファイルまたはデータに対して行った更新は、ターゲット ストレージ アカウントの受信者がほぼリアルタイムで使用できるようになります。 共有フォルダー内のサブフォルダーまたはファイルを削除すると、受信者が消えます。 共有フォルダー、ファイル、または親フォルダーまたはコンテナーを削除するには、まず、ソース ストレージ アカウントからすべての共有へのアクセスを取り消す必要があります。
ターゲット ストレージ アカウントの共有データにアクセスする
ターゲット ストレージ アカウントを使用すると、受信者は、ほぼリアルタイムで共有データに読み取り専用でアクセスできます。 Synapse Workspace や Databricks などの分析ツールを共有データに接続して分析を実行できます。 共有データにアクセスするコストは、ターゲット ストレージ アカウントに課金されます。
サービスの制限
ソース ストレージ アカウントでは最大 20 個のターゲットをサポートでき、ターゲット ストレージ アカウントでは最大 100 個のソースをサポートできます。 制限の引き上げが必要な場合は、サポートにお問い合わせください。
アクセス ポリシー
サポートされているポリシー
Microsoft Purview のこのデータ リソースでは、次の種類のポリシーがサポートされています。
Azure Storage アカウントのアクセス ポリシーの前提条件
リージョンのサポート
- すべての Microsoft Purview リージョンがサポートされています。
- 次のリージョンのストレージ アカウントは、追加の構成を必要とせずにサポートされます。 ただし、ゾーン冗長ストレージ (ZRS) アカウントはサポートされていません。
- 米国東部
- 米国東部 2
- 米国中央南部
- 米国西部 2
- カナダ中部
- 北ヨーロッパ
- 西ヨーロッパ
- フランス中部
- 英国南部
- 東南アジア
- オーストラリア東部
- 次のセクションで説明するように、機能フラグ AllowPurviewPolicyEnforcement を設定した後、Public Cloud の他のリージョンのストレージ アカウントがサポートされます。 機能フラグ AllowPurviewPolicyEnforcement を設定した後に作成された場合、新しく作成された ZRS ストレージ アカウントがサポートされます。
必要に応じて、 このガイドに従って新しいストレージ アカウントを作成できます。
Microsoft Purview からのポリシーに対して Azure Storage アカウントが存在するサブスクリプションを構成する
この手順は、特定のリージョンでのみ必要です (前のセクションを参照)。 Microsoft Purview で 1 つ以上の Azure Storage アカウントのポリシーを管理できるようにするには、Azure Storage アカウントをデプロイするサブスクリプションで次の PowerShell コマンドを実行します。 これらの PowerShell コマンドを使用すると、Microsoft Purview は、そのサブスクリプション内のすべての Azure Storage アカウントのポリシーを管理できます。
これらのコマンドをローカルで実行する場合は、必ず管理者として PowerShell を実行してください。 または、Azure portal で Azure Cloud Shell を使用することもできます。 https://shell.azure.com
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
最後のコマンドの出力に RegistrationStateが [登録済み] と表示されている場合、サブスクリプションはアクセス ポリシーに対して有効になります。 出力が [登録中] の場合は、少なくとも 10 分待ってから、コマンドを再試行します。 RegistrationState に [登録済み] と表示されない限り、続行しないでください。
ポリシーの Microsoft Purview アカウントを構成する
Microsoft Purview でデータ ソースを登録する
データ リソースのポリシーを Microsoft Purview で作成するには、そのデータ リソースを Microsoft Purview Studio に登録する必要があります。 データ リソースの登録に関連する手順については、このガイドの後半で説明します。
注:
Microsoft Purview ポリシーは、データ リソース ARM パスに依存します。 データ リソースを新しいリソース グループまたはサブスクリプションに移動する場合は、登録を解除してから、Microsoft Purview に再登録する必要があります。
データ ソースでデータ使用管理を有効にするアクセス許可を構成する
リソースが登録されたら、そのリソースのポリシーを Microsoft Purview で作成する前に、アクセス許可を構成する必要があります。 データ使用管理を有効にするには、一連のアクセス許可が必要です。 これは、データ ソース、リソース グループ、またはサブスクリプションに適用されます。 データ使用管理を有効にするには、リソースに対する特定の ID とアクセス管理 (IAM) 権限と、特定の Microsoft Purview 権限の両方が必要です。
リソースの Azure Resource Manager パスまたはその親 (つまり、IAM アクセス許可の継承を使用) には、次のいずれかの IAM ロールの組み合わせが必要です。
- IAM 所有者
- IAM 共同作成者と IAM ユーザー アクセス管理者の両方
Azure ロールベースのアクセス制御 (RBAC) アクセス許可を構成するには、 このガイドに従います。 次のスクリーンショットは、データ リソースのAzure portalの [Access Control] セクションにアクセスしてロールの割り当てを追加する方法を示しています。
注:
データ リソースの IAM 所有者 ロールは、親リソース グループ、サブスクリプション、またはサブスクリプション管理グループから継承できます。 リソースの IAM 所有者 ロールを保持または継承している Azure AD ユーザー、グループ、およびサービス プリンシパルを確認します。
また、コレクションまたは親コレクションの Microsoft Purview データ ソース管理者 ロールも必要です (継承が有効な場合)。 詳細については、 Microsoft Purview ロールの割り当ての管理に関するガイドを参照してください。
次のスクリーンショットは、ルート コレクション レベルで データ ソース管理者 ロールを割り当てる方法を示しています。
アクセス ポリシーを作成、更新、または削除するように Microsoft Purview アクセス許可を構成する
ポリシーを作成、更新、または削除するには、ルート コレクション レベルで Microsoft Purview でポリシー作成者ロールを取得する必要があります。
- ポリシー作成者ロールは、DevOps ポリシーとデータ所有者ポリシーを作成、更新、削除できます。
- ポリシー作成者ロールは、セルフサービス アクセス ポリシーを削除できます。
Microsoft Purview ロールの割り当ての管理の詳細については、Microsoft Purview データ マップでのコレクションの作成と管理に関するページを参照してください。
注:
ポリシー作成者ロールは、ルート コレクション レベルで構成する必要があります。
さらに、ポリシーの件名を作成または更新するときに Azure AD ユーザーまたはグループを簡単に検索するには、Azure AD で [ディレクトリ閲覧者 ] アクセス許可を取得することで大きなメリットを得ることができます。 これは、Azure テナント内のユーザーに共通のアクセス許可です。 ディレクトリ閲覧者のアクセス許可がない場合、ポリシー作成者は、データ ポリシーの件名に含まれるすべてのプリンシパルの完全なユーザー名または電子メールを入力する必要があります。
データ所有者ポリシーを発行するための Microsoft Purview アクセス許可を構成する
データ所有者ポリシーを使用すると、Microsoft Purview ポリシーの作成者とデータ ソース管理者ロールをorganization内の別のユーザーに割り当てる場合、チェックと残高が許可されます。 データ所有者ポリシーが有効になる前に、2 人目のユーザー (データ ソース管理者) がそれを確認し、公開して明示的に承認する必要があります。 これは、DevOps またはセルフサービス アクセス ポリシーには適用されません。公開は、それらのポリシーが作成または更新されるときに自動的に行われます。
データ所有者ポリシーを発行するには、ルート コレクション レベルで Microsoft Purview でデータ ソース管理者ロールを取得する必要があります。
Microsoft Purview ロールの割り当ての管理の詳細については、Microsoft Purview データ マップでのコレクションの作成と管理に関するページを参照してください。
注:
データ所有者ポリシーを発行するには、ルート コレクション レベルでデータ ソース管理者ロールを構成する必要があります。
Microsoft Purview のロールにアクセス プロビジョニングの責任を委任する
リソースでデータ使用管理が有効になった後、ルート コレクション レベルでポリシー作成者ロールを持つ Microsoft Purview ユーザーは、Microsoft Purview からそのデータ ソースへのアクセスをプロビジョニングできます。
注:
Microsoft Purview ルート コレクション管理者 は、ルート ポリシー作成者 ロールに新しいユーザーを割り当てることができます。 コレクション管理者は、コレクションの下のデータ ソース管理者ロールに新しいユーザーを割り当てることができます。 Microsoft Purview コレクション管理者、 データ ソース管理者、または ポリシー作成者 ロールを保持するユーザーを最小限に抑え、慎重に確認します。
発行されたポリシーを持つ Microsoft Purview アカウントが削除されると、特定のデータ ソースに依存する時間内にそのようなポリシーが適用されなくなります。 この変更は、セキュリティとデータ アクセスの可用性の両方に影響を与える可能性があります。 IAM の共同作成者ロールと所有者ロールは、Microsoft Purview アカウントを削除できます。 これらのアクセス許可をチェックするには、Microsoft Purview アカウントの [アクセス制御 (IAM)] セクションに移動し、[ロールの割り当て] を選択します。 ロックを使用して、Resource Manager ロックによって Microsoft Purview アカウントが削除されないようにすることもできます。
Microsoft Purview for Data Use Management にデータ ソースを登録する
アクセス ポリシーを作成する前に、Azure Storage リソースを Microsoft Purview に最初に登録する必要があります。 リソースを登録するには、このガイドの 「前提条件 と 登録 」セクションに従います。
データ ソースを登録したら、データ使用管理を有効にする必要があります。 これは、データ ソースにポリシーを作成する前の前提条件です。 データ使用管理は、データ ソースへのアクセスを管理する特定の Microsoft Purview ロールに委任されるため、データのセキュリティに影響を与える可能性があります。 このガイドの「データ使用管理」に関連するセキュリティで保護されたプラクティスに関するページを参照してください。データ使用管理を有効にする方法
データ ソースの [データ使用管理 ] オプションが [有効] に設定されると、次のスクリーンショットのようになります。
ポリシーを作成する
Azure Data Lake Storage Gen2のアクセス ポリシーを作成するには、次のガイドに従います。
リソース グループまたは Azure サブスクリプション内のすべてのデータ ソースに対応するポリシーを作成するには、 このセクションを参照してください。
次の手順
Microsoft Purview とデータの詳細については、以下のガイドに従ってください。