Microsoft Purview でAzure Data Lake Storageに接続する
[アーティクル] 2024/03/20
5 人の共同作成者
フィードバック
この記事の内容
サポートされている機能
前提条件
登録
スキャン
データの共有
ポリシー
次の手順
さらに 3 個を表示
この記事では、Microsoft Purview で Azure Data Lake Storage (ADLS Gen2) データ ソースを登録して管理するプロセスについて説明します。これには、ADLS Gen2 ソースの認証と操作の手順が含まれます。
テーブルを展開する
*
データセットが Data Factory または Synapse パイプライン でソース/シンクとして使用される場合は、系列がサポートされます。
ソースAzure Data Lake Storage Gen2スキャンする場合、Microsoft Purview では次のような技術メタデータの抽出がサポートされます。
ストレージ アカウント
Data Lake Storage Gen2 サービス
ファイル システム (コンテナー)
フォルダー
ファイル
リソース セット
スキャンを設定するときに、ADLS Gen2 全体または選択的フォルダーをスキャンできます。 サポートされているファイル形式については 、こちらを参照してください 。
このセクションでは、Purview でスキャンとデータ共有用の ADLS Gen2 データ ソースを登録できます。
ソースを登録し、Microsoft Purview ガバナンス ポータルで管理するには、データ ソース 管理と他の Purview ロール (データ閲覧者、Data Share共同作成者など) のいずれかである必要があります。 詳細については、 Microsoft Purview のアクセス許可に関するページ を参照してください。
データ ソースのスキャンを設定する前に、Microsoft Purview でデータ ソースを登録することが重要です。
Microsoft Purview ガバナンス ポータルに移動するには、次の手順を実行します。
データ マップ --> ソース に移動します
[コレクション] メニューを使用 してコレクション階層 を作成し、必要に応じて個々のサブコレクションにアクセス許可を割り当てます
[ ソース ] メニューの適切なコレクションに移動し、[ 登録 ] アイコンを選択して新しい ADLS Gen2 データ ソースを登録します
Azure Data Lake Storage Gen2 データ ソースを選択し、[続行] を選択します
データ ソースに適した 名前 を指定し、関連する Azure サブスクリプション 、既存 の Data Lake Store アカウント名 、 コレクション を選択し、[ 適用 ] を選択します。 このドキュメントを慎重に確認できるようになるまで、[ データ ポリシーの適用 ] トグルは 無効 な位置のままに します 。
選択したコレクションの下に ADLS Gen2 ストレージ アカウントが表示されます
Azure ネットワークによって Azure リソース間の通信が許可される場合がありますが、Azure 内にファイアウォール、プライベート エンドポイント、または仮想ネットワークを設定している場合は、次のいずれかの構成に従う必要があります。
テーブルを展開する
ネットワーク制約
統合ランタイムの種類
使用可能な資格情報の種類
プライベート エンドポイントまたはファイアウォールなし
Azure IR
マネージド ID (推奨)、サービス プリンシパル、またはアカウント キー
ファイアウォールが有効になっているが、プライベート エンドポイントがない
Azure IR
マネージド ID
プライベート エンドポイントが有効
*セルフホステッド IR
サービス プリンシパル、アカウント キー
スキャンにシステムまたはユーザー割り当てマネージド ID を使用する
使用できるマネージド ID には、次の 2 種類があります。
システム割り当てマネージド ID (推奨) - Microsoft Purview アカウントが作成されると、システム割り当てマネージド ID (SAMI) がテナントMicrosoft Entra自動的に作成されます。 リソースの種類に応じて、Microsoft Purview システム割り当てマネージド ID (SAMI) がスキャンを実行するには、特定の RBAC ロールの割り当てが必要です。
ユーザー割り当てマネージド ID (プレビュー) - システム マネージド ID と同様に、ユーザー割り当てマネージド ID (UAMI) は、Microsoft Purview がMicrosoft Entra IDに対する認証を許可するために使用できる資格情報リソースです。 詳細については、 ユーザー割り当てマネージド ID ガイドを 参照してください。
ADLS Gen2 データ ソースをスキャンするアクセス許可を Microsoft Purview アカウントまたはユーザー割り当てマネージド ID (UAMI) に付与することが重要です。 必要なスキャンアクセス許可のレベルに応じて、Microsoft Purview アカウントのシステム割り当てマネージド ID (Microsoft Purview アカウントと同じ名前) または UAMI をサブスクリプション、リソース グループ、またはリソース レベルで追加できます。
注意
Azure リソースにマネージド ID を追加できるようにするには、サブスクリプションの所有者である必要があります。
Azure portal から、カタログのスキャンを許可するサブスクリプション、リソース グループ、またはリソース (Azure Data Lake Storage Gen2 ストレージ アカウントなど) を見つけます。
左側のナビゲーションで [Access Control (IAM)] を選択し、[+ 追加] -->[ロールの割り当ての追加] を選択します
[ロール ] を [ストレージ BLOB データ閲覧者 ] に設定し、[入力の選択 ] ボックスに Microsoft Purview アカウント名 またはユーザー割り当てマネージド ID を 入力します。 次に、[ 保存] を 選択して、このロールの割り当てを Microsoft Purview アカウントに付与します。
注意
ストレージ アカウントに対してファイアウォールが有効になっている場合は、スキャンを設定するときに マネージド ID 認証方法を使用する必要があります。
Azure portal で ADLS Gen2 ストレージ アカウントに移動する
[セキュリティとネットワーク] > [ネットワーク] に移動します
[アクセスの許可 ] で [選択したネットワーク] を選択します。
[例外 ] セクションで、[信頼された Microsoft サービスがこのストレージ アカウントにアクセスすることを許可する ] を選択し、[保存] をクリックします
[認証方法] が [アカウント キー ] に選択されている場合は、アクセス キーを取得し、キー コンテナーに格納する必要があります。
ADLS Gen2 ストレージ アカウントに移動する
[セキュリティとネットワーク>アクセス キー ] を選択します
キー をコピーし、次の手順で個別に保存します
キー コンテナーに移動する
[シークレット>設定] を選択し、[+ 生成/インポート スクリーンショット] を選択して
ストレージ アカウントのキー として [名前] と [値] を入力します
[ 作成] を 選択して完了します
キー コンテナーがまだ Microsoft Purview に接続されていない場合は、新しいキー コンテナー接続を作成 する必要があります
最後に、キーを使用して 新しい資格情報を作成 してスキャンを設定します
新しいサービス プリンシパルを作成 する必要がある場合は、Microsoft Entra テナントにアプリケーションを登録し、データ ソースのサービス プリンシパルへのアクセスを提供する必要があります。 Microsoft Entraアプリケーション管理者は、この操作を実行できます。
サービス プリンシパルのアプリケーション ID の取得
既に作成されているサービス プリンシパル の概要 に存在するアプリケーション (クライアント) ID を コピーする
ADLS Gen2 アカウントへのサービス プリンシパル アクセスの付与
ADLS Gen2 データ ソースをスキャンするアクセス許可をサービス プリンシパルに付与することが重要です。 必要なスキャンアクセス許可のレベルに応じて、サービス プリンシパルのアクセス権をサブスクリプション、リソース グループ、またはリソース レベルで追加できます。
注意
Azure リソースにサービス プリンシパルを追加できるようにするには、サブスクリプションの所有者である必要があります。
Azure portal から、カタログのスキャンを許可するサブスクリプション、リソース グループ、またはリソース (Azure Data Lake Storage Gen2 ストレージ アカウントなど) を見つけます。
左側のナビゲーションで [Access Control (IAM)] を選択し、[+ 追加] -->[ロールの割り当ての追加] を選択します
[ロール ] を [ストレージ BLOB データ 閲覧者] に設定し、[入力の選択 ] ボックスにサービス プリンシパル を入力します。 次に、[ 保存] を 選択して、このロールの割り当てを Microsoft Purview アカウントに付与します。
Microsoft Purview アカウント を開き、[Microsoft Purview ガバナンス ポータルを開く ] を選択します
[データ マップ ] -->[ソース] に移動してコレクション階層を表示します
前に登録した ADLS Gen2 データ ソース の下にある [新しいスキャン ] アイコンを選択します
ソースがパブリックにアクセス可能な場合は Azure 統合ランタイム、マネージド仮想ネットワークを使用する場合は マネージド仮想ネットワーク統合ランタイム 、ソースがプライベート仮想ネットワークにある場合はセルフホステッド統合ランタイムのいずれかを選択します。 使用する統合ランタイムの詳細については、適切な統合ランタイム構成の選択に関する記事を 参照してください。
システムまたはユーザー割り当てマネージド ID を使用している場合
スキャンの [名前] を 指定し、[ 資格情報 ] でシステム割り当てマネージド ID またはユーザー割り当てマネージド ID を選択し、スキャンに適切なコレクションを選択して、[ 接続のテスト ] を選択します。 接続に成功したら、[続行] を選択 します 。
スキャンの 名前 を指定し、構成に応じて Azure IR または Self-Hosted IR を選択し、スキャンに適したコレクションを選択し、[資格情報] で [ + 新規 ] を選択します。
認証方法として [アカウント キー ] を選択し、適切な Key Vault 接続 を選択し、アカウント キーの格納に使用したシークレットの名前を指定します。 次に、[作成 ] を選択します
[ 接続のテスト] を選択します 。 接続が正常に完了したら、[続行] を選択 します
スキャンの名前 を指定し、構成に応じて Azure IR または Self-Hosted IR を選択し、スキャンに適したコレクションを選択し、[資格情報 ] で [+ 新規 ] を選択します。
サービス プリンシパル の作成時に使用された適切な Key Vault 接続 とシークレット名 を選択します。
サービス プリンシパル ID は、先ほどコピーしたアプリケーション (クライアント) ID です 。
[ 接続のテスト] を選択します 。 接続が正常に完了したら、[続行] を選択 します
スキャンの範囲を特定のフォルダーとサブフォルダーに設定するには、一覧から適切な項目を選択します。
次に、スキャン ルール セットを選択します。 システムの既定値、既存のカスタム ルール セット、または新しいルール セットをインラインで作成することができます。
新しい スキャン ルール セット を作成する場合は、スキャン ルールに含める ファイルの種類 を選択します。
スキャン ルールに含める 分類ルール を選択できます
スキャン トリガーを選択します。 スケジュールを設定することも、スキャンを 1 回実行することもできます。
スキャンを確認し、[ 保存して実行] を選択します。
既存のスキャンを表示するには:
Microsoft Purview ポータルに移動します。 左側のウィンドウで、[ データ マップ ] を選択します。
データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャン の一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
表示する結果を含むスキャンを選択します。 このウィンドウには、以前のすべてのスキャン実行と、各スキャン実行の状態とメトリックが表示されます。
実行 ID を選択して、スキャン実行の詳細をチェックします 。
スキャンを編集、取り消し、または削除するには:
Microsoft Purview ポータルに移動します。 左側のウィンドウで、[ データ マップ ] を選択します。
データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャン の一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
管理するスキャンを選択します。 次のことを実行できます。
[スキャンの編集] を選択して スキャンを編集します 。
[スキャンの実行の取り消し] を選択して、進行中 のスキャンを取り消します 。
[スキャンの削除] を選択して スキャンを削除します 。
注意
スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。
Microsoft Purview データ共有 (プレビュー) を使用すると、ADLS Gen2 から ADLS Gen2 へのインプレース データの共有が可能になります。 このセクションでは、データをインプレースで共有および受信するための ADLS Gen2 固有の要件の詳細について説明します。
データ共有の 使用方法に関するステップ バイ ステップ ガイドについては、「データを共有する方法」と「共有を受け取る 方法」を参照してください。
インプレース データ共有でサポートされるストレージ アカウント
インプレース データ共有では、次のストレージ アカウントがサポートされています。
リージョン: カナダ中部、カナダ東部、英国南部、英国西部、オーストラリア東部、東日本、韓国南部、南アフリカ北部
冗長性オプション: LRS、GRS、RA-GRS
階層: ホット、クール
プレビューでは、運用ワークロードのないストレージ アカウントのみを使用します。
注意
ソースとターゲットのストレージ アカウントは、互いに同じリージョンに存在する必要があります。 Microsoft Purview アカウントと同じリージョンに存在する必要はありません。
データを共有するために必要なストレージ アカウントのアクセス許可
ストレージ アカウント資産を共有に追加または更新するには、次のいずれかのアクセス許可が必要です。
Microsoft.Authorization/roleAssignments/write - このアクセス許可は 所有者 ロールで使用できます。
Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ - このアクセス許可は 、Blob Storage データ所有者 ロールで使用できます。
共有データを受信するために必要なストレージ アカウントのアクセス許可
受信した共有にストレージ アカウント資産をマップするには、次のいずれかのアクセス許可が必要です。
Microsoft.Storage/storageAccounts/write - このアクセス許可は、 共同作成者 ロールと 所有者 ロールで使用できます。
Microsoft.Storage/storageAccounts/blobServices/containers/write - このアクセス許可は、 共同作成者 、 所有者 、 ストレージ BLOB データ共同作成者 、ストレージ BLOB データ所有者 ロールで使用できます。
ソース ストレージ アカウントの共有データを更新する
ソース ストレージ アカウントから共有フォルダー内の共有ファイルまたはデータに対して行ったUpdatesは、ターゲット ストレージ アカウントの受信者がほぼリアルタイムで使用できるようになります。 共有フォルダー内のサブフォルダーまたはファイルを削除すると、受信者が消えます。 共有フォルダー、ファイル、または親フォルダーまたはコンテナーを削除するには、まず、ソース ストレージ アカウントからすべての共有へのアクセスを取り消す必要があります。
ターゲット ストレージ アカウントの共有データにアクセスする
ターゲット ストレージ アカウントを使用すると、受信者は、ほぼリアルタイムで共有データに読み取り専用でアクセスできます。 Synapse Workspace や Databricks などの分析ツールを共有データに接続して分析を実行できます。 共有データにアクセスするコストは、ターゲット ストレージ アカウントに課金されます。
ソース ストレージ アカウントでは最大 20 個のターゲットをサポートでき、ターゲット ストレージ アカウントでは最大 100 個のソースをサポートできます。 制限の引き上げが必要な場合は、サポートにお問い合わせください。
Microsoft Purview のこのデータ リソースでは、次の種類のポリシーがサポートされています。
データ所有者ポリシー - ユーザーとグループにデータ ソースへのアクセスを許可できる一連のポリシー ステートメント。
セルフサービス アクセス ポリシー - ユーザーが Microsoft Purview に登録されているデータ ソースへのアクセスを要求できるようにするポリシー。
保護ポリシー - ポリシーで指定されたものを除くすべてのユーザーに対して、秘密度ラベルでタグ付けされたデータへのアクセスを拒否します。
Azure Storage アカウントのアクセス ポリシーの前提条件
すべての Microsoft Purview リージョン がサポートされています。
次のリージョンのストレージ アカウントは、追加の構成を必要とせずにサポートされます。 ただし、ゾーン冗長ストレージ (ZRS) アカウントはサポートされていません。
オーストラリア中部
オーストラリア東部
オーストラリア南東部
ブラジル南部
カナダ中部
カナダ東部
インド中部
米国中部
東アジア
米国東部 2
米国東部
フランス中部
ドイツ中西部
東日本
西日本
韓国中部
米国中央北部
北ヨーロッパ
ノルウェー東部
ポーランド中部
カタール中部
米国中央南部
南アフリカ北部
東南アジア
インド南部
スウェーデン中部
スイス北部
米国中央西部
西ヨーロッパ
米国西部
米国西部 2
米国西部 3
アラブ首長国連邦北部
英国南部
英国西部
次のセクションで説明するように、機能フラグ AllowPurviewPolicyEnforcement を設定した後、Public Cloud の他のリージョンのストレージ アカウントがサポートされます。 機能フラグ AllowPurviewPolicyEnforcement を設定した後に作成された場合、新しく作成された ZRS ストレージ アカウントがサポートされます。
必要に応じて、 このガイドに従 って新しいストレージ アカウントを作成できます。
この手順は、特定のリージョンでのみ必要です (前のセクションを参照)。 Microsoft Purview で 1 つ以上の Azure Storage アカウントのポリシーを管理できるようにするには、Azure Storage アカウントをデプロイするサブスクリプションで次の PowerShell コマンドを実行します。 これらの PowerShell コマンドを使用すると、Microsoft Purview は、そのサブスクリプション内のすべての Azure Storage アカウントのポリシーを管理できます。
これらのコマンドをローカルで実行する場合は、必ず管理者として PowerShell を実行してください。
または、Azure portal: https://shell.azure.com で Azure Cloud Shellを使用することもできます。
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
最後のコマンドの出力に RegistrationState が [登録済み ] と表示されている場合、サブスクリプションはアクセス ポリシーに対して有効になります。
出力が [登録中] の 場合は、少なくとも 10 分待ってから、コマンドを再試行します。
RegistrationState に [登録済 み] と表示されない限り、続行しないでください 。
Microsoft Purview でデータ ソースを登録する
データ リソースのポリシーを Microsoft Purview で作成するには、そのデータ リソースを Microsoft Purview Studio に登録する必要があります。 データ リソースの登録に関連する手順については、このガイドの後半で説明します。
注意
Microsoft Purview ポリシーは、データ リソース ARM パスに依存します。 データ リソースを新しいリソース グループまたはサブスクリプションに移動する場合は、登録を解除してから、Microsoft Purview に再登録する必要があります。
リソースが登録されたら、そのリソースのポリシーを Microsoft Purview で作成する前に、アクセス許可を構成する必要があります。
データ ポリシーの適用 を有効にするには、一連のアクセス許可が必要です。 これは、データ ソース、リソース グループ、またはサブスクリプションに適用されます。
データ ポリシーの適用 を有効にするには、リソースに対する特定の ID とアクセス管理 (IAM) 特権と、特定の Microsoft Purview 権限の両方 が必要です。
リソースの Azure Resource Manager パスまたはその親 (つまり、IAM アクセス許可の継承を使用) には、次のいずれかの IAM ロールの組み合わせが必要です。
IAM 所有者
IAM 共同作成者と IAM ユーザー アクセス管理者の両方
Azure ロールベースのアクセス制御 (RBAC) アクセス許可を構成するには、 このガイド に従います。 次のスクリーンショットは、データ リソースのAzure portalの [Access Control ] セクションにアクセスしてロールの割り当てを追加する方法を示しています。
注意
データ リソースの IAM 所有者 ロールは、親リソース グループ、サブスクリプション、またはサブスクリプション管理グループから継承できます。 ユーザー、グループ、およびサービス プリンシパルがリソースの IAM 所有者 ロールを保持しているか、継承しているMicrosoft Entraを確認します。
また、コレクションまたは親コレクションの Microsoft Purview データ ソース管理者 ロールも必要です (継承が有効な場合)。 詳細については、 Microsoft Purview ロールの割り当ての管理に関するガイドを 参照してください。
次のスクリーンショットは、ルート コレクション レベルで データ ソース管理者 ロールを割り当てる方法を示しています。
ポリシーを作成、更新、または削除するには、ルート コレクション レベル で Microsoft Purview でポリシー作成者 ロールを取得する必要があります。
ポリシー作成者 ロールは、DevOps ポリシーとデータ所有者ポリシーを作成、更新、削除できます。
ポリシー作成者 ロールは、セルフサービス アクセス ポリシーを削除できます。
Microsoft Purview ロールの割り当ての管理の詳細については、Microsoft Purview データ マップでのコレクションの作成と管理に関するページを 参照してください。
注意
ポリシー作成者ロールは、ルート コレクション レベルで構成する必要があります。
さらに、ポリシーの件名を作成または更新するときに、Microsoft Entraユーザーまたはグループを簡単に検索するには、Microsoft Entra IDで [ディレクトリ閲覧者] アクセス許可を取得することで大きなメリットを得ることができます。 これは、Azure テナント内のユーザーに共通のアクセス許可です。 ディレクトリ閲覧者のアクセス許可がない場合、ポリシー作成者は、データ ポリシーの件名に含まれるすべてのプリンシパルの完全なユーザー名または電子メールを入力する必要があります。
データ所有者ポリシーを使用すると、Microsoft Purview ポリシーの作成者 とデータ ソース管理者 ロールをorganization内の別のユーザーに割り当てる場合、チェックと残高が許可されます。 データ所有者ポリシーが有効になる前に、2 人目のユーザー (データ ソース管理者 ) がそれを確認し、公開して明示的に承認する必要があります。 これは、DevOps またはセルフサービス アクセス ポリシーには適用されません。公開は、それらのポリシーが作成または更新されるときに自動的に行われます。
データ所有者ポリシーを発行するには、ルート コレクション レベル で Microsoft Purview でデータ ソース管理者 ロールを取得する必要があります。
Microsoft Purview ロールの割り当ての管理の詳細については、Microsoft Purview データ マップでのコレクションの作成と管理に関するページを 参照してください。
注意
データ所有者ポリシーを発行するには、ルート コレクション レベルでデータ ソース管理者ロールを構成する必要があります。
Microsoft Purview のロールにアクセス プロビジョニングの責任を委任する
データ ポリシーの適用 に対してリソースが有効になった後、ルート コレクション レベルでポリシー作成者 ロールを持つ Microsoft Purview ユーザーは、Microsoft Purview からそのデータ ソースへのアクセスをプロビジョニングできます。
注意
Microsoft Purview ルート コレクション管理者 は、ルート ポリシー作成者 ロールに新しいユーザーを割り当てることができます。
コレクション管理者 は、コレクションの下のデータ ソース管理者 ロールに新しいユーザーを割り当てることができます。 Microsoft Purview コレクション管理者 、 データ ソース 管理者、または ポリシー作成者 ロールを保持するユーザーを最小限に抑え、慎重に確認します。
発行されたポリシーを持つ Microsoft Purview アカウントが削除されると、特定のデータ ソースに依存する時間内にそのようなポリシーが適用されなくなります。 この変更は、セキュリティとデータ アクセスの可用性の両方に影響を与える可能性があります。 IAM の共同作成者ロールと所有者ロールは、Microsoft Purview アカウントを削除できます。 これらのアクセス許可をチェックするには、Microsoft Purview アカウントの [アクセス制御 (IAM)] セクションに移動し、[ロールの割り当て ] を選択します。 ロックを使用して、Resource Manager ロック によって Microsoft Purview アカウントが削除されないようにすることもできます。
データ ポリシー適用のために Microsoft Purview にデータ ソースを登録する
アクセス ポリシーを作成する前に、Azure Storage リソースを Microsoft Purview に最初に登録する必要があります。
リソースを登録するには、このガイドの 「前提条件 と 登録 」セクションに従います。
データ ソースを登録したら、データ ポリシーの適用を有効にする必要があります。 これは、データ ソースにポリシーを作成する前の前提条件です。 データ ポリシーの適用は、データ ソースへのアクセスを管理する特定の Microsoft Purview ロールに委任されるため、データのセキュリティに影響を与える可能性があります。
このガイドのデータ ポリシーの適用に関連するセキュリティで保護されたプラクティスを確認 する: データ ポリシーの適用を有効にする方法
データ ソースの [データ ポリシーの適用 ] オプションが [有効] に設定されると、次のスクリーンショットのようになります。 [
Azure Data Lake Storage Gen2のアクセス ポリシーを作成するには、次のガイドに従います。
リソース グループまたは Azure サブスクリプション内のすべてのデータ ソースに対応するポリシーを作成するには、 このセクション を参照してください。
保護アクセス制御ポリシー (保護ポリシー) を使用すると、組織はデータ ソース間で機密データを自動的に保護できます。 Microsoft Purview は既にデータ資産をスキャンし、機密データ要素を識別します。この新機能を使用すると、Microsoft Purview Information Protectionからの秘密度ラベルを使用してそのデータへのアクセスを自動的に制限できます。
保護ポリシーを作成するには、次のドキュメントに従います:Microsoft Purview Information Protection ポリシーを作成する方法。
Microsoft Purview とデータの詳細については、以下のガイドに従ってください。