Microsoft Purview で Azure Blob Storage に接続する
この記事では、Azure Blob Storage ソースを認証して操作する手順など、Microsoft Purview でAzure Blob Storage アカウントを登録して管理するプロセスについて説明します
サポートされている機能
メタデータ抽出 | フル スキャン | 増分スキャン | スコープスキャン | 分類 | ラベル付け | アクセス ポリシー | 系統 | データ共有 | ライブ ビュー |
---|---|---|---|---|---|---|---|---|---|
○ | ○ | ○ | ○ | ○ | はい | はい (プレビュー) | 限ら れた** | ○ | はい |
** データセットが Data Factory Copy アクティビティのソース/シンクとして使用されている場合は、系列がサポートされます
csv、tsv、psv、ssv などのファイルの種類の場合、次のロジックが配置されるとスキーマが抽出されます。
- 最初の行の値が空でない
- 最初の行の値は一意です
- 最初の行の値が日付または数値ではありません
前提条件
アクティブなサブスクリプションを持つ Azure アカウント。 無料でアカウントを作成します。
アクティブな Microsoft Purview アカウント。
Microsoft Purview ガバナンス ポータルでソースを登録して管理するには、データ ソース管理者およびデータ 閲覧者である必要があります。 詳細については、 Microsoft Purview のアクセス許可に関するページ を参照してください。
** データセットが Data Factory Copy アクティビティのソース/シンクとして使用されている場合は、系列がサポートされます
登録
このセクションでは、Purview でスキャンとデータ共有用の Azure BLOB ストレージ アカウントを登録できます。
レジスタの前提条件
- ソースを登録し、Microsoft Purview ガバナンス ポータルで管理するには、データ ソース 管理と他の Purview ロール (データ閲覧者、Data Share共同作成者など) のいずれかである必要があります。 詳細については、 Microsoft Purview のアクセス許可に関するページ を参照してください。
登録手順
データ ソースのスキャンを設定する前に、Microsoft Purview でデータ ソースを登録することが重要です。
Microsoft Purview ガバナンス ポータルに移動するには、次の手順を実行します。
- Microsoft Purview アカウントに https://web.purview.azure.com 直接移動して選択します。
- Azure portalを開き、Microsoft Purview アカウントを検索して選択します。 [Microsoft Purview ガバナンス ポータル] ボタンを選択します。
データ マップに移動する --> ソース
[コレクション] メニューを使用してコレクション階層を作成し、必要に応じて個々のサブコレクションにアクセス許可を割り当てます
[ ソース ] メニューの適切なコレクションに移動し、[ 登録 ] アイコンを選択して新しい Azure Blob データ ソースを登録します
Azure Blob Storage データ ソースを選択し、[続行] を選択します
データ ソースに適切な名前を指定し、関連する Azure サブスクリプション、既存のAzure Blob Storage アカウント名、コレクションを選択し、[適用] を選択します。 このドキュメントを慎重に確認できるようになるまで、[ データ使用管理 ] トグルは 無効 な位置のままに します。
選択したコレクションの下に Azure Blob Storage アカウントが表示されます
スキャン
csv、tsv、psv、ssv などのファイルの種類の場合、次のロジックが配置されるとスキーマが抽出されます。
- 最初の行の値が空でない
- 最初の行の値は一意です
- 最初の行の値は日付または数値ではありません
スキャンの認証
Azure ネットワークによって Azure リソース間の通信が許可される場合がありますが、Azure 内にファイアウォール、プライベート エンドポイント、または仮想ネットワークを設定している場合は、次のいずれかの構成に従う必要があります。
ネットワーク制約 | 統合ランタイムの種類 | 使用可能な資格情報の種類 |
---|---|---|
プライベート エンドポイントまたはファイアウォールなし | Azure IR | マネージド ID (推奨)、サービス プリンシパル、またはアカウント キー |
ファイアウォールが有効になっているが、プライベート エンドポイントがない | Azure IR | マネージド ID |
プライベート エンドポイントが有効 | *セルフホステッド IR | サービス プリンシパル、アカウント キー |
*セルフホステッド統合ランタイムを使用するには、最初に作成し、Microsoft Purview のネットワーク設定を確認する必要があります
スキャンにシステムまたはユーザー割り当てマネージド ID を使用する
使用できるマネージド ID には、次の 2 種類があります。
システム割り当てマネージド ID (推奨) - Microsoft Purview アカウントが作成されるとすぐに、Azure AD テナントにシステム割り当てマネージド ID (SAMI) が自動的に作成されます。 リソースの種類に応じて、Microsoft Purview システム割り当てマネージド ID (SAMI) がスキャンを実行するには、特定の RBAC ロールの割り当てが必要です。
ユーザー割り当てマネージド ID (プレビュー) - システム マネージド ID と同様に、ユーザー割り当てマネージド ID (UAMI) は、Microsoft Purview が Azure Active Directory に対する認証を許可するために使用できる資格情報リソースです。 詳細については、 ユーザー割り当てマネージド ID ガイドを参照してください。 Azure Blob データ ソースをスキャンするアクセス許可を Microsoft Purview アカウントに付与することが重要です。 SAMI または UAMI のアクセス権は、必要なスキャン権限に応じて、サブスクリプション、リソース グループ、またはリソース レベルで追加できます。
注:
ストレージ アカウントに対してファイアウォールが有効になっている場合は、スキャンを設定するときに マネージド ID 認証方法を使用する必要があります。
注:
Azure リソースにマネージド ID を追加できるようにするには、サブスクリプションの所有者である必要があります。
Azure portalから、カタログのスキャンを許可するサブスクリプション、リソース グループ、またはリソース (Azure Blob Storage アカウントなど) を見つけます。
左側のナビゲーションで [Access Control (IAM)] を選択し、[+ 追加] --[>ロールの割り当ての追加] を選択します
[ロール] を [ストレージ BLOB データ閲覧者] に設定し、[入力の選択] ボックスに Microsoft Purview アカウント名またはユーザー割り当てマネージド ID を入力します。 次に、[ 保存] を 選択して、このロールの割り当てを Microsoft Purview アカウントに付与します。
Azure portalで Azure Blob Storage アカウントに移動する
[セキュリティとネットワーク ネットワーク>] に移動します
[アクセスの許可] で [選択したネットワーク] を選択します。
[例外] セクションで、[信頼された Microsoft サービスがこのストレージ アカウントにアクセスすることを許可する] を選択し、[保存] をクリックします
注:
詳細については、「Azure Active Directory を使用して BLOB とキューへのアクセスを承認する」の手順を参照してください。
スキャンにアカウント キーを使用する
[認証方法] が [アカウント キー] に選択されている場合は、アクセス キーを取得し、キー コンテナーに格納する必要があります。
Azure Blob Storage アカウントに移動する
[ セキュリティ + ネットワーク アクセス キー] を > 選択します
キーをコピーし、次の手順で個別に保存します
キー コンテナーに移動する
[設定シークレット] > を選択し、[+ 生成/インポート] を選択します
ストレージ アカウントのキーとして [名前] と [値] を入力します
[ 作成] を 選択して完了します
キー コンテナーがまだ Microsoft Purview に接続されていない場合は、新しいキー コンテナー接続を作成する必要があります
最後に、キーを使用して 新しい資格情報を作成 してスキャンを設定します
スキャンにサービス プリンシパルを使用する
新しいサービス プリンシパルの作成
新しいサービス プリンシパルを作成する必要がある場合は、Azure AD テナントにアプリケーションを登録し、データ ソースのサービス プリンシパルへのアクセスを提供する必要があります。 Azure AD グローバル管理者またはアプリケーション管理者などの他のロールは、この操作を実行できます。
サービス プリンシパルのアプリケーション ID の取得
既に作成されているサービス プリンシパルの概要に存在するアプリケーション (クライアント) ID をコピーする
サービス プリンシパルに Azure Blob アカウントへのアクセス権を付与する
Azure BLOB データ ソースをスキャンするアクセス許可をサービス プリンシパルに付与することが重要です。 サービス プリンシパルのアクセス権は、必要なスキャン アクセスのレベルに応じて、サブスクリプション、リソース グループ、またはリソース レベルで追加できます。
注:
Azure リソースにサービス プリンシパルを追加できるようにするには、サブスクリプションの所有者である必要があります。
Azure portalから、カタログのスキャンを許可するサブスクリプション、リソース グループ、またはリソース (Azure Blob Storage ストレージ アカウントなど) を見つけます。
左側のナビゲーションで [Access Control (IAM)] を選択し、[+ 追加] --[>ロールの割り当ての追加] を選択します
[ロール] を [ストレージ BLOB データ 閲覧者] に設定し、[入力の選択] ボックスにサービス プリンシパルを入力します。 次に、[ 保存] を 選択して、このロールの割り当てを Microsoft Purview アカウントに付与します。
スキャンの作成
Microsoft Purview アカウントを開き、[Microsoft Purview ガバナンス ポータルを開く] を選択します
[データ マップ] -->[ソース] に移動してコレクション階層を表示します
先ほど登録した Azure BLOB データ ソースの下にある [新しいスキャン] アイコンを選択します
システムまたはユーザー割り当てマネージド ID を使用している場合
スキャンの [名前] を指定し、[ 資格情報] で Microsoft Purview アカウント SAMI または UAMI を選択し、スキャンに適したコレクションを選択して、[ 接続のテスト] を選択します。 接続が正常に完了したら、[続行] を選択 します
アカウント キーを使用している場合
スキャンの名前を指定し、構成に応じて Azure IR または Self-Hosted IR を選択し、スキャンに適切なコレクションを選択し、[アカウント キー] として [認証方法] を選択し、[作成] を選択します。
サービス プリンシパルを使用している場合
スキャンの名前を指定し、構成に応じて Azure IR または Self-Hosted IR を選択し、スキャンに適したコレクションを選択し、[資格情報] で [+ 新規] を選択します。
サービス プリンシパルの作成時に使用された適切な Key Vault 接続とシークレット名を選択します。 サービス プリンシパル ID は、前にコピーしたアプリケーション (クライアント) ID です
[ 接続のテスト] を選択します。 接続が正常に完了したら、[続行] を選択 します
スキャンのスコーピングと実行
スキャンの範囲を特定のフォルダーとサブフォルダーに設定するには、一覧から適切な項目を選択します。
次に、スキャン ルール セットを選択します。 システムの既定値、既存のカスタム ルール セット、または新しいルール セットをインラインで作成することができます。
新しい スキャン ルール セットを作成する場合は、スキャン ルールに含める ファイルの種類 を選択します。
スキャン ルールに含める 分類ルール を選択できます
スキャン トリガーを選択します。 スケジュールを設定することも、スキャンを 1 回実行することもできます。
スキャンを確認し、[ 保存して実行] を選択します。
スキャンの表示
コレクション内のデータ ソースに移動し、[詳細の表示] を選択してスキャンの状態をチェックします
スキャンの詳細は、前回の実行状態でのスキャンの進行状況と、スキャンおよび分類された資産の数を示します
スキャン全体が正常に実行されると、[ 最終実行] 状態 が [進行中 ] に更新され、[ 完了] に更新されます
スキャンの管理
スキャンは、完了時に管理または再実行できます
[スキャン名] を選択してスキャンを管理する
スキャンをもう一度実行し、スキャンを編集し、スキャンを削除できます
インクリメンタル スキャンまたはフル スキャンをもう一度実行できます。
データの共有
Microsoft Purview データ共有 (プレビュー) を使用すると、Azure Blob Storage アカウントから Azure Blob Storage アカウントへのインプレース データの共有が可能になります。 このセクションでは、Azure Blob Storage アカウント間でデータをインプレースで共有および受信するための特定の要件の詳細について説明します。 データ共有の使用方法に関するステップ バイ ステップ ガイドについては、「データを共有する方法」と「共有を受け取る方法」を参照してください。
インプレース データ共有でサポートされるストレージ アカウント
インプレース データ共有では、次のストレージ アカウントがサポートされています。
- リージョン: カナダ中部、カナダ東部、英国南部、英国西部、オーストラリア東部、東日本、韓国南部、南アフリカ北部
- 冗長性オプション: LRS、GRS、RA-GRS
- 階層: ホット、クール
プレビューでは、運用ワークロードのないストレージ アカウントのみを使用します。
注:
ソースとターゲットのストレージ アカウントは、互いに同じリージョンに存在する必要があります。 Microsoft Purview アカウントと同じリージョンに存在する必要はありません。
データを共有するために必要なストレージ アカウントのアクセス許可
ストレージ アカウント資産を共有に追加または更新するには、次のいずれかのアクセス許可が必要です。
- Microsoft.Authorization/roleAssignments/write - このアクセス許可は 所有者 ロールで使用できます。
- Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ - このアクセス許可は 、Blob Storage データ所有者 ロールで使用できます。
共有データを受信するために必要なストレージ アカウントのアクセス許可
受信した共有にストレージ アカウント資産をマップするには、次のいずれかのアクセス許可が必要です。
- Microsoft.Storage/storageAccounts/write - このアクセス許可は、 共同作成者 ロールと 所有者 ロールで使用できます。
- Microsoft.Storage/storageAccounts/blobServices/containers/write - このアクセス許可は、 共同作成者、 所有者、 ストレージ BLOB データ共同作成者 、ストレージ BLOB データ所有者 ロールで使用できます。
ソース ストレージ アカウントの共有データを更新する
ソース ストレージ アカウントから共有フォルダー内の共有ファイルまたはデータに対して行った更新は、ターゲット ストレージ アカウントの受信者がほぼリアルタイムで使用できるようになります。 共有フォルダー内のサブフォルダーまたはファイルを削除すると、受信者が消えます。 共有フォルダー、ファイル、または親フォルダーまたはコンテナーを削除するには、まず、ソース ストレージ アカウントからすべての共有へのアクセスを取り消す必要があります。
ターゲット ストレージ アカウントの共有データにアクセスする
ターゲット ストレージ アカウントを使用すると、受信者は、ほぼリアルタイムで共有データに読み取り専用でアクセスできます。 Synapse Workspace や Databricks などの分析ツールを共有データに接続して分析を実行できます。 共有データにアクセスするコストは、ターゲット ストレージ アカウントに課金されます。
サービスの制限
ソース ストレージ アカウントでは最大 20 個のターゲットをサポートでき、ターゲット ストレージ アカウントでは最大 100 個のソースをサポートできます。 制限の引き上げが必要な場合は、サポートにお問い合わせください。
アクセス ポリシー
Microsoft Purview のこのデータ リソースでは、次の種類のポリシーがサポートされています。
Azure Storage アカウントのアクセス ポリシーの前提条件
リージョンのサポート
- すべての Microsoft Purview リージョンがサポートされています。
- 次のリージョンのストレージ アカウントは、追加の構成を必要とせずにサポートされます。 ただし、ゾーン冗長ストレージ (ZRS) アカウントはサポートされていません。
- 米国東部
- 米国東部 2
- 米国中央南部
- 米国西部 2
- カナダ中部
- 北ヨーロッパ
- 西ヨーロッパ
- フランス中部
- 英国南部
- 東南アジア
- オーストラリア東部
- 次のセクションで説明するように、機能フラグ AllowPurviewPolicyEnforcement を設定した後、Public Cloud の他のリージョンのストレージ アカウントがサポートされます。 機能フラグ AllowPurviewPolicyEnforcement を設定した後に作成された場合、新しく作成された ZRS ストレージ アカウントがサポートされます。
必要に応じて、 このガイドに従って新しいストレージ アカウントを作成できます。
Microsoft Purview からのポリシーに対して Azure Storage アカウントが存在するサブスクリプションを構成する
この手順は、特定のリージョンでのみ必要です (前のセクションを参照)。 Microsoft Purview で 1 つ以上の Azure Storage アカウントのポリシーを管理できるようにするには、Azure Storage アカウントをデプロイするサブスクリプションで次の PowerShell コマンドを実行します。 これらの PowerShell コマンドを使用すると、Microsoft Purview は、そのサブスクリプション内のすべての Azure Storage アカウントのポリシーを管理できます。
これらのコマンドをローカルで実行する場合は、必ず管理者として PowerShell を実行してください。 または、Azure portal で Azure Cloud Shell を使用することもできます。 https://shell.azure.com
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
最後のコマンドの出力に RegistrationStateが [登録済み] と表示されている場合、サブスクリプションはアクセス ポリシーに対して有効になります。 出力が [登録中] の場合は、少なくとも 10 分待ってから、コマンドを再試行します。 RegistrationState に [登録済み] と表示されない限り、続行しないでください。
ポリシーの Microsoft Purview アカウントを構成する
Microsoft Purview でデータ ソースを登録する
データ リソースのポリシーを Microsoft Purview で作成するには、そのデータ リソースを Microsoft Purview Studio に登録する必要があります。 データ リソースの登録に関連する手順については、このガイドの後半で説明します。
注:
Microsoft Purview ポリシーは、データ リソース ARM パスに依存します。 データ リソースを新しいリソース グループまたはサブスクリプションに移動する場合は、登録を解除してから、Microsoft Purview に再登録する必要があります。
データ ソースでデータ使用管理を有効にするアクセス許可を構成する
リソースが登録されたら、そのリソースのポリシーを Microsoft Purview で作成する前に、アクセス許可を構成する必要があります。 データ使用管理を有効にするには、一連のアクセス許可が必要です。 これは、データ ソース、リソース グループ、またはサブスクリプションに適用されます。 データ使用管理を有効にするには、リソースに対する特定の ID とアクセス管理 (IAM) 権限と、特定の Microsoft Purview 権限の両方が必要です。
リソースの Azure Resource Manager パスまたはその親 (つまり、IAM アクセス許可の継承を使用) には、次のいずれかの IAM ロールの組み合わせが必要です。
- IAM 所有者
- IAM 共同作成者と IAM ユーザー アクセス管理者の両方
Azure ロールベースのアクセス制御 (RBAC) アクセス許可を構成するには、 このガイドに従います。 次のスクリーンショットは、データ リソースのAzure portalの [Access Control] セクションにアクセスしてロールの割り当てを追加する方法を示しています。
注:
データ リソースの IAM 所有者 ロールは、親リソース グループ、サブスクリプション、またはサブスクリプション管理グループから継承できます。 リソースの IAM 所有者 ロールを保持または継承している Azure AD ユーザー、グループ、およびサービス プリンシパルを確認します。
また、コレクションまたは親コレクションの Microsoft Purview データ ソース管理者 ロールも必要です (継承が有効な場合)。 詳細については、 Microsoft Purview ロールの割り当ての管理に関するガイドを参照してください。
次のスクリーンショットは、ルート コレクション レベルで データ ソース管理者 ロールを割り当てる方法を示しています。
アクセス ポリシーを作成、更新、または削除するように Microsoft Purview アクセス許可を構成する
ポリシーを作成、更新、または削除するには、ルート コレクション レベルで Microsoft Purview でポリシー作成者ロールを取得する必要があります。
- ポリシー作成者ロールは、DevOps ポリシーとデータ所有者ポリシーを作成、更新、削除できます。
- ポリシー作成者ロールは、セルフサービス アクセス ポリシーを削除できます。
Microsoft Purview ロールの割り当ての管理の詳細については、Microsoft Purview データ マップでのコレクションの作成と管理に関するページを参照してください。
注:
ポリシー作成者ロールは、ルート コレクション レベルで構成する必要があります。
さらに、ポリシーの件名を作成または更新するときに Azure AD ユーザーまたはグループを簡単に検索するには、Azure AD で [ディレクトリ閲覧者 ] アクセス許可を取得することで大きなメリットを得ることができます。 これは、Azure テナント内のユーザーに共通のアクセス許可です。 ディレクトリ閲覧者のアクセス許可がない場合、ポリシー作成者は、データ ポリシーの件名に含まれるすべてのプリンシパルの完全なユーザー名または電子メールを入力する必要があります。
データ所有者ポリシーを発行するための Microsoft Purview アクセス許可を構成する
データ所有者ポリシーを使用すると、Microsoft Purview ポリシーの作成者とデータ ソース管理者ロールをorganization内の別のユーザーに割り当てる場合、チェックと残高が許可されます。 データ所有者ポリシーが有効になる前に、2 人目のユーザー (データ ソース管理者) がそれを確認し、公開して明示的に承認する必要があります。 これは、DevOps またはセルフサービス アクセス ポリシーには適用されません。公開は、それらのポリシーが作成または更新されるときに自動的に行われます。
データ所有者ポリシーを発行するには、ルート コレクション レベルで Microsoft Purview でデータ ソース管理者ロールを取得する必要があります。
Microsoft Purview ロールの割り当ての管理の詳細については、Microsoft Purview データ マップでのコレクションの作成と管理に関するページを参照してください。
注:
データ所有者ポリシーを発行するには、ルート コレクション レベルでデータ ソース管理者ロールを構成する必要があります。
Microsoft Purview のロールにアクセス プロビジョニングの責任を委任する
リソースでデータ使用管理が有効になった後、ルート コレクション レベルでポリシー作成者ロールを持つ Microsoft Purview ユーザーは、Microsoft Purview からそのデータ ソースへのアクセスをプロビジョニングできます。
注:
Microsoft Purview ルート コレクション管理者 は、ルート ポリシー作成者 ロールに新しいユーザーを割り当てることができます。 コレクション管理者は、コレクションの下のデータ ソース管理者ロールに新しいユーザーを割り当てることができます。 Microsoft Purview コレクション管理者、 データ ソース管理者、または ポリシー作成者 ロールを保持するユーザーを最小限に抑え、慎重に確認します。
発行されたポリシーを持つ Microsoft Purview アカウントが削除されると、特定のデータ ソースに依存する時間内にそのようなポリシーが適用されなくなります。 この変更は、セキュリティとデータ アクセスの可用性の両方に影響を与える可能性があります。 IAM の共同作成者ロールと所有者ロールは、Microsoft Purview アカウントを削除できます。 これらのアクセス許可をチェックするには、Microsoft Purview アカウントの [アクセス制御 (IAM)] セクションに移動し、[ロールの割り当て] を選択します。 ロックを使用して、Resource Manager ロックによって Microsoft Purview アカウントが削除されないようにすることもできます。
Microsoft Purview for Data Use Management にデータ ソースを登録する
アクセス ポリシーを作成する前に、Azure Storage リソースを Microsoft Purview に最初に登録する必要があります。 リソースを登録するには、このガイドの 「前提条件 と 登録 」セクションに従います。
データ ソースを登録したら、データ使用管理を有効にする必要があります。 これは、データ ソースにポリシーを作成する前の前提条件です。 データ使用管理は、データ ソースへのアクセスを管理する特定の Microsoft Purview ロールに委任されるため、データのセキュリティに影響を与える可能性があります。 このガイドの「データ使用管理」に関連するセキュリティで保護されたプラクティスに関するページを参照してください。データ使用管理を有効にする方法
データ ソースの [データ使用管理 ] オプションが [有効] に設定されると、次のスクリーンショットのようになります。
ポリシーを作成する
Azure Blob Storageのアクセス ポリシーを作成するには、次のガイドに従います。単一のストレージ アカウントで読み取り/変更アクセスをプロビジョニングします。
リソース グループまたは Azure サブスクリプション内のすべてのデータ ソースに対応するポリシーを作成するには、 このセクションを参照してください。
次の手順
Microsoft Purview とデータの詳細については、以下のガイドに従ってください。