データの登録とスキャン

完了

データの登録とスキャンによって、資産全体のデータを検出できます。

データを登録してスキャンする前に、コレクションの概念を理解しておくことが重要です。 Microsoft Purview Data Catalog では、コレクションによってアクセス許可と資産保護を推進するため、これが重要な概念となります。 データ資産の分析情報のデータ スチュワードシップに関するセクションで取り上げているように、コレクションは、データ資産の正常性とカタログの使用状況および導入を理解するためにも使用されます。

コレクション

データ マップは Microsoft Purview の中核となる機能で、データ資産全体の資産とそのメタデータのマップを最新の状態で維持します。 データ マップをハイドレートするには、データ ソースを登録してスキャンする必要があります。これはコレクション レベルで行われます。 コレクションによって、組織のメタデータのマッピングがサポートされます。 コレクションを使用することで、フラット構造ではなく階層内のデータ ソース、スキャン、資産を管理および維持できます。 コレクションを使用すると、組織で Microsoft Purview を使用してランドスケープを管理する方法に基づいて、データ ランドスケープのカスタム階層モデルを構築できます。

また、コレクションによって、データ マップ内のメタデータに対してセキュリティ境界も提供されます。 コレクション、データ ソース、メタデータへのアクセスは、最小特権のモデルに従い、Microsoft Purview のコレクションの階層に基づいて設定および管理されます。

  • ユーザーには、ジョブを実行するために必要な最小限のアクセス権が付与されます。
  • ユーザーは、必要のない機密データにはアクセスできません。

データ ソースはコレクション レベルで登録されます。 その後、スキャン結果をこのコレクションまたはサブ コレクションに送信できます。 次の図は、コレクションの構造を示しています。

Screenshot of collection structure in the Microsoft Purview interface containing four data sources.

ヒント

詳細については、「Microsoft Purview コレクションのアーキテクチャとベスト プラクティス」を参照してください。

データ ソースの登録とスキャン

データ ガバナンスの使用は収集レベルで開始され、Microsoft Purview ガバナンス ポータルでデータ ソースを登録します。 Microsoft Purview では、データ ソースの配列がサポートされています。 データ チーム (アナリスト、エンジニア、サイエンティスト) では、Microsoft Purview でデータを積極的に登録およびスキャンしていない可能性がありますが、データ コンシューマーがガバナンスの取り組みについて理解することが重要です。 資産の登録とスキャンには、データ キュレーターのアクセス許可が必要です。

重要

Microsoft Purview で登録およびスキャンされるデータでは、メタデータ情報のみが収集されます。 データは元の場所に維持され、他のプラットフォームに移行されることはありません。

データ ソースの登録

データ ソースの登録は、Azure portal 内から行います。 Azure で Microsoft Purview サービスを構成した後、Microsoft Purview ガバナンス ポータルを使ってデータ ソースを登録します。

Screenshot of the Microsoft Purview Governance Portal, where data sources are scanned and registered.

データ ソースを登録するには、次の図に示すように、データ ソースを登録するアイコンを選択します。 このアイコンを選択すると、すべてのデータ ソース コネクタにアクセスできるようになります。

Screenshot of the data map at collection level with a red arrow pointing to the waffle-shaped register icon.

Microsoft Purview Data Catalog で使用できるコネクタの小規模なサンプルを次に示します。 サポートされているデータ ソースとコネクタの最新の一覧については、「サポートされているデータ ソースとファイルの種類」を参照してください。

Screenshot of a small sample of available connectors in Microsoft Purview, including Azure, AWS, and Azure Synapse Analytics.

データ ソースの登録は簡単です。必須フィールドを入力する必要があります。 認証はスキャン フェーズ中に行われます。

データ ソースの登録を完了するには、選択するデータ ソースの種類ごとに、特定の情報を指定する必要があります。 たとえば、データ ソースが Azure サブスクリプションに存在する場合は、必要なサブスクリプションとストレージ アカウント名を選択することになります。

データ ソースをスキャンする

Microsoft Purview ガバナンス ポータルでデータ ソースを登録し、それらがデータ マップに表示されたら、スキャンを設定できます。 スキャン プロセスをトリガーしてすぐに実行したり、定期的にスケジュール実行したりして、Microsoft Purview アカウントを最新の状態に保つことができます。

資産をスキャンするには、データ マップに表示されるリソースから [新しいスキャン] を選択するだけで済みます。

Screenshot of new scan icon on Azure Data Lake Storage Gen 2 data source in Purview Data Map.

次に、スキャンを構成し、次の詳細を割り当てる必要があります。

  • フレンドリ名を割り当てます。
  • スキャンの実行に使用する統合ランタイムを定義します。
  • 登録したデータ ソースに対して認証を行うための資格情報を作成します。
  • スキャン結果を送信するコレクションを選択します。

基本的な構成の後、スキャンの "スコープ" を設定します。これにより、データ ソースの特定のゾーンのみを選択できます。 たとえば、データ マップに "Raw" というコレクションがある場合は、データ レイクの raw コンテナーのみをスキャンするようにスコープを定義できます。

スキャンを構成してスコープを設定したら、"スキャン ルール セット" を定義します。 スキャン ルール セットとは、一連のスキャン ルールをスキャンと簡単に関連付けられるようにグループ化するためのコンテナーです。 たとえば、データ ソースの種類ごとに既定のスキャン ルール セットを作成した後、社内のすべてのスキャンに対して既定でこれらのスキャン ルール セットを使用する場合があります。 また、適切なアクセス許可を持つユーザーが、ビジネス ニーズに基づいてさまざまな構成で他のスキャン ルール セットを作成できるようにしたい場合もあります。

スキャンが完了したら、スキャンの詳細を参照して、完了したスキャンの数、検出された資産、分類された資産、スキャン情報に関する情報を確認できます。 ここは、スキャンの進行状況 (成功や失敗など) を監視するのに適した場所です。

Screenshot of Azure Data Lake Storage Gen 2 data source scan details in Purview Data Map.

ヒント

資産のスキャンについて詳しくは、スキャンのベスト プラクティスに関する記事を参照してください。

ロールとアクセス許可

Microsoft Purview のアクセス許可はコレクション レベルで割り当てられます。 コレクションは、資産とソースを整理するために使用され、データ資産の論理的なグループと考えることができます。

データの検出と使用を行いたいデータ チームには、Microsoft Purview でコレクションのデータ閲覧者ロールを割り当てる必要があります。 データ閲覧者ロールを使用すると、ユーザーは資産を検索できますが、何も編集できません。 資産に関する情報を編集したり、分類を割り当てたり、資産を用語集のエントリに関連付けたりするには、データ キュレーター ロールが必要です。 Microsoft Purview ガバナンス ポータルを使用してスキャンを設定するには、個人がコレクションのデータ キュレーターである、"または" ソースが登録されている場所でデータ キュレーターおよびデータ ソース管理者である必要があります。

Microsoft Purview アカウントが作成されると、Microsoft Purview アカウント自体と同じ名前のルート コレクションで始まります。 Microsoft Purview アカウントの作成者はコレクション管理者として自動的に追加されます。コレクション管理者は、このルート コレクションでデータ ソース管理者、データ キュレーター、データ閲覧者を割り当てたり、このコレクションを編集したり、管理したりできます。

ヒント

詳細については、Microsoft Purview のアクセス許可とアクセスに関する記事を参照してください。