Microsoft Purview のしくみ

完了

ここでは、Microsoft Purview のしくみを確認します。 このユニットでは、データ ソースのマッピングとスキャンに関連する Microsoft Purview の機能の基になっている中心的な動作のしくみについて学習します。 主に、次の方法について重点的に説明します。

  • データ マップでデータを読み込む。
  • データ カタログ内の情報を参照および検索する。

データ マップでデータを読み込む

Microsoft Purview データ マップは、データ資産とそのリレーションシップを統合したマップです。 1 つのまとまったマップになったことで、ユーザーは視覚化と管理を容易に行えるようになりました。 また、Microsoft Purview データ カタログとデータ エステート分析情報を支えるメタデータも格納されています。 データ マップは、企業のコンプライアンス要件に合わせてスケールアップおよびスケールダウンします。 これを使用することで、ビジネスにとって最も合理的な方法でデータ資産を管理できます。

ソース データ

データのソーシングは、データ ソースを登録するプロセスから始まります。 Microsoft Purview では、オンプレミス、マルチクラウド、SaaS (サービスとしてのソフトウェア) の各オプションをカバーした、一連のデータ ソースがサポートされています。 さまざまなデータ ソースを登録することで、それらを Microsoft Purview で認識できるようになります。 データは元の場所に維持され、他のプラットフォームには移行されません。

Azure で Microsoft Purview サービスを構成した後、Microsoft Purview ガバナンス ポータルを使ってデータ ソースを登録します。

Screenshot that shows the Microsoft Purview governance portal. The portal includes the name of the Microsoft Purview account along with options to select, including Knowledge center, Register sources, Browse assets, and Manage glossary.

データ ソースの登録を完了するには、選択するデータ ソースの種類ごとに、特定の情報を指定する必要があります。 たとえば、データ ソースが Azure サブスクリプションに存在する場合は、必要なサブスクリプションとストレージ アカウント名を選択します。 次の図は、Azure Blob Storage ソースを選択する場合の例を示したものです。

Screenshot that shows the dialog to register an Azure Blob Storage source for Microsoft Purview. The dialog has entries for a name, Azure subscription name and storage account name, an endpoint, and a collection to which to add the source.

登録後、データ ソースをスキャンします。 スキャンすると、データ ソースに関するメタデータが Microsoft Purview データ マップに取り込まれます。 各データ ソースには、そのデータ ソース内の資産のスキャンを許可するために必要な、認証と構成に関する特定の要件があります。

たとえば、Amazon S3 の標準バケットにデータが保存されている場合は、接続の構成を指定する必要があります。 このサービスでは、Microsoft Purview を使って AWS に安全にアクセスできる Microsoft アカウントを提供し、そこで Microsoft Purview スキャナーが実行されるようにします。 Microsoft Purview スキャナーでは、Amazon S3 のバケットへのこのアクセスを使用してデータを読み取ります。 その後、スキャナーによって、スキャン結果 (メタデータと分類のみを含む) が Azure に報告されます。 Microsoft Purview の分類およびラベル付けレポートを使用して、データ スキャンの結果を分析および確認することができます。

Note

AWS S3 ソースに関連するリージョン サポートについては、Amazon S3 用の Microsoft Purview コネクタに関するドキュメントを確認してください。

Microsoft Purview には、サービスでデータ ソースをスキャンする必要がある場合に認証に使用される、いくつかのオプションがあります。 次に示すのは、これらのオプションの一部です。

  • Microsoft Purview マネージド ID
  • アカウント キー (Azure Key Vault を使用)
  • SQL 認証 (Key Vault を使用)
  • サービス プリンシパル (Key Vault を使用)

マップ データ

データ マップは、Microsoft Purview の基盤となるプラットフォームです。 データ マップは次のもので構成されます。

  • データ資産。
  • データ系列。
  • データ分類。
  • ビジネス コンテキスト。

利用者は、さまざまなソースから取得されるデータのナレッジ グラフを作成します。 Microsoft Purview を使用することで、大規模なデータを簡単に登録し、自動的にスキャンして分類することができます。 データ マップ内では、データ ソースの種類に加え、セキュリティおよびスキャンに関するその他の詳細を確認できます。

データ マップでは、これらの詳細を整理するためにコレクションを使います。 コレクションは、データ資産を論理カテゴリにグループ化して、カタログ内にある資産の管理と検出を簡略化するための手段です。 また、データ マップで使用できるメタデータへのアクセスを管理するためにも使用されます。

Microsoft Purview ガバナンス ポータルで [マップ ビュー] を選ぶと、データ ソースがグラフィカルなビューに表示され、そのデータ ソース用に作成したコレクションも表示されます。

Screenshot that shows the Map view of the sources window in the Microsoft Purview governance portal. Three collections are listed, each with a single data source, and two other data sources that aren't assigned to a collection.

データのスキャン

データ ソースを登録したら、スキャンを実行してメタデータにアクセスし、資産情報を参照する必要があります。 データ ソースをスキャンする前に、そのソースの資格情報を入力する必要があります。 Azure Key Vault を使用して資格情報を格納すると、セキュリティを強化すると共に、スキャン ルールによるアクセスが容易になります。 Microsoft Purview ガバナンス ポータルには既存のシステム スキャン ルール セットが用意されており、新しいスキャン ルールを作成する際に選択することができます。 また、カスタムのスキャン ルール セットを指定することもできます。

"スキャン ルール セット" は、スキャン ルールをグループ化し、同じ規則を繰り返し使うためのコンテナーです。 スキャン ルール セットを使用することで、スキーマの抽出と分類に使用されるファイルの種類を選択できます。 また、新たにカスタムのファイルの種類を定義することもできます。 データ ソースの種類ごとに既定のスキャン ルール セットを作成することもできます。 その場合、社内のすべてのスキャンに対してこれらのスキャン ルール セットを既定で使用できます。

たとえば、Azure Data Lake Storage アカウント内の .csv ファイルのみをスキャンできます。 実行できるすべての分類ではなく、クレジット カード番号のデータのみを確認する場合などがあります。 また、適切なアクセス許可を持つユーザーが、ビジネス ニーズに基づいて構成が異なる他のスキャン ルール セットを作成することもできます。

Screenshot that shows the Management panel selected in the Microsoft Purview governance portal. The Scan rule sets option is also selected. A list of System-provided scan rule sets are preconfigured for data sources such as Azure File Service and SQL Server.

分類

メタデータは、スキャンしてカタログで利用できるようにするデータの説明に使用されます。 スキャン セットの構成時には、スキャン時に適用される分類規則を指定できますが、これはメタデータの役割も果たします。 分類規則は、主に次の 5 つのカテゴリに分類されます。

  • 政府機関: 政府機関発行の ID カード、運転免許証番号、パスポート番号などの属性。
  • 金融機関: 銀行口座番号やクレジット カード番号などの属性。
  • 個人: 個人の年齢、生年月日、メール アドレス、電話番号などの個人情報。
  • セキュリティ: 格納される可能性があるパスワードなどの属性。
  • その他: 他のカテゴリでカバーされない属性。

データの分類に使用できるシステム分類がいくつかあります。 これらの分類は、Microsoft Purview コンプライアンス ポータルの機密情報の種類と一致します。 また、カスタム分類を作成して、データ資産に含まれるその他の重要な情報や機密情報を特定することもできます。

Screenshot that shows a small snippet of the system-provided classifications for metadata. You can find this list in the Management pane of the Microsoft Purview governance portal. Some items displayed are the ABA Routing Number, Age of individual, and Argentina National Identity (DNI) Number.

データ ソースの登録後、そのメタデータをエンリッチすることができます。 適切なアクセス権を使用して、説明、評価、タグ、用語集、専門家の特定、またはデータ ソースへのアクセスを要求するためのその他のメタデータを提供することにより、データ ソースに注釈を付けることができます。 この "説明的なメタデータ" は、データ ソースから登録される構造メタデータ (列名やデータ型など) を補完します。

データ ソースとその用途の検出することは、ソースの登録の主な目的です。 企業ユーザーの場合、ビジネス インテリジェンス、アプリケーション開発、データ サイエンス、または適切なデータが必要なその他のタスクを行うためにデータが必要になることがあります。 データ カタログの検出エクスペリエンスを使用すると、ニーズを満たすデータをすばやく検出し、 データが目的に適合するかどうかを評価し、選択したツールでデータ ソースを開くことができます。

同時に、既に登録されているデータ ソースに対してタグ付けやドキュメント作成、注釈付けを行うことで、カタログを充実させることができます。 また、新しいデータ ソースを登録することもできます。それらはカタログ ユーザーのコミュニティで検出や評価が行われ、利用されます。

Microsoft Purview では、Microsoft Purview データ カタログを使って、データ マップから情報を検索できます。 データ ソースの種類、タグ、評価、コレクションなどのフィルターを使ってテキストベースの検索を実行し、結果を参照できます。

ビジネス コンテキストを使用して Microsoft Purview カタログの情報を検索できます。 ビジネス用語集を定義でき、既存の用語集を一括インポートすることもできます。 また、データ マップ内の資産にビジネス コンテキストを適用することもできます。 メタモデルを使って、環境内のビジネス プロセスを定義し、それらのプロセスにデータ ソースを関連付けることができます。 その後ユーザーは、これらのビジネス コンテキストを適用して、データ カタログ内の情報を参照したり検索したりできます。

検出では、次の機能を使用できます。

  • セマンティックの検索と参照。
  • ビジネス用語集とワークフロー。
  • ソース、所有者、変換、ライフサイクルを使ったデータ系列。

Screenshot that shows the fictional company Adatum Corporation by using the search function of Microsoft Purview.

データ系列

データ系列は、データのライフサイクルに焦点を当てた概念です。 ライフサイクルは、データが通過するさまざまな段階に関するものです。 データは、そのライフサイクルを通じてソーシングされ、移動され、保存されます。 また、データは ELT/ETL ("抽出、読み込み、変換" /"抽出、変換、読み込み") 操作で変換される場合もあります。

データ系列を使用すると、データ パイプラインを参照して、データ ライフサイクルに関する分析情報を取得することができます。 データ系列は、データの問題の根本原因を特定したり、データ品質分析を実行したり、コンプライアンスを検証したりするために使用できます。

Microsoft Purview では、ソースから宛先までのデータ移動を示すことによって、このデータ系列を視覚的な形で表します。

Screenshot that shows a sample data lineage graph in Microsoft Purview.