データの分類とラベル付け

完了

用語集の用語、分類、ラベルは、すべてデータ資産に対する注釈です。 データ カタログのコンテキストでは、それぞれの意味が異なります。

データ分類とは

分類は、エンティティに割り当てることができる注釈です。 分類には柔軟性があるため、次のような複数のシナリオで使用できます。

  • データ資産に格納されているデータの性質を理解する
  • アクセス制御ポリシーを定義する

分類はデータのビジネス コンテキストによって決まります。 たとえば、"パスポート番号"、"運転免許証番号"、"クレジット カード番号"、"SWIFT コード"、"人物名" などで資産を分類することが考えられます。 現在、Microsoft Purview には、200 個を超える分類器があります。 ユーザーは、データ カタログで独自の分類器を定義することもできます。 スキャン プロセスの一環として、分類は自動的に検出され、Purview Data Catalog 内でメタデータとして適用されます。

分類ルール

Microsoft Azure Purview では、ファイル、テーブル、または列の資産にシステム分類またはカスタム分類を適用できます。 Microsoft Purview では、正規表現パターンとブルーム フィルターを使用してデータを分類します。 これらの分類は、Azure Purview Data Catalog で検出されたメタデータに関連付けられます。

メタデータは、スキャンされるデータの説明を記述して、カタログで利用できるようにするために使用されます。 スキャン セットの構成時には、スキャン時に適用される分類規則を指定できますが、これはメタデータの役割も果たすことになります。 既存の分類ルールは、5 つの主要なカテゴリに分類されます。

  • 政府機関 - 政府機関発行の ID カード、運転免許証番号、パスポート番号などの属性がカバーされます。
  • 金融機関 - 銀行口座番号やクレジット カード番号などの属性がカバーされます。
  • 個人 - 個人の年齢、生年月日、メール アドレス、電話番号などの個人情報です。
  • セキュリティ - 格納される可能性がある、パスワードなどの属性です。
  • その他 - 他のカテゴリでカバーされない属性です。

データを分類する理由

優れたデータ ガバナンス戦略には、データを分類してその機密性のレベルを把握し、データ ソースがさまざまな規制に準拠しているかどうか、またはその保持期間を決定するプロセスが含まれます。 Microsoft Purview での分類により、データ資産の理解、検索、管理が容易になります。 分類は、機密データを保護するための手法を実装するのにも役立ちます。

スキャン後にデータ ソースに分類がタグ付けされたら、レポートと分析情報を生成して、データ資産をより深く理解できます。 分類はデータのビジネス コンテキストに基づいているため、ビジネスとデータ チームの間のギャップを埋めるのに役立ちます。

データ分類: システム分類とカスタム分類

Microsoft Purview では、システムとカスタムの両方の分類がサポートされています。 現在、Microsoft Purview では 200 個以上のシステム分類を利用できます。 データ チームは、必要な分類をすぐに使用できない場合、データ スチュワードと協力してカスタム分類を作成し、自分の組織のデータ ガバナンス要件を満たすことができることを知る必要があります。

重要

使用可能なシステム分類の完全な一覧については、「Microsoft Purview でサポートされている分類」を参照してください。

だれがカスタム分類を作成するか

Purview データ キュレーターは、カスタムの分類器と分類ルールを作成、更新、削除できます。 Purview データ閲覧者は、分類器と分類ルールの表示だけを行えます。

実際には、データ キュレーターはデータ チームのメンバーではない場合があります。 ただし、データ チームのメンバーが分類を理解し、組織全体で正常に連携してデータを管理できるようにすることが重要です。

データ ラベルとは

Microsoft Purview Data Map では、さまざまなデータ ソースに格納されている構造化および非構造化データのラベル付けがサポートされています。 これは秘密度ラベルと呼ばれる場合もあり、他の Microsoft テクノロジを使用しているユーザーには馴染みがあるかもしれません。 データ マップにより、Microsoft Purview Information Protection の秘密度ラベルの使用が、インフラストラクチャ クラウドの場所や構造化データ ソースに格納されている資産に拡張されます。

ラベルは Microsoft Purview Information Protection で定義され、アプリケーションを Microsoft Purview Data Catalog に拡張できます。

次のスクリーンショットは、Microsoft Purview Data Catalog のデータ分類とラベルの両方を示しています。 この Azure SQL テーブルには、"CreditCard" という列があることがわかります。

  • スキャンでクレジット カードのパターン規則に対応する番号が検出されたため、"クレジット カード番号" として分類されます。
  • 組織内でクレジット カード番号が機密情報として定義されているため、"Confidential – Finance" というラベルが付けられます (このラベルは暗号化を適用します)。

Screenshot of ReportTable asset in Purview showing both data classification and label in the Microsoft Purview Data Catalog.