Microsoft Purview ガバナンス ポータルでの分類のベスト プラクティス

Microsoft Purview ガバナンス ポータルでのデータ分類とは、データ資産に一意の論理ラベルやクラスを割り当てることでデータ資産を分類する手段のことです。 分類はデータのビジネス コンテキストによって決まります。 たとえば、"パスポート番号"、"運転免許証番号"、"クレジット カード番号"、"SWIFT コード"、"人物名" などで資産を分類することが考えられます。 分類自体の詳細については、分類に関する記事を参照してください。

この記事では、データ資産を分類する際に導入するべきベスト プラクティスについて説明します。これを実施することで、データをより効果的にスキャンし、データ資産全体についての最も包括的な情報を取得することができます。

スキャン ルール セット

データ ソースの特定のスキャンに適用すべき適切な分類は "スキャン ルール セット" を使用して構成できます。 スキャンしようとするデータに合った適切なシステム分類を選択するか、またはカスタム分類を作成済みであれば、それを選択してください。

たとえば、次の画像では、個別に選択したシステム分類およびカスタム分類だけがスキャン対象のデータ ソースに適用されます (財務データなど)。

選択された分類ルールを示すスクリーンショット。

注釈の管理

適用する分類を決定する際には、次のことをお勧めします。

  • [Data Map]>[注釈の管理]>[分類] ペインに移動します。

  • スキャンするデータ資産に適用される使用可能なシステム分類を確認します。 システム分類の正式な名前には、MICROSOFT というプレフィックスが付きます。

    [分類] ペインのシステム分類の一覧を示すスクリーンショット。

  • カスタム分類の名前を必要に応じて作成します。 このペインから [Data Map]>[注釈の管理]>[Classification rules](分類ルール) に移動します。 前の手順で作成したカスタム分類名に使用する分類ルールをここで作成できます。

    [分類ルール] ペインを示すスクリーンショット。

カスタム分類

カスタム分類を作成するのは、提供されているシステム分類ではニーズを満たせない場合だけです。

カスタム分類の "名前" には、名前空間の規則 (<会社名>.<部署>.<カスタム分類名>) を使用することをお勧めします。

たとえば、架空の企業 Contoso のカスタム分類 EMPLOYEE_ID の場合、カスタム分類の名前は CONTOSO.HR.EMPLOYEE_ID となり、そのフレンドリ名は HR.EMPLOYEE ID としてシステムに格納されます。

EMPLOYEE_ID カスタム分類を示すスクリーンショット。

カスタム分類に使用する分類ルールは、次のようにして作成、構成します。

  • 分類ルールの作成対象となる適切な分類名を選択します。

  • Microsoft Purview ガバナンス ポータルでは、カスタム分類ルールの作成に関して次の 2 つの方法がサポートされます。

    • 正規表現パターンを使用してデータ要素を一様に表現できる場合や、データ ファイルを使用してパターンを生成できる場合は、正規表現 (RegEx) 方式を使用します。 サンプル データに母集団が反映されていることを確認してください。

    • 辞書ファイル内の値の一覧 (将来の値も含む) が、分類対象として想定されるデータの値をすべて網羅していて、なおかつ特定のデータ群に準拠する場合のみ、辞書方式を使用します。

      カスタム分類ルールを作成するための '正規表現' と '辞書' オプションを示すスクリーンショット。

  • 正規表現方式を使用する場合:

    • 分類するデータの正規表現パターンを構成します。 正規表現パターンには、分類対象データを網羅できるだけの汎用性を確保してください。

    • 推奨される正規表現パターンを生成する機能は Microsoft Purview にも備わっています。 推奨されるデータと列のパターンを使用するには、サンプル データ ファイルのアップロード後、推奨されるいずれかのパターンを選択し、[Add to patterns](パターンに追加) を選択します。 推奨されたパターンを修正したり、ファイルをアップロードすることなく独自のパターンを入力したりすることもできます。

    • 誤検知を最小化するために、分類対象となる列の列名パターンを自分で構成することもできます。

    • データ パターンに一致するデータに対して、分類を適用するうえで許容できる "最小一致のしきい値" パラメーターを構成します。 しきい値は 1% から 100% の範囲で指定できます。 誤検知を防ぐために、しきい値は 60% 以上にすることをお勧めします。 ただしこの構成は、個別の分類シナリオに合わせて適宜行ってかまいません。 たとえば、データ中のどのような値でもパターンに一致すれば検出し、分類を適用したければ、しきい値を 1% にまで下げることも考えられます。

      カスタム分類ルールを作成するための RegEx メソッドを示すスクリーンショット。

    • 分類ルールに複数のデータ パターンを追加した場合、最小一致規則を設定するオプションは自動的に無効になります。

    • 意図したとおりに分類ルールが機能することを確認するには、[Test classification rule](分類ルールのテスト) で、サンプル データを使ってテストします。 サンプル データ (.csv ファイルなど) には、分類の適用対象となる列も含め、少なくとも 3 つの列が存在することを確認してください。 テストに成功した場合、次の画像のように列の分類ラベルが表示されます。

      テスト分類が成功したときの分類を示すスクリーンショット。

  • 辞書方式を使用する場合:

    • 辞書方式は、列挙データを当てはめる場合や、想定される値の辞書リストが入手できる場合に使用できます。

    • この方式では、ファイル サイズ 30 メガバイト (MB) を上限に、.csv ファイルと .tsv ファイルがサポートされます。

カスタム分類のアーキタイプ

正規表現における "しきい値" パラメーターのしくみ

  • 次の画像にあるサンプル ソース データを考えてみましょう。 列は 5 つあり、Sample_col1Sample_col2Sample_col3 の各列にデータ パターン N{Digit}{Digit}{Digit}AN のカスタム分類ルールを適用する必要があります。

    ソース データの例を示すスクリーンショット。

  • カスタム分類の名前は NDDDAN です。

  • 分類ルール (データ パターンの正規表現) は ^N[0-9]{3}AN$ です。

    カスタム分類ルールを示すスクリーンショット。

  • "^N[0-9]{3}AN$" パターンのしきい値は、次の画像に示したように計算されます。

    カスタム分類ルールのしきい値を示すスクリーンショット。

    しきい値を 55% に設定した場合、分類されるのは、Sample_col1 列と Sample_col2 列だけです。 Sample_col3 は、55% というしきい値の基準を満たしていないので分類されません。

    高いしきい値の条件の結果を示すスクリーンショット。

データ パターンと列パターンの両方を使用する方法

  • ここに示したサンプル データでは、列 Bと列 C はどちらもデータ パターンが似ています。列 B は、"^P[0-9]{3}[A-Z]{2}$" というデータ パターンで分類できます。

    サンプル データを示すスクリーンショット。

  • 確実に Product ID 列だけを分類対象にするには、データ パターンに加えて列パターンも使用します。

    分類ルールを示すスクリーンショット。

    Note

    列パターンは、データ パターンとの AND 条件として検証されます。

  • 意図したとおりに分類ルールが機能することを確認するには、[Test classification rule](分類ルールのテスト) で、サンプル データを使ってテストします。

    列パターンを示すスクリーンショット。

複数の列パターンを使用する方法

同じ分類ルールについて、分類対象の列パターンが複数存在する場合は、それらの列名をパイプ (|) 文字で区切って指定します。 たとえば、Product IDProduct_IDProductID などの列がある場合、次の画像のように列パターンを記述します。

複数の列パターンを示すスクリーンショット。

詳細については、正規表現の代替構成体を参照してください。

分類に関する考慮事項

以下に、分類を定義する際に留意すべきいくつかの考慮事項を示します。

  • スキャンの実行前に資産に適用すべき分類を決定するには、その分類をどう使用するつもりかを考えます。 不要な分類ラベルは邪魔になるばかりか、データ コンシューマーの誤解を招くおそれがあります。 分類は、次のような用途に使用できます。

    • スキャンの対象となるデータ資産またはスキーマに存在するデータの性質を説明する。 つまり、カタログを検索する顧客が、データ資産またはスキーマの内容を分類ラベルから識別できるようになります。
    • 組織のセキュリティ ニーズとコンプライアンス ニーズを達成するための優先順位を設定し、計画を策定する。
    • データの準備プロセスにおけるフェーズ (生ゾーン、ランディング ゾーンなど) を説明し、そのプロセスにおけるフェーズを示す分類を特定の資産に割り当てる。
  • 適切な分類をスキャン ルールに含めることで、資産レベルまたは列レベルで自動的に分類を割り当てることができるほか、Microsoft Purview Data Map にメタデータを取り込んだ後に分類を手動で割り当てることもできます。

  • 自動割り当てについては、Microsoft Purview ガバナンス ポータルでサポートされるデータ ストアに関するページを参照してください。

  • Microsoft Purview Data Map でデータ ソースをスキャンする際は、事前に対象データを理解し、そのための適切なスキャン ルール セットを (適切なシステム分類、カスタム分類、またはその両者の組み合わせを選択するなどして) 構成することが大切です。この点がスキャン パフォーマンスに影響を及ぼす可能性があるためです。 詳細については、「Microsoft Purview ガバナンス ポータルでサポートされている分類」を参照してください。

  • Microsoft Purview スキャナーは、システム分類とカスタム分類の両方について、詳細スキャン (分類対象) のデータ サンプリング ルールを適用します。 サンプリング ルールは、データ ソースの種類に基づきます。 詳細については、「Microsoft Purview でサポートされているデータ ソースとファイルの種類」の「ファイル内のサンプリング」セクションを参照してください。

    Note

    [Distinct data threshold](個別の一致のしきい値): スキャナーがデータ パターンを実行する前に、列に含まれている必要がある個別のデータ値の合計数です。 個別のデータのしきい値は、パターン マッチングとは関係ありませんが、パターン マッチングの前提条件です。 システム分類ルールでは、分類の対象とする各列に、少なくとも 8 つの個別の値が必要です。 システムでは、この値を使用して、スキャナーが正確に分類するのに十分なデータが列に含まれていることを確認する必要があります。 たとえば、すべて値 1 が含まれている複数の行を含む列は分類されません。 1 つの行に値が含まれ、残りの行に null 値が含まれている列の場合も分類されません。 複数のパターンを指定すると、この値がそれぞれに適用されます。

  • サンプリング ルールはリソース セットにも適用されます。 詳細については、「Microsoft Purview ガバナンス ポータルでサポートされているデータ ソースとファイルの種類」の「リソース セット ファイルのサンプリング」セクションを参照してください。

  • カスタム分類ルールを使用して、ドキュメント タイプの資産にカスタム分類を適用することはできません。 このタイプについては、手動でのみ分類を適用することができます。

  • 既定のスキャン ルールにカスタム分類は含まれません。 そのため、カスタム分類の自動割り当てが期待される場面では、カスタム分類を含んだカスタム スキャン ルールを自分でデプロイ、使用して、スキャンを実行する必要があります。

  • Microsoft Purview ガバナンス ポータルから手動で適用した分類は、後続のスキャンで維持されます。

  • 以前検出された分類が、後続のスキャンによって資産から削除されることはありません。分類ルールが当てはまらなかったとしても同様です。

  • データ資産の ソースが暗号化されている場合、Microsoft Purview によって抽出されるのは、ファイル名、完全修飾名、スキーマ情報 (構造化されたファイルの種類の場合)、データベース テーブルのみです。 正しく分類を機能させるためには、データの暗号化を解除してからスキャンを実行してください。

次のステップ