機密情報の種類に関する詳細情報

organizationの管理下にある機密性の高い項目を特定して分類することは、Information Protection規範の最初の手順です。 Microsoft Purview では、項目を分類できるように、次の 3 つの方法で項目を識別できます。

  • ユーザーが手動で
  • 機密情報の種類など、自動化されたパターン認識
  • 機械学習

機密情報の種類 (SIT) は、パターンベースの分類子です。 社会保障、信用カード、銀行口座番号などの機密情報を検出して機密アイテムを識別します。すべての SID の完全な一覧については、「機密情報の種類のエンティティ定義」を参照してください。

Microsoft では、多数の事前構成済み SID を提供しています。独自の SID を作成することもできます。

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、追加の Purview 機能がデータのセキュリティとコンプライアンスのニーズを管理organizationにどのように役立つかを調べます。 Microsoft Purview コンプライアンス ポータル試用版ハブから今すぐ開始します。 サインアップと試用版の条件の詳細について説明します。

機密情報の種類は、

機密情報の種類のカテゴリ

組み込みの機密情報の種類

これらの SID は Microsoft によって作成され、既定でコンプライアンス コンソールに表示されます。 これらの SID は編集できませんが、テンプレートとして使用するには、それをコピーしてカスタムの機密情報の種類を作成します。 すべての SID の完全な一覧については、「 機密情報の種類のエンティティ定義 」を参照してください。

名前付きエンティティの機密情報の種類

既定では、名前付きエンティティの SID もコンプライアンス コンソールに表示されます。 ユーザー名、物理的な住所、および医療契約条件を検出します。 編集またはコピーすることはできません。 詳細 については、「名前付きエンティティについて」 を参照してください。 名前付きエンティティの SID には、次の 2 種類があります。

バンドル解除

これらの名前付きエンティティの SID は、1 つの国や 1 つの用語クラスなど、より狭い焦点を持っています。 検出範囲が狭い DLP ポリシーが必要な場合は、それらを使用します。 「名前付きエンティティ SID の例」を参照してください。

バンドル

バンドルされた名前付きエンティティの SID は、すべての 物理アドレスなど、クラス内で考えられるすべての一致を検出します。 機密性の高い項目を検出するために、DLP ポリシーで広範な基準として使用します。 「名前付きエンティティ SID の例」を参照してください。

カスタムの機密情報の種類

事前に構成された機密情報の種類がニーズを満たしていない場合は、完全に定義した独自のカスタム機密情報の種類を作成するか、組み込みの機密情報の 1 つをコピーして変更できます。 詳細については、「 コンプライアンス センターでカスタム機密情報の種類を作成 する」を参照してください。

正確なデータ一致の機密情報の種類

すべての完全なデータ一致 (EDM) ベースの SID は、ゼロから作成されます。 機密情報のデータベースで定義した正確な値を持つ項目を検出するために使用します。 詳細 については、「正確なデータ一致ベースの機密情報の種類について」 を参照してください。

機密情報の種類の基本的な部分

すべての機密情報の種類エンティティは、次のフィールドによって定義されます。

  • 名前: 機密情報の種類の参照方法を示します
  • 説明: 機密情報の種類が探しているものについて説明します
  • パターン: パターンは、機密情報の種類が検出する内容を定義します。 これは、次のコンポーネントで構成されます。
    • プライマリ要素 – 機密情報の種類が探しているメイン要素。 チェックサム検証、キーワード (keyword)リスト、キーワード (keyword)ディクショナリまたは関数の有無にかかわらず正規表現を指定できます。
    • サポート要素 – 一致の信頼度を高めるのに役立つ証拠として機能する要素。 たとえば、社会保障番号 (SSN) に近接して "SSN" をキーワード (keyword)します。 チェックサム検証、キーワード (keyword)リスト、ディクショナリの有無にかかわらず正規表現キーワード (keyword)できます。
    • 信頼レベル - 信頼レベル (高、中、低) は、主要要素と共に検出されたサポート証拠の量を反映します。 アイテムに含まれる証拠が多いほど、一致するアイテムに探している機密情報が含まれているという信頼度が高くなります。
    • 近接性 – プライマリ要素とサポート要素の間の文字数。

実証証拠と近接ウィンドウの図。

この短いビデオで信頼度レベルの詳細を確認します。

機密情報の種類の例

アルゼンチンの国民識別 (DNI) 番号

フォーマット

ピリオドで区切られた 8 桁の数字

パターン

8 桁の数字:

  • 2 桁の数字
  • 期間
  • 3 桁の数字
  • 期間
  • 3 桁の数字

チェックサム

不要

定義

DLP ポリシーは、抽出した約 300 文字が次の条件に該当することを検出した場合に中程度の確証を持ってそれがこの種類の機密情報であると特定します。

  • 正規表現Regex_argentina_national_idは、パターンに一致するコンテンツを検索します。
  • Keyword_argentina_national_idからのキーワード (keyword)が見つかりました。
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

キーワード

Keyword_argentina_national_id

  • Argentina National Identity number
  • ID
  • 識別国民 ID カード
  • Dni
  • NIC ナショナル レジストリ
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

信頼度レベルの詳細

機密情報の種類のエンティティ定義では、 信頼度レベル は、プライマリ要素に加えて検出されたサポート証拠の量を反映します。 アイテムに含まれる証拠が多いほど、一致するアイテムに探している機密情報が含まれているという信頼度が高くなります。 たとえば、信頼度が高い一致には、主要要素に近接してより多くの支持証拠が含まれますが、信頼度の低い一致では、近接性のサポート証拠がほとんどからまったく含まれるのに対し、一方で、より多くの支持証拠が含まれます。

信頼度が高いレベルでは、最も少ない誤検知が返されますが、偽陰性が多くなる可能性があります。 低または中程度の信頼度レベルは、より多くの誤検知を返しますが、偽陰性は少ないからゼロに戻ります。

  • 低信頼度: 一致した項目には、最も少ない偽陰性が含まれますが、最も誤検知が含まれます。 低信頼度は、すべての低、中、高の信頼度の一致を返します。 低信頼度の値は 65 です。
  • 中程度の信頼度: 一致した項目には、誤検知と偽陰性の平均数が含まれます。 中程度の信頼度は、すべての中程度の一致と高い信頼度の一致を返します。 中程度の信頼度レベルの値は 75 です。
  • 高信頼度: 一致した項目には、最も少ない誤検知が含まれますが、最も偽陰性が含まれます。 高信頼度は高い信頼度の一致のみを返し、値は 85 です。

高信頼度のパターンは、カウント数が 5 から 10、信頼度が低いパターンが 20 以上など、高い信頼度レベルのパターンを使用する必要があります。

注:

数値ベースの信頼レベル (精度とも言います) を使用して定義された既存のポリシーまたはカスタム機密情報の種類 (SID) がある場合、それらは自動的に 3 つの個別の信頼レベルにマップされます。セキュリティ @ コンプライアンス センター UI 全体の低信頼度、中程度の信頼度、高い信頼度。

  • 信頼レベルが 76 ~ 100 の最小精度またはカスタム SIT パターンを持つすべてのポリシーは、高信頼度にマップされます。
  • 信頼レベルが 66 ~ 75 の最小精度またはカスタム SIT パターンを持つすべてのポリシーは、中程度の信頼度にマップされます。
  • 信頼レベルが 65 以下の最小精度またはカスタム SIT パターンを持つすべてのポリシーは、低信頼度にマップされます。

カスタムの機密情報の種類を作成する

コンプライアンス センターでカスタム機密情報の種類を作成するには、いくつかのオプションから選択できます。

注:

Microsoft Purview データ損失防止サービス、情報保護、コミュニケーション コンプライアンス、データ ライフサイクル管理、レコード管理内ですぐに使用できるように、信頼度レベルを向上できます。 Information Protectionでは、次の 2 バイト文字セット言語がサポートされるようになりました。

  • 中国語 (簡体字)
  • 中国語 (繁体字)
  • 韓国語
  • 日本語

このサポートは、機密情報の種類で使用できます。 詳細については、「 2 バイト文字セットの情報保護のサポート」のリリース ノート を参照してください。

ヒント

中国語/日本語の文字と 1 バイト文字を含むパターンを検出する、または中国語/日本語と英語を含むパターンを検出するには、キーワードまたは正規表現の 2 つのバリエーションを定義します。

  • たとえば、「机密的ドキュメント」のようなキーワードを検出するには、キーワードの 2 つのバリエーションを使用します。 1 つは日本語と英語のテキストの間にスペースがあり、もう 1 つは日本語と英語のテキストの間にスペースがありません。 したがって、SITに追加するキーワードは、"机密的 document" と "机密的document" である必要があります。 同様に、"東京オリンピック2020" というフレーズを検出するには、"東京オリンピック 2020" と "東京オリンピック2020" の 2 つのバリエーションを使用する必要があります。

中国語/日本語/2 バイト文字と共に、キーワード/フレーズのリストに中国語/日本語以外の単語も含まれている場合 (たとえば、英語のみ)、2 つの辞書/キーワード (keyword)リストを作成する必要があります。 1 つは中国語/日本語/2 バイト文字を含むキーワード、もう 1 つは英語のみのキーワード用です。

  • たとえば、"機密性の高い"、"機密性の高い" と "机密的文書" の 3 つの語句を含むキーワード (keyword)辞書/リストを作成する場合は、2 つのキーワード (keyword)リストを作成する必要があります。
    1. Highly confidential
    2. 機密性が高い、机密的document、机密的 document

2 バイト ハイフンまたは 2 バイトピリオドを使用して正規表現を作成するときは、正規表現でハイフンやピリオドをエスケープする場合と同様に、両方の文字をエスケープしてください。 参考までに、サンプルの正規表現を次に示します。

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

キーワード (keyword) リストでは、単語の一致の代わりに文字列一致を使用することをお勧めします。

機密情報の種類で一致精度フィードバックを提供する/一致しない

SIT に含まれる一致の数は 、機密情報の種類コンテンツ エクスプローラーで確認できます。 また、項目が実際に一致しているかどうか、または一致しないフィードバック メカニズムを使用してフィードバックを提供 し、その フィードバックを使用して SID を調整することもできます。 詳細については、「 分類子の精度を上げる 」を参照してください。

詳細については、次の情報を参照してください。

機密情報の種類を使用してデータプライバシー規制に準拠する方法については、「Microsoft 365 (aka.ms/m365dataprivacy) を使用 してデータプライバシー規制の情報保護を展開 する」を参照してください。