了解敏感性資訊類型

識別和分類貴組織所控制的敏感性專案,是資訊保護專業領域的第一個步驟。 Microsoft Purview 提供三種識別專案的方式,以便分類:

  • 由使用者手動進行
  • 自動化模式辨識,例如敏感性資訊類型
  • 機器學習

SIT) (敏感性資訊類型是模式型分類器。 他們會偵測社會安全、信用卡或銀行帳戶號碼等敏感性資訊來識別敏感性專案,如需所有 SIT 的完整清單,請參閱 敏感性資訊類型實體定義

Microsoft 提供大量預先設定的 SIT,或者您可以自行建立。

敏感性資訊類型用於

敏感性資訊類型的類別

內建敏感性資訊類型

這些 SIT 是由 Microsoft 建立,預設會顯示在合規性主控台中。 這些 SIT 無法編輯,但可以當做範本使用並複製來建立自訂敏感性資訊類型。 如需所有 SIT 的完整清單,請參閱 敏感性資訊類型實體定義

具名實體敏感性資訊類型

具名實體 SIT 預設也會顯示在合規性主控台中。 他們會偵測人員名稱、實體位址,以及醫療條款及條件。 它們無法編輯或複製。 如需詳細資訊,請參閱 瞭解具名實體 。 具名實體 SIT 有兩種類型:

un-bundled

這些具名實體 SIT 具有較窄的焦點,例如單一國家/地區或單一類別的詞彙。 當您需要具有較窄偵測範圍的 DLP 原則時,請使用它們。 請參閱 具名實體 SIT 的範例

捆綁

配套的具名實體 SIT 會偵測類別中所有可能的相符專案,例如所有實體位址。 在您的 DLP 原則中,使用它們做為偵測敏感性專案的廣泛準則。 請參閱 具名實體 SIT 的範例

自訂敏感性資訊類型

如果預先設定的敏感性資訊類型不符合您的需求,您可以建立您自己完全定義的自訂敏感性資訊類型,也可以複製其中一個內建資訊類型並加以修改。 如需詳細資訊,請參閱 在合規性中心建立自訂敏感性資訊類型

精確資料比對敏感性資訊類型

所有 EDM 型 SIT 都是從頭開始建立。 您可以使用它們來偵測具有您在敏感性資訊資料庫中定義之確切值的專案。 如需詳細資訊,請參閱 瞭解以精確資料比對為基礎的敏感性資訊類型

敏感性資訊類型的基本部分

每個敏感性資訊類型實體都由下欄欄位定義:

  • name:敏感性資訊類型的參考方式
  • 描述:描述敏感性資訊類型所尋找的內容
  • pattern:模式會定義敏感性資訊類型所偵測到的內容。 它是由下列元件所組成。
    • 主要元素 – 敏感性資訊類型要尋找的主要元素。 它可以是具有或不含總和檢查碼驗證、關鍵字清單關鍵字字典 式的 正則表達 式。
    • 支援專案 – 可作為支援辨識項的元素,有助於提高相符專案的信賴度。 例如,接近 SSN 數位的關鍵字 「SSN」。 它可以是包含或不含總和檢查碼驗證、關鍵字清單、關鍵字字典的規則運算式。
    • 信賴等級 - 信賴等級 (高、中、低) 反映偵測到的支援辨識項以及主要元素。 項目包含的支援證據越多,相符項目包含您要尋找之敏感性資訊的信賴度就越高。
    • 鄰近性 – 主要和支援專案之間的字元數。

相互關聯辨識項和鄰近性視窗的圖表。

在此短片中深入瞭解信賴等級。

範例敏感性資訊類型

阿根廷國民身分證 (DNI) 號碼

格式

以句點分隔的八位數

模式

八位數:

  • 兩位數
  • 句號
  • 三位數
  • 句號
  • 三位數

總和檢查碼

定義

如果鄰近性是 300 個字元以內,則 DLP 原則偵測到此敏感資訊類型為中信賴度:

  • 正則運算式Regex_argentina_national_id尋找符合模式的內容。
  • 找到來自 Keyword_argentina_national_id 的關鍵字。
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

關鍵字

Keyword_argentina_national_id

  • 阿根廷國家身分識別號碼
  • 身分識別
  • 識別國家身分識別卡
  • DNI
  • NIC 國家人員登錄
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

進一步瞭解信賴等級

在敏感性資訊類型實體定義中, 信賴等級 會反映除了主要元素之外,還偵測到多少支援辨識項。 項目包含的支援證據越多,相符項目包含您要尋找之敏感性資訊的信賴度就越高。 例如,具有高信賴度層級的相符專案會在接近主要元素的位置包含更多支援辨識項,而信賴等級低的相符專案則幾乎不會在鄰近性中包含支援辨識項。

高信賴度層級會傳回最少的誤判,但可能會導致更多誤判。 低或中度信賴等級會傳回更多誤判,但誤判為零。

  • 低信賴 度:相符的專案將包含最少的誤判,但誤判為真數最高。 低信賴度會傳回所有低、中和高信賴度相符專案。 低信賴等級的值為 65。
  • 中度信賴 度:相符的專案將包含平均誤判和誤判。 中度信賴會傳回所有中度和高信賴度相符專案。 中度信賴等級的值為 75。
  • 高信賴度:相符的專案將包含最少的誤判,但最多為誤判。 高信賴度只會傳回高信賴度相符專案,且值為 85。

您應該使用低計數的高信賴等級模式,例如 5 到 10,以及具有較高計數的低信賴度模式,例如 20 或更多。

注意

如果您有現有的原則或自訂敏感性資訊類型, (使用以數位為基礎的信賴等級定義的 SI) T (也知道正確性) ,它們會自動對應至三個離散的信賴等級;安全性 @ 合規性中心 UI 的低信賴度、中度信賴度和高信賴度。

  • 所有精確度下限的原則或信賴等級介於 76 到 100 之間的自訂 SIT 模式,都會對應至高信賴度。
  • 所有精確度下限的原則或信賴等級介於 66 到 75 之間的自訂 SIT 模式,都會對應至中度信賴度。
  • 所有精確度最低的原則或信賴等級小於或等於 65 的自訂 SIT 模式,都會對應至低信賴度。

建立自訂敏感性資訊類型

您可以從數個選項中選擇,以在合規性中心建立自訂敏感性資訊類型。

注意

改善的信賴等級可立即用於 Microsoft Purview 資料外泄防護服務、資訊保護、通訊合規性、資料生命週期管理和記錄管理。 資訊保護現在支援下列專案的雙位元組字元集語言:

  • 中文 (簡體)
  • 中文 (繁體)
  • 韓文
  • 日文

這項支援適用於敏感性資訊類型。 如需詳細資訊,請參閱 雙位元組字元集版本資訊的資訊保護支援

提示

若要偵測包含中文/日文字元和單一位元組字元的模式,或偵測包含中文/日文和英文的模式,請定義關鍵字或 RegEx 的兩個變體。

  • 例如,若要偵測關鍵字 ,例如「机密的document」,請使用關鍵字的兩個變體;一個在日文和英文文字之間具有空格,另一個在日文和英文文字之間沒有空格。 因此,要新增到 SIT 中的關鍵字應該是「机密的 document」和「机密的document」。 同樣地,若要偵測片語「東京オリンピック2020」,應該使用兩個變體;「東京オリンピック 2020」和「東京オリンピック2020」。

除了中文/日文/雙位元組字元,如果關鍵字/片語的清單也包含非中文/日文文字,也 (如僅限英文) ,您應該建立兩個字典/關鍵字清單。 一個用於包含中文/日文/雙位元組字元的關鍵字,另一個則僅用於英文。

  • 例如,如果您想要建立關鍵字字典/清單,其中包含三個片語「高度機密」、「金鑰高い」和「機密document」,您應該建立兩個關鍵字清單。
    1. Highly confidential
    2. 機密性が高い、机密的document 和机密的 document

使用雙位元組連字號或雙位元組句號來建立 RegEx 時,請務必逸出這兩個字元,就像一個字元會逸出 RegEx 中的連字號或句號一樣。以下是供參考的範例 RegEx:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

建議您在關鍵字清單中使用字串比對,而不是使用字組比對。

在敏感性資訊類型中提供比對/不提供比對精確度意見反應

您可以在 敏感性資訊類型內容 總管中檢視 SIT 的相符專案數目。 您也可以使用 MatchNot a Match 意見反應機制,提供專案是否實際相符的意見反應,並使用該意見反應來微調您的 SIT。 如需詳細資訊,請參閱 提高分類器精確度 (預覽)

如需進一步資訊

若要瞭解如何使用敏感性資訊類型來遵守資料隱私權法規,請參閱使用 Microsoft 365 (aka.ms/m365dataprivacy) 部署資料隱私權法規的資訊保護