了解敏感性資訊類型

文章
03/26/2024

識別和分類貴組織所控制的敏感性專案，是資訊保護專業領域的第一個步驟。 Microsoft Purview 提供三種識別專案的方式，以便分類：

依使用者手動
透過自動化模式辨識，如同敏感性信息類型
透過機器學習

SIT) (敏感性資訊類型是模式型分類器。他們會偵測社會安全、信用卡或銀行帳戶號碼等敏感性資訊以識別敏感性專案，如需所有 SIT 的完整清單，請參閱敏感性資訊類型實體定義。

Microsoft 提供大量預先設定的 SIT，或者您可以自行建立。

提示

如果您不是 E5 客戶，請使用 90 天的 Microsoft Purview 解決方案試用版來探索其他 Purview 功能如何協助貴組織管理數據安全性與合規性需求。立即從 Microsoft Purview 合規性入口網站試用中樞開始。瞭解有關註冊和試用版條款的詳細數據。

敏感性資訊類型用於

敏感性資訊類型的類別

內建敏感性信息類型

Microsoft 已建立這些 SIT，預設會顯示在合規性控制台中。這些 SIT 無法編輯，但您可以複製這些 SIT 來建立自定義敏感性資訊類型，以使用它們作為範本。如需所有 SIT 的完整清單，請參閱敏感性資訊類型實體定義。

具名實體敏感性信息類型

具名實體 SIT 預設也會顯示在合規性控制台中。他們會偵測人員名稱、實體位址，以及醫療條款和條件。它們無法編輯或複製。如需詳細資訊，請參閱瞭解具名實體。

具名實體 SIT 有兩種類型：

un-bundled

這些具名實體 SIT 具有較窄的焦點，例如單一國家或地區，或單一類別的詞彙。當您需要具有較窄偵測範圍的數據外洩防護 (DLP) 原則時，請使用它們。請參閱具名實體 SIT 的範例。

捆綁

配套的具名實體 SIT 會偵測類別中所有可能的相符專案，例如 所有實體位址。在您的 DLP 原則中，使用它們做為偵測敏感性專案的廣泛準則。請參閱具名實體 SIT 的範例。

自訂敏感性資訊類型

如果預先設定的敏感性資訊類型不符合您的需求，您可以建立您自己完全定義的自定義敏感性資訊類型，也可以複製其中一個內建資訊類型並加以修改。如需詳細資訊，請參閱

Create Microsoft Purview 合規性入口網站中的自定義敏感性信息類型。

精確數據比對敏感性信息類型

所有完全相符的數據 (以EDM) 為基礎的SIT都是從頭開始建立。您可以使用它們來偵測具有確切值的項目，這些值是在敏感性資訊的資料庫中定義。如需詳細資訊，請參閱瞭解以精確數據比對為基礎的敏感性信息類型。

敏感性資訊類型的基本部分

SIT) 實體 (每個敏感性資訊類型都包含下列欄位：

名字： 指出敏感性資訊類型的參考方式。
描述： 說明敏感性資訊類型所尋找的內容。
模式： 定義 SIT 偵測到的內容。它包含下列元件：主要元素、支援元素、信賴等級和鄰近性。

下表描述定義敏感性資訊類型所用模式的每個元件。

模式元件	描述
主要元素	敏感性資訊類型要尋找的主要元素。它可以是具有或不含總和檢查碼驗證、關鍵詞清單、關鍵詞字典或函式的正則表達式。這些類型的元素都可以從現有 SIT 清單中選取，也可以由具有系統管理員許可權的使用者自定義定義。定義項目之後，它會出現在現有元素清單中，以及內建專案清單中。
支援元素	做為相互關聯辨識項的專案。包含時，支持項目有助於提高偵測到相符項目的正確性信賴等級。例如，如果主要元素定義為 `SSN` (由九個數位) 組成，而關鍵詞[ 社會安全號碼 (SSN) 會在接近 `SSN`時當做支援元素使用，則偵測到之真正社會安全號碼的信賴 `SSN` 度會高於未出現社會安全號碼 (SSN) 關鍵詞。支援專案可以是正則表達式， (不含總和檢查碼驗證) 、關鍵詞清單或關鍵詞字典。
信賴等級	針對偵測到的相符專案，有三個信賴等級：高、中和低。信賴等級會反映偵測到多少支持辨識項以及主要元素。偵測到的專案所包含的支持辨識項越多，相符專案包含您要尋找之敏感性資訊的信賴度就越高。如需信賴等級的詳細資訊，請參閱本文稍後所包含的影片。
鄰近	指定支援專案與主要元素的接近程度，以兩者之間的字元數為單位。

了解鄰近性

下圖顯示相符偵測在鄰近性方面的運作方式。在此範例中，主要元素是 SSN 字段，而 SIT 定義要求值的 SSN 每個實體必須至少位於下列其中一個元素的指定鄰近範圍內：

AccountNumber
Name
DateOfBirth

在圖表中，我們看到所檢查的數據包含欄位的 SSN 三個不同實例： SSN1、 SSN2、 SSN3和 SSN4。

。

若要了解鄰近的運作方式，讓我們先看看一些範例偵測準則。在這裡，想要偵測九位數的社會安全號碼。偵測準則要求在鄰近) (250 個字元內顯示的、 Name和 DateOfBirth 欄位) 之間AccountNumber，) 與支援的辨識項 (一起找到 9 位數的正則表達式 ( 主要元素。

如圖表所示，只有主要元素 SSN1 符合 SSN4 剛才所述的偵測準則。接下來讓我們詳細探討。

在的案例 SSN1中， DateOfBirth 值是在 250 個字元的指定鄰近視窗內，因此偵測到相符專案。
在和 SSN3這兩種情況下SSN2，所有支援元素都不會出現在主要元素的 250 個字元內，因此不會將這些值偵測為相符專案。不過，當您在圖表中查看的鄰近視窗 SSN2 時，您可能會問： 為什麼沒有相符的專案 SSN2？鄰近視窗不會 SSN2 延伸到 Name 元素嗎？ 這是不錯的問題。答案是： 不完全正確。雖然鄰近視窗會延伸至Name值，但不包含整個值，因此模式不相符。
最後，在的 SSN4案例中，鄰近視窗內有兩個支持專案， Name 和 DateOfBirth，因此此模式也相符。

在此短片中深入瞭解信賴等級。

範例敏感性信息類型

阿根廷國民身分證 (DNI) 號碼

格式

以句點分隔的八位數

模式

八位數：

兩位數
句號
三位數
句號
三位數

總和檢查碼

否

定義

DLP 原則在鄰近 250 個字元內偵測到這種類型的敏感性資訊時，具有中度信賴度：

正則表達式Regex_argentina_national_id尋找符合模式的內容。
找到來自 Keyword_argentina_national_id 的關鍵詞。

<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

關鍵字

Keyword_argentina_national_id

阿根廷國家身分識別號碼
身分識別
識別國家身分識別卡
DNI
NIC (國家註冊)
Documento Nacional de Identidad
Registro Nacional de las Personas
Identidad
Identificación

進一步瞭解信賴等級

在敏感性資訊類型實體定義中， 信賴等級 會反映除了主要元素之外，還偵測到多少支持辨識項。項目包含的支援證據越多，相符項目包含您要尋找之敏感性資訊的信賴度就越高。例如，具有高信賴度層級的相符專案在接近主要元素時包含更多支持辨識項，而信賴等級低的相符專案則幾乎不支援接近的辨識項。

高信賴度層級會傳回最少的誤判，但可能會導致更多誤判。低或中度信賴等級會傳回更多誤判，但誤判為零。

低信賴度：相符的專案包含最少的誤判，但誤判為真數最高。低信賴度會傳回所有低、中和高信賴度相符專案。低信賴等級的值為 65。
中度信賴度：相符的專案包含平均誤判和誤判。中度信賴會傳回所有中度和高信賴度相符專案。中度信賴等級的值為75。
高信賴度：相符的專案包含最少的誤判，但誤判為真。高信賴度只會傳回高信賴度相符專案，且值為85。

您應該使用具有低計數的高信賴等級模式，例如 5 到 10，以及具有較高計數的低信賴度模式，例如 20 或更多。

注意事項

如果您有現有的原則或自定義敏感性資訊類型， (SIT) 使用以數位為基礎的信賴等級定義， (也稱為 精確度) ，它們會自動對應到三個離散的信賴等級;安全性 @ 合規性中心 UI 的低信賴度、中度信賴度和高信賴度。

所有精確度下限的原則或信賴等級介於 76 到 100 之間的自定義 SIT 模式，都會對應至高信賴度。
所有精確度下限的原則或信賴等級介於 66 到 75 之間的自定義 SIT 模式，都會對應至中度信賴度。
所有精確度最低的原則或信賴等級小於或等於 65 的自定義 SIT 模式，都會對應至低信賴度。

建立自訂敏感性資訊類型

您可以從數個選項中選擇，以在合規性入口網站中建立自定義敏感性信息類型。

使用 UI - 您可以使用合規性入口網站 UI 來設定自定義敏感性資訊類型。使用此方法，您可以使用規則運算式、關鍵字和關鍵字字典。若要進一步了解，請參閱建立自訂敏感性資訊類型。
使用 EDM - 您可以使用精確資料比對 (EDM) 型分類來設定自訂敏感性資訊類型。此方法可讓您使用您可以定期更新的安全資料庫來建立動態敏感性資訊類型。請參閱瞭解以精確數據比對為基礎的敏感性信息類型。
使用 PowerShell - 您可以使用 PowerShell 設定自定義敏感性資訊類型。雖然此方法比使用 UI 更複雜，但是您有多個組態選項。請參閱安全性 & 合規性 PowerShell 中的 Create 自定義敏感性信息類型。

注意事項

改善的信賴等級可立即用於 Microsoft Purview 數據外洩防護服務、資訊保護、通訊合規性、數據生命週期管理和記錄管理。資訊保護現在支援下列專案的雙位元組位元集語言：

中文 (簡體)
中文 (繁體)
韓文
日文

這項支援適用於敏感性資訊類型。如需詳細資訊，請參閱雙位元組位元集版本資訊的信息保護支援。

提示

若要偵測包含中文/日文字元和單一位元組字元的模式，或偵測包含中文/日文和英文的模式，請定義關鍵字或 RegEx 的兩個變體。

例如，若要偵測關鍵字，例如「机密的document」，請使用關鍵字的兩個變體；一個在日文和英文文字之間具有空格，另一個在日文和英文文字之間沒有空格。因此，要新增到 SIT 中的關鍵字應該是「机密的 document」和「机密的document」。同樣地，若要偵測片語「東京オリンピック2020」，應該使用兩個變體；「東京オリンピック 2020」和「東京オリンピック2020」。

除了中文/日文/雙位元組字元，如果關鍵詞/片語的清單也包含非中文/日文文字，例如，僅 (限英文) ，您應該建立兩個字典/關鍵詞清單。一個用於包含中文/日文/雙位元組位元的關鍵詞，另一個用於僅限英文關鍵詞。

例如，如果您想要建立關鍵詞字典/列表，其中包含三個詞組「Highly confidential」、“機性密鑰が高い” 和 “機密document”，您應該建立兩個關鍵詞清單。
1. Highly confidential
2. 機密性が高い、机密的document 和机密的 document

使用雙位元組連字元或雙位元組期間建立 regex 時，請務必逸出這兩個字元，就像您在 regex 中逸出連字元或句點一樣。以下是範例 RegEx 供參考：

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

建議您在關鍵詞清單中使用字串比對，而不是使用字組比對。

測試敏感性信息類型

您可以上傳範例檔案來測試 SIT。測試結果會顯示每個信賴等級的相符項目數目。您可以測試內建的 SIT、自定義 SIT、可訓練的分類器，以及確切的數據比對。

測試內建和自定義敏感性信息類型

測試精確數據比對敏感性信息類型。

在敏感性資訊類型中提供比對/不提供比對精確度意見反應

您可以在 敏感性資訊類型 和內容總管中檢視 SIT 的相符項目數目。您也可以使用 Match、 Not a Match 意見反應機制，提供專案是否實際相符的意見反應，並使用該意見反應來微調您的 SIT。如需詳細資訊，請參閱提高分類器精確度。

如需進一步資訊

若要瞭解如何使用敏感性資訊類型來遵守數據隱私權法規，請參閱使用 Microsoft 365 (aka.ms/m365dataprivacy) 部署數據隱私權法規的資訊保護。

分享方式：