識別和分類組織控制下的敏感性專案是資訊保護規範的第一個步驟。 Microsoft Purview 提供三種識別專案的方式,以便對其進行分類:
- 手動,由使用者
- 透過自動模式辨識,就像敏感資訊類型一樣
- 通過 機器學習
敏感性資訊類型 (SIT) 是型樣型分類器。 它們會偵測敏感性資訊,例如社會安全、信用卡或銀行帳號,以識別敏感性專案,請參閱 敏感性資訊類型實體定義 , 以取得所有 SIT 的完整清單。
Microsoft 提供大量預先設定的 SIT,或者您可以建立自己的 SIT。
授權
需要 E5 授權才能使用認證掃描 SIT。 如需所有認證掃描 SIT 的清單,請參閱 所有認證敏感性資訊類型。 此 SIT 包含入口網站中可用的所有認證掃描 SIT。 此 SIT 的每個成員都是認證掃描 SIT,而且可以作為獨立使用。 如需許多 Microsoft 建立的 SIT 清單,請參閱 敏感性資訊類型實體定義。
敏感性資訊類型用於
敏感性資訊類型的類別
內建敏感性資訊類型
Microsoft 已建立這些 SIT,而且預設會顯示在 Purview 入口網站中。 無法編輯這些 SIT,但您可以複製它們來建立自定義敏感性資訊類型,以將它們用作範本。 請參閱敏感 性資訊類型實體定義 ,以取得所有 SIT 的完整清單。
具名實體敏感性資訊類型
預設,具名實體 SIT 也會顯示在 Purview 入口網站中。 它們檢測人員姓名、實際地址以及醫療條款和條件。 它們無法編輯或複製。 如需詳細資訊,請參閱 瞭解具名實體。
具名實體 SIT 有兩種類型:
未捆綁
這些具名實體 SIT 的焦點較窄,例如單一國家或地區,或單一類別的術語。 當您需要資料外洩防護 (具有較窄偵測範圍的 DLP) 原則時,請使用它們。 請參閱 具 名實體 SIT 的範例。
捆綁
捆綁的具名實體 SIT 會偵測類別中所有可能的相符專案,例如 [所有實體位址]。 在 DLP 原則中,請使用它們作為廣泛準則,以偵測敏感性專案。 請參閱 具 名實體 SIT 的範例。
自訂敏感性資訊類型
如果預先設定的敏感性資訊類型不符合您的需求,您可以建立完全定義的自定義敏感性資訊類型,也可以複製其中一個內建資訊類型並加以修改。 如需詳細資訊,請參閱
在 Microsoft Purview 入口網站中建立自定義敏感性資訊類型。
精確資料比對敏感性資訊類型
所有精確的數據相符 (EDM) 型 SIT 都是從頭開始建立。 您可以使用它們來偵測具有精確值的項目,這些值是在敏感資訊資料庫中定義的。 如需詳細資訊,請參閱 瞭解以精確資料比對為基礎的敏感性資訊類型。
敏感性資訊類型的基本部分
每個敏感性資訊類型 (SIT) 實體都包含下列欄位:
- 名字: 指出敏感性資訊類型的參照方式。
- 描述: 敏感性資訊類型要尋找的內容的說明。
- 型: 定義 SIT 偵測的內容。 它由下列元件組成:主要元素、支援元素、信賴等級和鄰近性。
下表說明定義敏感性資訊類型所用模式的每個元件。
| 圖案元件 | 描述 |
|---|---|
| 主要元素 | 敏感性資訊類型要尋找的主要元素。 它可以是具有或不具有總和校驗碼驗證的 正則運算式 、 關鍵字清單、 關鍵字字典或 函數。每個類型的元素都可以從現有的 SIT 清單中選取,也可以由具有系統管理員許可權的使用者自定義定義。 定義元素後,它會顯示在現有元素清單中,以及內建元素。 |
| 支撐元件 | 作為佐證的要素。 包含時,支援元素有助於提高偵測到的相符項準確性的信賴程度。 例如,如果主要元素定義為 SSN 由九位數字) 組成的 (,並且關鍵字社會 安全號碼 (SSN) 在附近找到 SSN時用作支持元素,則檢測到的確實 SSN 是社會安全號碼的置信度高於社會 安全號碼 (SSN) 關鍵字不存在。 支援元素可以是正則表示式 (,具有或不具有校驗和驗證) 、關鍵字清單或關鍵字字典。 |
| 置信水平 | 偵測到的相符專案有三個信賴等級:高、中和低。 信賴水準會反映偵測到多少支援證據以及主要元素。 偵測到的專案包含的支援辨識項越多,相符專案包含您要尋找的敏感性資訊的信賴度就越高。 如需信賴等級的詳細資訊,請參閱本文稍後包含的影片。 |
| 鄰近 | 指定支援元素與主要元素的接近程度,以它們之間的字元數為單位。 |
了解鄰近性
下圖顯示相符偵測在鄰近性方面的運作方式。 在此範例中,主要元素是 SSN 欄位,而 SIT 定義要求值的 SSN 每個實例都必須位於下列至少一個元素的指定鄰近度內:
-
AccountNumber -
Name DateOfBirth
在圖表中,我們看到正在檢查的資料包括欄位 SSN 的三個不同實例: SSN1、 SSN2、 SSN3和 SSN4。
要了解接近度的工作原理,讓我們先看看一些樣本檢測標準。 在這裡,我們想要檢測九位數的社會安全號碼。 偵測準則要求主要元素) (九位數的正則運算式,以及在鄰近) (250 個字元內的 、 Name和DateOfBirth欄位) 中 AccountNumber (支援證據。
如圖所示,只有主要元素 SSN1 符合 SSN4 所描述的檢測標準。 接下來讓我們詳細探討。
- 在 的情況下
SSN1,值AccountNumber位於指定的 250 個字元的鄰近視窗內,因此會偵測到相符專案。 - 在 和
SSN3的情況下SSN2,沒有任何支援元素出現在主要元素的 250 個字元內,因此不會將這些值偵測為相符專案。 但是,當您查看圖表中的鄰近窗口SSN2時,您可能會問: 為什麼沒有匹配項 ?SSN2鄰近視窗不會SSN2延伸至Name元素嗎? 這是一個很好的問題。 答案是: 不完全是。 雖然鄰近視窗延伸至值,Name但它不包含整個值,因此模式不相符。 - 最後,在 的情況下
SSN4,鄰近視窗內有兩個支援元素,兩者都是Name和DateOfBirth,因此此模式也相符。
在這段簡短的影片中進一步了解置信度。
敏感性資訊類型範例
阿根廷國民身分證 (DNI) 號碼
格式
以句點分隔的八位數字
模式
八位數字:
- 兩位數
- 一個句號
- 三位數
- 一個句號
- 三位數
總和檢查碼
否
定義
如果 DLP 原則在 250 個字元的接近範圍內,則具有中等信賴度,表示它已偵測到此類敏感性資訊:
- 規則運算式Regex_argentina_national_id尋找符合模式的內容。
- 找到來自Keyword_argentina_national_id的關鍵字。
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
<Pattern confidenceLevel="75">
<IdMatch idRef="Regex_argentina_national_id"/>
<Match idRef="Keyword_argentina_national_id"/>
</Pattern>
</Entity>
關鍵字
Keyword_argentina_national_id
- 阿根廷國民身分證號碼
- 身分識別
- 身份證明國民身份證
- DNI
- 國家人事登記處 (NIC)
- Documento Nacional de Identidad
- Registro Nacional de las Personas
- 識別
- Identificación
更多關於置信度
在敏感性資訊類型實體定義中, 信賴等級 會反映除了主要元素之外,還偵測到多少支援辨識項。 項目包含的支援證據越多,相符項目包含您要尋找之敏感性資訊的信賴度就越高。 例如,信賴等級高的比對項目在主要元素附近包含更多支援證據,而信賴度低的比對項目在鄰近時幾乎沒有支援證據。
高信賴水準會傳回最少的誤判,但可能會導致更多的誤判。 低或中置信度會傳回較多的誤報,但很少或零的誤報。
- 低信賴度:相符的項目包含最少的誤報,但最多的誤報。 低信賴度會傳回所有低、中和高信賴度相符專案。 低信賴水準的值為 65。
- 中信賴度:相符的項目包含誤判和誤判的平均數量。 中置信度會傳回所有中置信度和高置信度相符專案。 中置信水準的值為 75。
- 高信賴度:相符的專案包含最少的誤報,但最多的誤報。 高置信度只會傳回高置信度相符,其值為 85。
您應該使用低計數的高信賴度模式 (例如 5 到 10),以及具有較高計數 (例如 20 或更多) 的低信賴度模式。
注意事項
如果您有現有的原則或自定義敏感性資訊類型 (SIT) 使用數字型信賴等級 (也稱為 精確度) 來定義,它們會自動對應至三個離散信賴等級;低信賴度、中信賴度和高信賴度,跨安全性 @ 合規性中心 UI。
- 所有具有最低精確度的原則,或信賴層級介於 76 到 100 之間的自訂 SIT 模式,都會對應至高信賴度。
- 所有具有最低精確度或信賴層級介於 66 到 75 之間的自訂 SIT 模式的原則都會對應至中等信賴度。
- 所有具有最低精確度的原則,或信賴度小於或等於 65 的自訂 SIT 模式,都會對應至低信賴度。
建立自訂敏感性資訊類型
您可以從數個選項中選擇,以建立自定義敏感性資訊類型。
使用 UI - 您可以使用 Purview 入口網站 UI 來設定自定義敏感性資訊類型。 使用此方法,您可以使用規則運算式、關鍵字和關鍵字字典。 若要進一步了解,請參閱建立自訂敏感性資訊類型。
使用 EDM - 您可以使用 EDM) 型分類 (精確資料比對來設定自定義敏感性資訊類型。 此方法可讓您使用您可以定期更新的安全資料庫來建立動態敏感性資訊類型。 請參閱 瞭解以精確資料比對為基礎的敏感性資訊類型。
使用 PowerShell - 您可以使用 PowerShell 設定自定義敏感性資訊類型。 雖然此方法比使用 UI 更複雜,但是您有多個組態選項。 請參閱在 安全性 & 合規性 PowerShell 中建立自定義敏感性資訊類型。
調整可訓練的分類器
端點 DLP 會根據租使用者中可用的所有敏感性資訊類型來分類檔案,包括自定義敏感性資訊類型,不論其在任何 DLP 原則中的使用率為何。 如果敏感性資訊類型未適當調整,而且最終會比對許多檔案,這可能會導致過多的分類流量。 您應該優化所有自定義敏感性資訊類型。 若要執行此動作,請移除未使用的敏感性資訊類型,並在 SIT 符合組織中的大部分檔案時重新設計 SIT。 如需使用 SIT Regex 驗證器來調整 SIT 的指引,請參閱: 敏感性資訊類型 REGEX 驗證器和其他檢查
雙位元組字集支援
改善的信賴層級可在 Microsoft Purview 資料外洩防護服務、資訊保護、通訊合規性、數據生命週期管理和記錄管理中立即使用。
- 資訊保護現在支援雙位元組字元集語言:
- 中文 (簡體)
- 中文 (繁體)
- 韓文
- 日文
這項支援適用於敏感性資訊類型。 如需詳細資訊,請參閱 雙位元組字集的資訊保護支援版本資訊。
單一位元組字集支援
若要偵測包含中文/日文字元和單一位元組字元的模式,或偵測包含中文/日文和英文的模式,請定義關鍵字或 RegEx 的兩個變體。
例如,若要偵測關鍵字 ,例如「机密的document」,請使用關鍵字的兩個變體;一個在日文和英文文字之間具有空格,另一個在日文和英文文字之間沒有空格。 因此,要新增到 SIT 中的關鍵字應該是「机密的 document」和「机密的document」。 同樣地,若要偵測片語「東京オリンピック2020」,應該使用兩個變體;「東京オリンピック 2020」和「東京オリンピック2020」。
除了中文/日文/雙位元組字元外,如果關鍵字/短語清單還包含非中文/日文單字,例如只有英文) , (,您應該建立兩個字典/關鍵字清單。 一個用於包含中文/日文/雙位元組字元的關鍵字,另一個用於僅限英文的關鍵字。 例如,如果您想建立包含三個短語「高度機密」、「機密性が高い」和「機密的檔案」的關鍵字字典/列表,您應該建立兩個關鍵字清單。
- Highly confidential
- 機密性が高い, 機密的document and 机密的 document 使用雙位元組連字號或雙位元組句點建立正則表達式時,請確保轉義這兩個字元,就像轉義正則表達式中的連字號或句點一樣。 以下是範例正則運算式以供參考:
(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}
建議您在關鍵字清單中使用字串比對,而不是單字比對。
測試敏感性資訊類型
您可以上傳範例檔案來測試 SIT。 測試結果會顯示每個信賴水準的相符專案數目。 您可以測試內建 SIT、自定義 SIT、可定型分類器和精確數據比對。
若要測試任何自定義或預設 SIT 租使用者,必須至少將一個 Exchange Online 授權新增至租使用者。 否則,選取任何 SIT 時,[測試 SIT] 選項將會呈現灰色。
在敏感性資訊類型中提供相符/不相符的精確度意見反應
您可以在 敏感性資訊類型 和 內容總管中檢視 SIT 的相符專案數目。 您也可以使用 [相符] ( 不是相符 ) 意見反應機制來提供專案是否實際相符的意見反應,並使用該意見反應來調整您的 SIT。 如需詳細資訊,請參閱 提高分類器精確度。
欲了解更多信息
若要瞭解如何使用敏感性資訊類型來遵守資料隱私權法規,請參閱 使用 Microsoft 365 (aka.ms/m365dataprivacy) 部署資料隱私權法規的資訊保護 。