匯出源數據,以取得以精確數據比對為基礎的敏感性信息類型
提示
如果您不是 E5 客戶,請使用 90 天的 Microsoft Purview 解決方案試用版來探索其他 Purview 功能如何協助貴組織管理數據安全性與合規性需求。 立即從 Microsoft Purview 合規性入口網站 試用中樞開始。 瞭解 有關註冊和試用版條款的詳細數據。
適用於
敏感數據表是包含值數據列的文字檔,您可以比較文件中的內容以識別敏感數據。 這些值可能是您想要在內容中偵測並保護之文字形式的個人標識資訊、產品記錄或其他敏感數據。
一旦您將數據表中的數據匯出 (其中一種支援的格式) ,您就可以建立EDM架構。
定義您的 EDM 敏感性類型
當您定義 EDM 敏感性類型時,其中一個最重要的決策是定義哪些欄位是您的主要欄位。 主要欄位必須遵照可偵測的模式,並定義為 EDM 結構描述中的可搜尋欄位 (欄)。 次要字段不需要遵循任何模式,因為它們會與主要字段相符的所有文字進行比較。
使用這些規則可協助您決定應該使用哪些欄位做為主要欄位:
- 如果您必須根據敏感數據表中符合字段的單一值來偵測敏感數據,而不論其周圍是否有任何其他敏感數據,該數據行都必須定義為EDM SIT的主要元素。
- 如果必須在內容中偵測到敏感數據表中不同欄位的多個組合,請識別大部分這類組合通用的數據行,並將它們指定為主要元素。 將其他欄位的組合指定為次要元素。
- 如果您想要做為主要元素的數據行未遵循可偵測的模式,例如
any text string
或遵循出現在大量檔或電子郵件中某處的可偵測模式,請選擇其他更好的結構化數據行作為主要元素。
例如,如果您有 full name
、 date of birth
、 account number
和 Social Security Number
數據行,即使名字和姓氏是您想要偵測之不同數據組合通用的數據行,這類字串也不會遵循容易識別且可能難以定義為敏感性資訊類型的模式。 有一些原因如下:
- 某些名稱的開頭可能不是大寫字元
- 有些可能是由兩個、三個或多個單字/字串構成
- 有些可能包含數位或其他非字母字元。 您可以更輕鬆地識別出生日期,但因為每封電子郵件和大部分文件都會包含至少一個日期,所以欄
DateOfBirth
位也不是很好的候選專案。 請改用 [社會安全號碼] 和 [帳戶號碼] 等欄位,這些欄位是主要欄位的良好候選專案。
範例檔案範本
為了讓您更輕鬆地選取主要字段,我們已針對下列專案整理一些範例檔案範本:
這些是逗號分隔值 (.csv) 檔案,這些檔案在這些產業垂直上具有最常用的值作為數據行標頭,以及 Microsoft 在數據列中產生的綜合值。 使用數據行標頭可協助您決定主要欄位。 最佳做法是只匯出所需的源數據。 數據行標頭會建議最相關的欄位。
若要瞭解如何使用範例檔案範本,請參閱 如何使用範例檔案範本。
以 .csv、 .tsv 或 管道分隔 格式儲存敏感數據
找出您要使用的敏感性資訊。 將數據匯出至 Microsoft Excel 之類的應用程式,並將檔案儲存為文字檔。 檔案可以以下列任何格式儲存: .csv (逗號分隔值) 、 .tsv (tab 分隔值) 或 (|) (管線分隔) 格式。 如果您的數據值可能包含逗號,例如街地道址,則建議使用 .tsv 格式。 資料檔案可能包含:
- 最多 1 億列敏感性資料
- 每個資料來源最多 32 個資料行 (欄位)
- 最多10個數據行 (標示為可搜尋) 字段
以 .csv 或 .tsv 檔案格式將敏感性資料結構化,使得第一列包含用於以 EDM 為基礎的分類的欄位名稱。 在您的檔案中,您可能會有如 "ssn"、"birthdate"、"firstname" 等欄位名稱。 欄標題名稱不能包含空格或底線。 例如,在本文我們所使用的 .csv 檔案範例稱為 PatientRecords.csv,而其資料行包含 PatientID、MRN、LastName、FirstName、SSN 等等。
請注意敏感數據欄位的格式;特別是,可能在其內容中包含逗號的欄位。 例如,如果選取 .csv 格式,則會將包含值 「Seattle, WA」 的街地道址剖析為兩個不同的字段。 若要避免這種情況,請使用 .tsv 格式,或在敏感性資料表格中以雙引號括住包含值的逗號。 如果包含值的逗號也包含空格,您需要建立符合對應格式的自訂 SIT。 例如,可偵測包含逗號和空格的多字字串的 SIT。
下一步
- 針對新體驗: 建立新體驗的EDM SIT範例檔案
或
- 針對傳統體驗: 建立精確數據比對型敏感性資訊類型的架構