建立精確資料比對型敏感性資訊類型的結構描述
提示
如果您不是 E5 客戶,請使用 90 天Microsoft Purview 解決方案試用版來探索其他 Purview 功能如何協助貴組織管理數據安全性與合規性需求。 立即從 Microsoft Purview 合規性入口網站 試用中樞開始。 瞭解 有關註冊和試用版條款的詳細數據。
適用於
- (SIT) 建立體驗) 敏感性資訊類型 (傳統精確數據比對。
如果您不熟悉 EDM 型的 SITS 或其實作,您應該熟悉:
單一 EDM 結構描述可用於使用相同敏感性資料表的多個敏感性資訊類型。 您可以在 Microsoft 365 租用戶中建立最多 10 個不同的 EDM 結構描述。
使用精確數據比對架構和敏感性資訊類型工具
您可以使用此工具來協助簡化架構檔案建立程式。
必要條件
- 執行匯出精確資料比對型敏感性資訊類型的來源資料中的步驟。
使用精確的數據比對架構和敏感性資訊類型模式工具
針對您使用的入口網站選取適當的索引標籤。 若要深入瞭解 Microsoft Purview 入口網站,請 參閱 Microsoft Purview 入口網站。 若要深入瞭解合規性入口網站,請參閱 Microsoft Purview 合規性入口網站。
登入 Microsoft Purview 入口網站>資訊保護> 當 [新增 EMD 體驗] 切換為 [關閉]) 時, (可使用Classifiers>>EDM分類器EDM 架構。
選擇 [建立 EDM 架構 ] 以開啟架構工具組態飛出視窗。
請填入適當的 名稱 和 描述。
如果您想要套用整個架構的 Ignore... 行為,請選擇 [忽略所有架構欄位的分隔符和標點符號]。 如需將EDM設定為忽略大小寫或分隔符的詳細資訊,請 參閱使用caseInsensitive和ignoredDelimiters欄位 ,以取得此功能的詳細資訊。
在 結構描述欄位 #1 填入您想要的值,並視需要新增更多欄位。 每個結構描述欄位都必須與敏感性資訊來源檔案中的資料行標題相同。
如有需要,請針對下列項目設定每個欄位的值:
- 欄位可搜尋
- 欄位不區分大小寫
- 選擇要對此欄位略過的分隔符號與標點符號
- 輸入此欄位的自訂分隔符號與標點符號
重要事項
您的架構欄位至少必須指定為可搜尋,但不超過十個。
選擇 [儲存]。 您的架構現已列出並可供使用。
重要事項
如果您想要移除已與 EDM SIT 相關聯的架構,您必須先刪除 EDM SIT。 刪除與其具有相關聯資料存放區的結構描述,也會在 24 小時內刪除該資料存放區。
匯出 XML 格式的 EDM 架構檔案
如果您已在EDM架構工具中建立EDM架構,則必須以 XML 格式匯出架構檔案。 您將需要 XML 檔案來完成 哈希,並上傳敏感性資訊源數據表,以取得精確的數據比對敏感性資訊類型 階段。
若要匯出 EDM 結構描述檔案,請使用此語法:
$Schema = Get-DlpEdmSchema -Identity "[your EDM Schema name]" Set-Content -Path ".\Schemafile.xml" -Value $Schema.EdmSchemaXML
儲存此檔案供後續使用。
手動建立和上傳確切的數據比對架構檔案
當您建立架構檔案時,數據行標頭 (數據欄位) 必須遵守下列命名需求:
- 必須以字母開頭,而且必須包含至少三個英數位元。
- 必須只包含英數位元。
針對每個資料行/數據欄位使用下列語法:
<Field name="FieldName" searchable="true/false" caseInsensitive="true/false" ignoredDelimiters="delimiter characters" />
使用 caseInsensitive 和 ignoredDelimiters 欄位
下列架構 XML 範例會使用 caseInsensitive
和欄 ignoredDelimiters
位。
當您在 caseInsensitive
架構定義中包含設定為 值的 true
欄位時,EDM 不會根據大小寫差異來排除專案。 例如,EDM 會將 FOO-1234 和 fOo-1234 的值視為與字段相同 PatientID
。
當您包含包含支援字元的 ignoredDelimiters
欄位時,EDM 會忽略這些字元。 因此,EDM 會將 FOO-1234 和 FOO#1234 的值視為與字 PatientID
段相同。
在這個同時使用 和 ignoredDelimiters
的範例caseInsensitive
中,EDM 會將 FOO-1234 和 fOo#1234 視為完全相同,並將專案分類為病患記錄敏感性信息類型。
這兩個參數都是以每個欄位為基礎來使用。
重要事項
如果您設定要忽略空格,則這只會對主要欄位資料行和可偵測多字字串的敏感性資訊類型有效。 否則,將會針對所分析內容中的每個個別字組進行比較。
旗 ignoredDelimiters
標支援任何非英數位元,以下是一些範例:
- .
- -
- /
- _
- *
- ^
- #
- !
- ?
- [
- ]
- {
- }
- \
- ~
- ;
ignoredDelimiters
旗標不支援:
- 0-9 字元
- A-Z
- a-z
- "
- ,
重要事項
定義 EDM 敏感性資訊類型時, ignoredDelimiters
不會影響與 EDM 模式中主要元素相關聯的分類敏感性資訊類型如何識別專案中的內容。 因此,如果您設定 ignoredDelimiters
可搜尋的欄位,您必須確定根據該欄位用於主要元素的敏感性資訊類型,將會挑選具有和不含這些字元的字串。
敏感性資訊來源資料表中的資料行數目與結構描述中的欄位數目必須相符,順序則不重要。
做為 令牌分隔符 的字元,其行為與其他分隔符不同。 範例如下:
- \ (空間)
- \t
- ,
- .
- ;
- ?
- !
- \r
- \n
當您包含 令牌分隔符時,EDM 會中斷分隔符所在的令牌。 例如,EDM 會在 [中間姓氏] 和 [名稱LastName
] 字段中看到值 [中間姓氏]。
ignoredDelimiters
如果包含LastName
字元 『-』 的欄位,則該動作只會在值中斷之後發生。 最後,EDM 會看到下列值 MiddleLast 和 Name。
若要使用下列字元作為 ignoredDelimiters
標記 分隔符,符合對應格式的 SIT 必須與欄位相關聯。 例如,偵測其中有虛線之多字字串的 SIT 必須與 字 LastName
段相關聯。
- .
- ;
- !
- ?
- \
您可以使用 PowerShell 將 SIT 與次要元素產生關聯。
以 XML 格式定義架構 (類似下列範例) 。 將此架構檔案 命名edm.xml ,然後加以設定,以便針對敏感性資訊源數據表中的每個數據行,有一行使用語法:
\<Field name="" searchable=""/\>
.- 使用資料行名稱作為欄位名稱值。
- 用於
searchable="true"
您想要搜尋的欄位,以及最多五個字段的主要欄位。 至少必須有一個欄位可供搜尋。
例如,下列 XML 檔案會定義病患記錄資料庫的架構,並指定五個字段做為可搜尋:
PatientID
、MRN
、SSN
、Phone
和DOB
。(您可以複製、修改及使用我們的範例)。
<EdmSchema xmlns="http://schemas.microsoft.com/office/2018/edm"> <DataStore name="PatientRecords" description="Schema for patient records" version="1"> <Field name="PatientID" searchable="true" caseInsensitive="true" ignoredDelimiters="-,/,*,#,^" /> <Field name="MRN" searchable="true" /> <Field name="FirstName" /> <Field name="LastName" /> <Field name="SSN" searchable="true" /> <Field name="Phone" searchable="true" /> <Field name="DOB" searchable="true" /> <Field name="Gender" /> <Field name="Address" /> </DataStore> </EdmSchema>
以 XML 格式建立 EDM 結構描述檔案之後,您必須將其上傳到雲端服務。
若要上傳資料庫結構描述,請執行下列命令:
New-DlpEdmSchema -FileData ([System.IO.File]::ReadAllBytes('.\\edm.xml')) -Confirm:$true
系統會提示您確認,如下所示:
確認
是否確定要執行此動作?
將會匯入數據存放區 『patientrecords』 的新 EDM 架構。
[Y] 是 [A] 全部是 [N] 否 [L] 全部否 [?]說明 (預設值為 「Y」) :
提示
若要不確認即變更,請勿在步驟 3 中使用
-Confirm:$true
:
注意事項
這可能要花 10 到 60 分鐘的時間,才能將 EDMSchema 更新為新增項目。 在您執行使用新增項目的步驟之前,必須先完成更新。