Microsoft Purview 中的自訂分類
本文說明如何建立自訂分類,以在您的資料資產中定義組織唯一的資料類型。 它也描述如何建立自訂分類規則,讓您在整個資料資產中尋找指定的資料。
重要事項
若要建立自訂分類,您需要集合的資料編 者 或 資料來源系統管理員 許可權。 任何集合層級的許可權都已足夠。 如需許可權的詳細資訊,請參閱: Microsoft Purview 許可權。
預設系統分類
Microsoft Purview 資料目錄提供一組大型的預設系統分類,這些分類代表您可能在資料資產中擁有的一般個人資料類型。 如需可用系統分類的完整清單,請參閱 Microsoft Purview 中支援的分類。
如果任何預設分類不符合您的需求,您也可以建立自訂分類。
注意事項
我們 的資料取樣規則 同時套用至系統和自訂分類。
注意事項
Microsoft Purview 自訂分類僅適用于 SQL 和 CosmosDB 等結構化資料來源,以及 CSV、JSON 和 Parquet 等結構化檔案類型。 自訂分類不會套用至非結構化資料檔案類型,例如 DOC、PDF 和 XLSX。
建立自訂分類的步驟
若要建立自訂分類,請遵循下列步驟:
您需要任何集合的資料編者或資料來源系統管理員權限,才能建立自訂分類。
從您的目錄中,從左側功能表選取 [資料對應 ]。
選 取[批註管理] 下的 [分類]。
選 取 [+ 新增]
[ 新增分類] 窗格隨即開啟,您可以在其中提供分類名稱和描述。 最好使用名稱間距慣例,例如 your company name.classification name
。
Microsoft 系統分類會分組在保留 MICROSOFT.
的命名空間下。 例如 MICROSOFT。政府。我們。SOCIAL_SECURITY_NUMBER。
分類的名稱必須以字母開頭,後面接著字母、數位和句號 (.) 或底線字元序列。 當您輸入時,UX 會自動產生易記名稱。 當您將此易記名稱套用至目錄中的資產時,使用者會看到這個易記名稱。
若要讓名稱保持簡短,系統會根據下列邏輯建立易記名稱:
除了命名空間的最後兩個區段,全部都會修剪。
大小寫會進行調整,以便將每個單字的第一個字母大寫。
所有底線 (_) 都會取代為空格。
例如,如果您將分類命名 為contoso.hr.employee_ID,易記名稱會以 Hr.Employee 標識符的方式儲存在系統中。
選取 [確定],您的新分類會新增至您的分類清單。
選取清單中的分類會開啟分類詳細資料頁面。 在這裡,您會找到有關分類的所有詳細資料。
這些詳細資料包括有多少個實例的計數、正式名稱、任何) (相關聯的分類規則,以及擁有者名稱。
自訂分類規則
目錄服務提供一組預設分類規則,掃描器會使用這些規則來自動偵測特定資料類型。 您也可以新增自己的自訂分類規則,以偵測您可能有興趣在資料資產中尋找的其他資料類型。 當您嘗試在資料資產中尋找資料時,這項功能可能會很強大。
注意事項
只有英文才支援自訂分類規則。
舉例來說,假設名為 Contoso 的公司具有全公司標準化的員工識別碼,其字組為 「Employee」,後面接著 GUID 來建立 EMPLOYEE{GUID}。 例如,員工識別碼的一個實例看起來像 。 EMPLOYEE9c55c474-9996-420c-a285-0d0fc23f1f55
Contoso 可以藉由建立自訂分類規則,設定掃描系統來尋找這些識別碼的實例。 他們可以提供符合資料模式的正則運算式,在此案例中為 \^Employee\[A-Za-z0-9\]{8}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{12}\$
。 或者,如果資料通常位於其知道名稱的資料行中,例如 Employee_ID 或 EmployeeID,則可以新增資料行模式正則運算式,讓掃描更加精確。 範例 RegEx 為 Employee_ID|EmployeeID。
掃描系統接著可以使用此規則來檢查資料行中的實際資料,以及嘗試識別找到員工識別碼模式之每個實例的資料行名稱。
建立自訂分類規則的步驟
若要建立自訂分類規則:
依照上一節中的指示建立自訂分類。 您會在分類規則組態中新增此自訂分類,以便系統在資料行中找到相符專案時套用它。
選取 [資料對應] 圖示。
選取 [ 分類規則] 區段。
選取 [新增]。
[ 新增分類規則] 對話方塊隨即開啟。 填入欄位,並決定是否要建立 正則運算式規則 或 字典規則。
欄位 描述 名稱 此為必要動作。 最大值為 100 個字元。 描述 選用。 最大值為 256 個字元。 分類名稱 此為必要動作。 從下拉式清單中選取分類的名稱,以告知掃描器在找到相符專案時套用它。 狀態 此為必要動作。 選項已啟用或停用。 [已啟用] 是預設值。
建立正則運算式規則
重要事項
自訂分類中的正則運算式不區分大小寫。
如果建立正則運算式規則,您會看到下列畫面。 您可以選擇性地上傳檔案,以用來 為規則產生建議的 RegEx 模式 。 僅支援英文語言規則。
如果您決定產生建議的 RegEx 模式,請在上傳檔案之後,選取其中一個建議的模式,然後選取 [新增至模式 ] 以使用建議的資料和資料行模式。 您可以調整建議的模式,也可以輸入自己的模式,而不需要上傳檔案。
欄位 描述 資料模式 選用。 正則運算式,表示儲存在資料欄位中的資料。 限制很大。 在上一個範例中,資料模式會測試員工識別碼的字詞 Employee{GUID}
。資料行模式 選用。 正則運算式,表示您想要比對的資料行名稱。 限制很大。 在 [資料模式 ] 下,您可以使用 [最小比對閾值 ] 來設定資料行中相異資料值相符專案的最小百分比,掃描器必須找到該百分比才能套用分類。 建議的值為 60%。 如果您指定多個資料模式,則會停用此設定,並將值固定為 60%。
注意事項
最小比對閾值必須至少為 1%。
您現在可以驗證規則並 加以建立 。
完成建立程式之前,請先測試分類規則,以驗證它是否會將標籤套用至您的資產。 規則中的分類會套用至上傳的範例資料,就像在掃描中一樣。 這表示所有系統分類和自訂分類都會與檔案中的資料相符。
輸入檔可能包含 CSV、PSV、SSV、TSV) 、JSON 或 XML 內容 (分隔的檔案。 內容會根據輸入檔的副檔名進行剖析。 分隔資料可能具有符合任何所述類型的副檔名。 例如,TSV 資料可以存在於名為 MySampleData.csv 的檔案中。 分隔的內容也必須至少有三個數據行。
建立字典規則
如果建立字典規則,您會看到下列畫面。 上傳檔案,其中包含您要在單一資料行中建立之分類的所有可能值。 僅支援英文語言規則。
產生字典之後,您可以調整最小比對閾值並提交規則。
編輯或刪除自訂分類
若要更新或編輯自訂分類,請遵循下列步驟:
在您的 Microsoft Purview 帳戶中,選取 [資料對應],然後選取 [ 分類]。
選取 [ 自訂] 索引 標籤。
選取您要編輯的分類,然後選取 [ 編輯] 按鈕。
現在可以編輯此自訂分類的描述。 當您完成儲存變更時,請選取 [ 確定 ] 按鈕。
若要刪除自訂分類:
- 開啟 [資料對應],然後選取 [ 分類]之後,選取 [ 自訂] 索引 標籤。
- 選取您要刪除的分類,或您想要刪除的多個分類,然後選取 [ 刪除 ] 按鈕。
您也可以編輯或刪除分類本身內的分類。 只要選取您的分類,然後選取頂端功能表中的 [ 編輯 ] 或 [ 刪除 ] 按鈕即可。
啟用或停用分類規則
在您的 Microsoft Purview 帳戶中,選取 [資料對應],然後選取 [ 分類規則]。
選取 [ 自訂] 索引 標籤。
您可以查看資料表中的 [ 狀態 ] 資料行,以檢查分類規則的目前狀態。
選取您要啟用或停用的分類規則或多個分類規則。
選取頂端功能表中的 [ 啟用 ] 或 [ 停用 ] 按鈕。
您也可以在編輯規則時更新規則的狀態。
編輯或刪除分類規則
若要更新或編輯自訂分類規則,請遵循下列步驟:
在您的 Microsoft Purview 帳戶中,選取 [資料對應],然後選取 [ 分類規則]。
選取 [ 自訂] 索引 標籤。
選取您要編輯的分類規則,然後選取 [ 編輯] 按鈕。
現在您可以編輯狀態、描述和相關聯的分類規則。
選取 [ 繼續] 按鈕。
您可以上傳正則運算式或字典規則的新檔案以進行比對,並更新比對臨界值和資料行模式比對。
選取 [套用] 以儲存變更。 必須使用新規則重新執行掃描,才能將變更套用到您的資產。
若要刪除自訂分類:
開啟 [資料對應],然後選取 [ 分類規則]之後,選取 [ 自訂] 索引 標籤。
選取您要刪除的分類規則,然後選取 [ 刪除] 按鈕。
後續步驟
現在您已建立分類規則,可以將其新增至掃描規則集,讓掃描在掃描時使用規則。 如需詳細資訊,請 參閱建立掃描規則集。