Microsoft Purview 治理入口網站中的分類最佳做法
Microsoft Purview 治理入口網站中的資料分類是將唯一邏輯標籤或類別指派給資料資產來分類資料資產的一種方式。 分類是以資料的商務內容為基礎。 例如,您可以依 Passport Number、 Driver's License Number、 Credit Card Number、 SWIFT Code、 Person's Name等分類資產。 若要深入瞭解分類本身,請參閱我們的 分類文章。
本文說明當您將資料資產分類時採用的最佳做法,讓掃描更有效率,而且您有關于整個資料資產的最完整資訊。
掃描規則集
藉由使用 掃描規則集,您可以設定應該套用至資料來源之特定掃描的相關分類。 選取相關的系統分類,或如果您已針對要掃描的資料建立自訂分類,請選取自訂分類。
例如,在下圖中,只會針對您要掃描的資料來源套用特定選取的系統和自訂分類 (例如財務資料) 。
批註管理
當您決定要套用哪些分類時,建議您:
移至[資料對應>批註管理>分類]窗格。
檢閱要套用至您要掃描之資料資產的可用系統分類。 系統分類的正式名稱具有 MICROSOFT 前置詞。
視需要建立自訂分類名稱。 從此窗格開始,然後移至[資料對應>批註管理>分類規則]。 在這裡,您可以為您在上一個步驟中建立的自訂分類名稱建立分類規則。
自訂分類
只有在可用的系統分類不符合您的需求時,才建立自訂分類。
針對自訂分類的名稱,最好使用命名空間慣例 (例如< 公司名稱 > 。 <業務單位 > 。 <自訂分類名稱 >) 。
例如,針對虛構公司 Contoso 的自訂EMPLOYEE_ID分類,自訂分類的名稱會 CONTOSO.HR。EMPLOYEE_ID,易記名稱會以 HR 的方式儲存在系統中。員工識別碼。
當您建立和設定自訂分類的分類規則時,請執行下列動作:
選取要建立分類規則的適當分類名稱。
Microsoft Purview 治理入口網站支援下列兩種建立自訂分類規則的方法:
使用 正則運算式 方法:
設定要分類之資料的 RegEx 模式。 請確定 RegEx 模式的泛型足以滿足所分類的資料。
Microsoft Purview 也提供一項功能來產生建議的 RegEx 模式。 上傳範例資料檔案之後,請選取其中一個建議的模式,然後選取 [ 新增至模式 ] 以使用建議的資料和資料行模式。 您可以修改建議的模式,也可以輸入自己的模式,而不需要上傳檔案。
您也可以設定要分類之資料行的資料行名稱模式,以將誤判降至最低。
設定符合資料模式的資料可接受的最 小比對閾值 參數,以套用分類。 閾值可以是從 1% 到 100%。 建議將至少 60% 的值作為臨界值,以避免誤判。 不過,您可以視需要針對特定分類案例進行設定。 例如,如果您想要偵測並套用資料中任何值的分類符合模式,則閾值可能低至 1%。
如果將多個資料模式新增至分類規則,則會自動停用設定最小比對規則的選項。
使用 測試分類規則 ,並使用範例資料進行測試,以確認分類規則如預期般運作。 請確定在範例資料 (例如,在 .csv 檔案中) 至少有三個數據行存在,包括要套用分類的資料行。 如果測試成功,您應該會在資料行上看到分類標籤,如下圖所示:
使用 Dictionary 方法:
您可以使用 Dictionary 方法來容納列舉資料,或是可以使用可能值的字典清單。
此方法支援 .csv 和 .tsv 檔案,檔案大小限制為 30 MB (MB) 。
自訂分類原型
「threshold」 參數在正則運算式中的運作方式
請考慮下圖中的範例來源資料。 有五個數據行,自訂分類規則應該套用至資料模式 N{Digit}{Digit}{Digit}AN的資料行Sample_col1、Sample_col2和Sample_col3。
自訂分類名為 NDDDAN。
資料模式) 的分類規則 (RegEx 為 ^N[0-9] {3} AN$。
閾值會針對 「^N[0-9] {3} AN$」 模式計算,如下圖所示:
如果您的閾值為 55%,則只會分類 Sample_col1 和 Sample_col2 的資料行。 Sample_col3 不會分類,因為它不符合 55% 閾值準則。
如何同時使用資料和資料行模式
針對指定的範例資料,其中資料行B和資料行 C都有類似的資料模式,您可以根據資料模式 「^P[0-9] {3} [A-Z] {2} $」 對資料行B進行分類。
使用資料行模式與資料模式,以確保只分類 產品標識 符資料行。
注意事項
資料行模式會使用資料模式驗證為 AND 條件。
使用 測試分類規則 ,並使用範例資料進行測試,以確認分類規則如預期般運作。
如何使用多個資料行模式
如果有多個資料行模式要分類為相同的分類規則,請使用管道 (|) 以字元分隔的資料行名稱。 例如,針對 [產品標識符]、 [Product_ID]、[ ProductID] 等資料行,撰寫資料行模式,如下圖所示:
如需詳細資訊,請 參閱 RegEx 替代建構。
分類考慮
以下是定義分類時要牢記在心的一些考慮:
若要在掃描之前決定要套用至資產的分類,請考慮如何使用您的分類。 不必要的分類標籤看起來可能很雜訊,甚至會誤導資料取用者。 您可以使用分類來:
- 描述存在於正在掃描之資料資產或架構中的資料本質。 換句話說,分類應該可讓客戶在搜尋目錄時,從分類標籤識別資料資產或架構的內容。
- 設定優先順序並開發計畫,以達到組織的安全性和合規性需求。
- 描述資料準備程式中的階段, (原始區域、登陸區域等) ,並將分類指派給特定資產,以標示程式中的階段。
您可以在掃描規則中包含相關的分類,在資產或資料行層級自動指派分類,也可以在將中繼資料內嵌至Microsoft Purview 資料對應之後手動指派分類。
如需自動指派,請參閱 Microsoft Purview 治理入口網站中支援的資料存放區。
在Microsoft Purview 資料對應中掃描資料來源之前,請務必先瞭解您的資料,並為其設定適當的掃描規則集 (例如,選取相關的系統分類、自訂分類或兩個) 的組合,因為它可能會影響掃描效能。 如需詳細資訊,請參閱 Microsoft Purview 治理入口網站中支援的分類。
Microsoft Purview 掃描器會針對深度掃描套用資料取樣規則, (系統和自訂分類的分類) 。 取樣規則是以資料來源的類型為基礎。 如需詳細資訊,請參閱 Microsoft Purview 中支援的資料來源和檔案類型中的一節。
注意事項
相異資料閾值:這是掃描器在資料行上執行資料模式之前,必須在資料行中找到的相異資料值總數。 相異資料閾值與模式比對無關,但這是模式比對的必要條件。 系統分類規則要求每個資料行中至少要有 8 個不同的值,才能受限於分類。 系統需要此值,以確保資料行包含足夠的資料,讓掃描器能夠正確分類。 例如,包含多個資料列且全部包含值 1 的資料行將不會分類。 包含一個具有值之資料列且其餘資料列具有 Null 值的資料行也不會被分類。 如果您指定多個模式,此值會套用至每個模式。
取樣規則也適用于資源集。 如需詳細資訊,請參閱 Microsoft Purview 治理入口網站中支援的資料來源和檔案類型中的一節。
使用自訂分類規則,無法在檔案類型資產上套用自訂分類。 此類型別的分類只能手動套用。
自訂分類不包含在任何預設掃描規則中。 因此,如果需要自動指派自訂分類,您必須部署並使用包含自訂分類的自訂掃描規則來執行掃描。
如果您從 Microsoft Purview 治理入口網站手動套用分類,這類分類會保留在後續掃描中。
如果先前偵測到資產的任何分類,即使分類規則不適用,後續掃描也不會從資產中移除任何分類。
針對 加密的源 資料資產,Microsoft Purview 只會挑選檔案名、完整名稱、結構化檔案類型的架構詳細資料,以及資料庫資料表。 若要讓分類能夠運作,請先解密加密的資料,再執行掃描。