Microsoft Purview 可定型分類器是您可以定型的工具,藉由提供要評估的範例來識別各種類型的內容。 定型之後,您可以使用它來識別套用 Office 敏感度標籤、通訊合規性原則和保留標籤原則的專案。
實作自訂可訓練分類器需要兩個步驟:
- 提供兩組樣本數據 (由人類) 選擇。
- 僅包含屬於類別的項目的集合。
- 僅包含 不 屬於該類別的項目的集合。
- 測試分類器偵測相符項的能力。
本文說明如何建立和測試自訂分類器。
如需不同類型分類器的詳細資訊,請參閱 瞭解可定型分類器。
重要事項
Microsoft Purview 通訊合規性僅支援使用 Microsoft 提供的可訓練分類器。 不支援自訂可定型分類器。
必要條件
授權
如需授權的相關資訊,請參閱
權限
若要在下列案例中使用分類器,您需要下列權限:
| 案例 | 必要的角色權限 |
|---|---|
| 保留標籤原則 | 記錄管理 保留管理 |
| 敏感度標籤原則 | 安全性系統管理員 合規性系統管理員 合規性資料系統管理員 |
| 通訊合規性原則 | 測試人員風險管理管理員 主管檢閱系統管理員 |
重要事項
根據預設,只有建立自訂分類器的使用者才能定型它,並檢閱該分類器所做的預測。
為自訂可訓練分類器進行準備
在建立自訂可定型分類器之前,瞭解所涉及的內容會很有幫助。
整體工作流程
如需建立自訂可訓練分類器整體工作流程的詳細資訊,請參閱 建立自訂可訓練分類器的程序流程。
種子內容
若要確保您的可定型分類器能夠獨立且準確地識別項目屬於特定內容類別,您必須向它呈現類別中內容類型的許多範例。 這種將樣本饋送到可訓練分類器的過程稱為 播種。 人類必須選取種子內容,而且該內容必須包含兩組資料:一組僅包含強烈代表分類器設計為偵測 (陽性樣本) 內容的項目,而第二組包含明顯不屬於 (負性樣本) 的項目。
您至少需要 50 個正面樣本 (最多 500 個) ,以及至少 150 個負面樣本 (最多 1,500 個) 來訓練分類器。 您提供的樣本越多,分類器所做的預測就越準確。 可訓練的分類器會處理最多 2,000 個最近建立的樣本,這些樣本 (依檔案建立日期/時間戳記) 。
提示
為了獲得最佳結果,測試樣本集中至少有 200 個項目,其中包括至少 50 個正面範例和至少 150 個負面範例。
如何建立可訓練分類器
預覽版: 下列程式可自動測試可訓練的分類器,並將建立工作流程從 12 天縮短至兩天。 在某些情況下,該過程可能只需要幾個小時。
收集 50 到 500 個種子內容項目,這些項目強烈代表您希望分類器積極識別為屬於該類別的數據。 如需支援的檔案類型清單,請參閱 SharePoint Server 中的預設編目副檔名和剖析檔案類型。
收集 第二 組種子內容, (150 到 1,500 個項目) ,代表 不 屬於該類別的資料。
將正數和負數種子內容放在個別的 SharePoint 資料夾中。 每個資料夾必須專門用於保存 種子內容。 記下每個集合的網站、文件庫和資料夾 URL。
提示
如果您為種子資料建立新的 SharePoint 網站和資料夾,請先至少等待一小時來編製該位置的索引,再建立使用該種子資料的可定型分類器。
使用合規性系統管理員或安全性系統管理員角色存取權登入 Microsoft Purview 入口網站,然後流覽至 [數據外洩防護>] [數據分類>分類器]。
重要事項
您使用的帳戶必須具有 SharePoint 中種子內容資料夾的存取權。
選取 [可訓練的分類器 ] 索引標籤。
選取 [建立可訓練的分類器]。
新增 正面 範例的來源:選取分類器應該偵測之種子內容的 SharePoint 網站、文件庫和資料夾 URL,然後選擇 [ 下一步]。
新增 負面 範例的來源:選取分類器應該忽略之種子內容的 SharePoint 網站、文件庫和資料夾 URL,然後選擇 [ 下一步]。
檢閱設定,然後選取 [建立可訓練分類器]。
在 24 小時或更短的時間內,可訓練分類器會處理種子資料並建置預測模型。 在處理種子資料時,分類器狀態為 [進行中]。 當分類器完成處理種子資料時,狀態會變更為 [訓練已完成,且項目已測試]。
當訓練完成且項目 (自動) 測試時,請選擇 [發佈以供使用] 來發佈分類器。
發佈分類器之後,它可作為 Office 自動套用敏感度標籤、根據條件自動套用保留標籤原則,以及通訊合規性中的條件。
測試分類器
在可訓練的分類器處理足夠的正負樣本來建置預測模型之後,測試它所做的預測。 當您測試分類器時,您會驗證其預測是否正確。 分類器處理完所有資料後,您可以瀏覽結果,以驗證每個預測是否正確、不正確或不確定。 Microsoft 會彙總使用此意見反應來改善預測模型。