重要事項
經典的電子檔探索體驗已 於 2025 年 8 月 31 日淘汰。 此淘汰包括傳統內容搜尋、傳統電子檔探索 (Standard) ,以及傳統電子檔探索 (進階) 。 這些選項無法作為 Microsoft Purview 入口網站中的體驗選項使用。
除非您在針對特定短期轉換案例使用這些舊版功能時直接與 Microsoft 合作,否則請使用 Microsoft Purview 入口網站中新電子檔探索體驗的指引。
在 Microsoft Purview 電子文件探索 (Premium) 中建立預測性編碼模型之後,下一個步驟是執行第一輪定型,以針對檢閱集中的相關和不相關內容定型模型。 完成第一輪訓練後,您可以執行後續的訓練輪次,以提高模型預測相關和不相關內容的能力。
若要檢閱預測性編碼工作流程,請參閱 瞭解電子檔探索 (進階版中的預測編碼)
定型模型之前
- 在訓練輪次期間,根據文件中內容的相關性,將項目標示為 「相關」 或 「不相關 」。 請勿根據中繼資料欄位中的值來做出決定。 例如,針對電子郵件訊息或 Teams 交談,請勿根據訊息參與者來判斷標籤。
第一次定型模型
在 Microsoft Purview 入口網站中,開啟電子檔探索 (進階版) 案例,然後選取 [ 檢閱集 ] 索引標籤。
開啟檢閱集,然後選取 [分析][管理>預測編碼] ([預覽) ]。
在預測 編碼模型 (預覽) 頁面上,選取您要定型的模型。
在 [ 概觀 ] 索引標籤的 [第 1 輪] 底下,選取 [ 開始下一個訓練回合]。
「 訓練」 標籤隨即顯示,其中包含 50 個項目供您標記。
檢閱每個文件,然後選取閱讀窗格底部的 [相關 ] 或 [ 不相關 ] 以標記它。
標記所有 50 個項目之後,請選取 [完成]。
系統需要幾分鐘的時間才能從您的標籤中「學習」並更新模型。 當此程序完成時,預測編碼模型 (預覽) 頁面上會顯示模型的就緒狀態。
執行額外的訓練輪次
執行第一輪訓練之後,您可以依照上一節中的步驟執行後續訓練回合。 唯一的區別是訓練輪數將在模型 概觀 標籤上更新。例如,在執行第一輪訓練之後,您可以選取 開始下一輪訓練 以開始第二輪訓練。 以此類推。
每一輪訓練 (進行中的訓練和已完成的訓練) 都會顯示在模型的 [訓練] 索引標籤上。 當您選取訓練回合時,會顯示一個飛出視窗頁面,其中包含回合的資訊和計量。
執行訓練回合後會發生什麼事
執行第一輪訓練之後,會啟動執行下列動作的工作:
根據您標記訓練集中 40 個項目的方式,模型會從您的標籤中學習並更新自身以變得更準確。
然後,模型會處理整個檢閱集中的每個專案,並指派介於 0 (不相關) 和 1 (相關) 之間的預測分數。
模型會將預測分數指派給您在訓練回合期間標記的控制集中的 10 個項目。 模型會將這 10 個項目的預測分數與您在訓練回合期間指派給項目的實際標籤進行比較。 根據此比較,模型會識別下列稱為 控制集混淆矩陣 的分類 (,) 以評估模型的預測效能:
| 標籤 | 模型預測項目相關 | 模型預測項目不相關 |
|---|---|---|
| 檢閱者將專案標示為相關 | 確判為真 | 誤判 |
| 檢閱者將項目標記為不相關 | 假陰性 | 真陰性 |
根據這些比較,模型會衍生 F 分數、精確度和召回率指標的值,以及每個指標的誤差範圍。 這些模型效能計量的分數會顯示在定型回合的飛出視窗頁面上。 如需這些度量的說明,請參閱 預測編碼參考。
- 最後,模型確定將用於下一輪訓練的接下來的 50 個項目。 這次,模型可能會從控制項集中選取 20 個專案,並從檢閱集中選取 30 個新專案,並將它們指定為下一輪的定型集。 下一輪訓練的抽樣不是均勻抽樣的。 模型會優化檢閱集中專案的取樣選取範圍,以選取預測不明確的專案,這表示預測分數在 0.5 範圍內。 這個過程稱為 偏向選擇。
執行後續訓練輪次後會發生什麼事
在執行後續訓練輪次之後 (在第一輪訓練輪) 之後,模型會執行下列動作:
- 模型會根據您在該輪訓練中套用至訓練集的標籤來更新。
- 系統會評估模型對控制集中項目的預測分數,並檢查分數是否與您在控制集中標記項目的方式一致。 評估是針對所有訓練回合的控制集中的所有標記項目執行。 此評估的結果會併入模型的「 概觀 」標籤上的儀表板中。
- 更新的模型會重新處理檢閱集中的每個專案,並為每個專案指派更新的預測分數。
後續步驟
執行第一個定型回合之後,您可以執行更多定型回合,或將模型的預測分數篩選套用至檢閱集,以檢視模型預測為相關或不相關的專案。 如需詳細資訊,請參閱 將預測分數篩選套用至檢閱集。