重要事項
經典的電子檔探索體驗已 於 2025 年 8 月 31 日淘汰。 此淘汰包括傳統內容搜尋、傳統電子檔探索 (Standard) ,以及傳統電子檔探索 (進階) 。 這些選項無法作為 Microsoft Purview 入口網站中的體驗選項使用。
除非您在針對特定短期轉換案例使用這些舊版功能時直接與 Microsoft 合作,否則請使用 Microsoft Purview 入口網站中新電子檔探索體驗的指引。
電子檔探索 (進階版中的預測編碼模組) 使用智慧型機器學習功能來協助您減少要檢閱的內容數量。 預測編碼可協助您將大量案例內容減少並剔除為一組相關的項目,以便優先進行檢閱。 這是藉由建立和定型您自己的預測性編碼模型來完成,以協助您排定檢閱集中最相關專案的檢閱優先順序。
預測編碼模組旨在簡化在檢閱集中管理模型的複雜性,並提供反覆的方法來定型模型,讓您可以更快地開始使用電子檔探索 (進階) 中的機器學習功能。 首先,您可以建立一個模型,將最少 50 個項目標記為相關或不相關。 系統會使用此定型,將預測分數套用至檢閱集中的每個專案。 這可讓您根據預測分數篩選項目,讓您先檢閱最相關的 (或不相關的) 項目。 如果您想要訓練具有更高準確度和召回率的模型,您可以在後續的訓練輪次中繼續標記項目,直到模型穩定為止。
預測編碼工作流程
以下是每個步驟預測編碼工作流程的概述和描述。 如需預測編碼處理程序概念及術語的更詳細說明,請參閱 預測編碼參照。
在檢閱集中建立新的預測編碼模型。 第一個步驟是在檢閱集中建立新的預測編碼模型。 檢閱集中必須至少有 2,000 個專案,才能建立模型。 建立模型之後,系統會決定要用作 控制集的項目數目。 控制集會在訓練程序期間用來評估模型指派給具有您在訓練回合期間執行的標籤的項目的預測分數。 控制項集的大小是根據檢閱集中的專案數目,以及建立模型時設定的信賴水準和誤差幅度值。 控制項集中的專案永遠不會變更,而且使用者無法識別。
如需詳細資訊,請參閱 建立預測編碼模型。
通過將項目標記為相關或不相關來完成第一輪培訓。 下一步是透過開始第一輪訓練來訓練模型。 當您開始定型回合時,模型會從檢閱集隨機選取其他專案,這稱為 定型集。 這些項目 (來自控制集和訓練集) 呈現給您,以便您可以將每個項目標記為「相關」或「不相關」。 相關性是根據項目中的內容,而不是任何文件中繼資料。 在訓練回合中完成標記程序之後,模型會根據您如何標記訓練集中的項目來「學習」。 根據此定型,模型會處理檢閱集中的專案,並將預測分數套用至每個專案。
如需詳細資訊,請參閱 定型預測編碼模型。
將預測分數篩選套用至檢閱集中的專案。 完成上一個定型步驟之後,下一個步驟是將預測分數篩選套用至檢閱中的專案,以顯示模型已判斷為「最相關」的專案 (或者,您也可以使用預測篩選來顯示「不相關」的專案 ) 。 當您套用預測篩選器時,您可以指定要篩選的預測分數範圍。 預測分數的範圍介於 0 到 1 之間, 其中 0 表示「不相關」, 1 表示相關。 一般而言,預測分數介於 0 到 0.5 之間的項目會被視為「不相關」,預測分數介於 0.5 到 1 之間的項目會被視為相關。
如需詳細資訊,請參閱 將預測篩選套用至檢閱集。
執行更多訓練輪次,直到模型穩定為止。 如果您想要建立具有更高預測準確度和更高召回率的模型,您可以執行其他輪次的訓練。 回顧率衡量模型預測的項目在實際相關的項目中與您在訓練) 期間標記為相關的項目 (比例。 召回率分數的範圍從 0 到 1。 分數接近 1 表示模型將識別更多相關項目。 在新的訓練回合中,您可以標記新訓練集中的其他項目。 完成該訓練回合之後,模型會根據訓練集中最近一輪標記項目的新學習來更新。 模型會再次處理檢閱集中的專案,並套用新的預測分數。 您可以繼續執行訓練回合,直到模型穩定為止。 當最新一輪訓練後的流失率低於 5% 時,模型被視為穩定。 流失率 定義為檢閱集中預測分數在訓練回合之間變更的專案百分比。 預測編碼儀表板會顯示資訊和統計資料,可協助您評估模型的穩定性。
將「最終」預測分數篩選套用至檢閱集專案,以排定檢閱的優先順序。 完成所有定型輪次並穩定模型之後,最後一個步驟是將最終預測分數套用至檢閱集,以排定相關和不相關專案檢閱的優先順序。 這與您在步驟 3 中執行的相同工作,但此時模型已穩定,而且您不打算再執行任何訓練回合。