瞭解 eDiscovery (Premium) (預覽) 中的預測性程式碼撰寫

eDiscovery (Premium) 中的預測性程式碼撰寫模組會使用智慧型的機器學習功能,協助您減少要檢閱的內容量。 預測性程式代碼撰寫可協助您減少大量案例內容,並將其挑選成一組相關專案,以供您優先檢閱。 這可藉由建立和定型您自己的預測性程式代碼撰寫模型來完成,以協助您排定檢閱集中最相關專案的優先順序。

預測性程式代碼撰寫模組的設計目的是要簡化在檢閱集內管理模型的複雜性,並提供反覆的方法來定型模型,讓您可以在電子檔探索 (進階) 中更快速地開始使用機器學習功能。 若要開始使用,您可以建立模型,將50個項目標記為相關或不相關。 系統會使用此定型,將預測分數套用至檢閱集中的每個專案。 這可讓您根據預測分數來篩選專案,這可讓您先檢閱最相關的 (或不相關的) 專案。 如果您想要定型具有較高精確度和召回率的模型,您可以在後續定型回合中繼續標記專案,直到模型穩定為止。

提示

如果您不是 E5 客戶,請使用 90 天的 Microsoft Purview 解決方案試用版來探索其他 Purview 功能如何協助貴組織管理數據安全性與合規性需求。 立即從 Microsoft Purview 合規性入口網站 試用中樞開始。 瞭解 有關註冊和試用版條款的詳細數據

預測性編碼工作流程

以下是每個步驟預測性編碼工作流程的概觀和描述。 如需預測性編碼程式概念和術語的更詳細描述,請參閱 預測性編碼參考

預測性編碼工作流程。

  1. 在檢閱集中建立新的預測性編碼模型。 第一個步驟是在檢閱集中建立新的預測性編碼模型。 您在檢閱集內至少必須有 2,000 個專案,才能建立模型。 建立模型之後,系統會決定要做為 控件集的項目數。 在定型程式期間,會使用控制集來評估模型指派給具有訓練回合期間所執行標籤之專案的預測分數。 控件集的大小是根據檢閱集中的項目數目,以及建立模型時所設定之錯誤值的信賴等級和邊界。 控件集中的項目永遠不會變更,而且使用者無法識別。

    如需詳細資訊,請 參閱建立預測性編碼模型

  2. 將項目標示為相關或不相關,以完成第一個訓練回合。 下一個步驟是啟動第一輪定型來定型模型。 當您開始訓練回合時,模型會隨機從檢閱集選取其他專案,稱為 定型集。 這些專案 (控件集和定型集) 呈現給您,讓您可以將每個項目標示為「相關」或「不相關」。 相關性是以專案中的內容為基礎,而不是任何文件元數據。 在定型回合中完成標籤程序之後,模型會根據您在定型集中標記專案的方式來「學習」。 根據此定型,模型會處理檢閱集中的專案,並將預測分數套用至每個專案。

    如需詳細資訊,請 參閱定型預測性編碼模型

  3. 將預測分數篩選套用至檢閱集中的專案。 完成上一個定型步驟之後,下一個步驟是將預測分數篩選套用至檢閱中的專案,以顯示模型判斷為「最相關」的專案 (或者,您也可以使用預測篩選器來顯示「不相關」的 ) 專案。 當您套用預測篩選時,您可以指定要篩選的預測分數範圍。 預測分數的範圍介於 01 之間,其中 0 為「不相關」, 1 則為相關。 一般而言,預測分數介於 00.5 之間的項目會被視為「不相關」,且預測分數介於 0.51 的專案會被視為相關。

    如需詳細資訊,請 參閱將預測篩選套用至檢閱集

  4. 執行更多定型回合,直到模型穩定為止。 如果您想要建立具有較高準確度預測和提高召回率的模型,您可以執行其他幾輪定型。 回收率 會測量模型預測的專案比例,與您在定型) 期間標示為相關的專案 (實際相關專案之間相關。 召回率分數的範圍從 01。 分數接近 1 表示模型會識別更相關的專案。 在新的訓練回合中,您會在新的定型集中標記其他專案。 完成該訓練回合之後,會根據您在定型集中最近一輪標籤專案中的新學習來更新模型。 模型會再次處理檢閱集中的專案,並套用新的預測分數。 您可以繼續執行訓練回合,直到模型穩定為止。 當最新一輪定型之後的變換率小於 5% 時,模型會被視為穩定。 變換率 定義為檢閱集中的專案百分比,其中預測分數會在定型回合之間變更。 預測性編碼儀錶板會顯示資訊和統計數據,協助您評估模型的穩定性。

  5. 套用「最終」預測分數篩選,以檢閱設定專案以優先檢閱。 完成所有訓練回合並穩定模型之後,最後一個步驟是將最終預測分數套用至檢閱集,以優先檢閱相關和不相關的專案。 這是您在步驟 3 中執行的相同工作,但此時模型是穩定的,而且您不打算再執行任何定型回合。