重要事項
經典的電子檔探索體驗已 於 2025 年 8 月 31 日淘汰。 此淘汰包括傳統內容搜尋、傳統電子檔探索 (Standard) ,以及傳統電子檔探索 (進階) 。 這些選項無法作為 Microsoft Purview 入口網站中的體驗選項使用。
除非您在針對特定短期轉換案例使用這些舊版功能時直接與 Microsoft 合作,否則請使用 Microsoft Purview 入口網站中新電子檔探索體驗的指引。
本文說明 Microsoft Purview 電子文件探索 (Premium) 中預測編碼工具的關鍵概念和計量。 文章中的部分按字母順序列出。
信賴等級
信賴水準是您建立預測編碼模型時的進階設定。 它定義模型的效能計量 (例如,豐富度、精確度和召回率) 落在指定的範圍內, (這會決定為模型定義的誤差範圍) 代表模型指派給檢閱集中專案的預測分數的真實值。 信賴水準和誤差範圍的值也有助於判斷控制集中包含多少項目。 信賴水準的預設值為 0.95% 或 95%。
控制集
控制集是在預測編碼模型的訓練過程中使用。 控制集是用來評估模型指派給具有您在訓練回合期間執行的標籤的項目的預測分數。 控制項集的大小是根據檢閱集中的專案數目,以及建立模型時設定的信賴水準和誤差幅度值。 控制項集中的專案永遠不會變更,而且使用者無法識別。 控制項集中的專案總數會顯示在訓練回合的飛出視窗頁面上。
控制集混淆矩陣
完成訓練回合之後,模型會將預測分數指派給您在訓練回合期間標記的控制集中的 10 個項目。 模型會將這 10 個項目的預測分數與您在訓練回合期間指派給項目的實際標籤進行比較。 根據此比較,模型會識別下列分類,以評估模型的預測效能:
| 標籤 | 模型預測項目相關 | 模型預測項目不相關 |
|---|---|---|
| 檢閱者將專案標示為相關 | 確判為真 | 誤判 |
| 檢閱者將項目標記為不相關 | 假陰性 | 真陰性 |
根據這些比較,模型會衍生 F 分數、精確度和召回率指標的值,以及每個指標的誤差範圍。 矩陣中每個混淆類型的數目會顯示在訓練回合的飛出視窗頁面上。
F 分數
F 分數是精確度和召回率指標分數的加權平均值。 此指標的分數範圍為 0 到 1。 分數接近 1 表示模型將更準確地檢測相關項目。 F 分數計量會顯示在模型儀錶板上,以及每個定型回合的飛出視窗頁面上。
誤差範圍
誤差範圍是您建立預測編碼模式時的進階設定。 它會指定效能計量的錯誤程度,例如,從控制集中項目的隨機取樣衍生而來 (豐富度、精確度和召回率) 。 較低的誤差範圍需要更大的控制集,以確保模型的效能指標落在較小的範圍內。 誤差範圍和信賴水準的值也有助於判斷控制集中包含多少個項目。 誤差範圍的預設值為 0.05% 或 5%。
模型穩定性
模型穩定性表示模型能夠準確預測檢閱集中的檔是否相關。 當模型不穩定時,可能需要執行更多的訓練輪次,以包含模型的穩定性。 當模型穩定時,可能不需要再執行訓練輪次。 模型儀表板會指出模型穩定性的目前狀態。 當模型穩定時,效能指標已達到符合信賴水準和誤差範圍設定的層級。
翻車率
覆翻率是檢閱集中預測分數在訓練回合之間變更的專案百分比。 當翻車率低於 5% 時,模型被認為是穩定的。 翻轉率計量會顯示在模型儀錶板和每個定型回合的飛出視窗頁面上。 第一輪訓練的翻車率為零,因為之前沒有要推翻的預測分數。
精確度
精確度度量度測量模型預測相關的項目中相關項目的比例。 這表示控制項集中的項目,其中標籤由檢閱者標記為相關,並由模型預測為相關。 此指標的分數範圍為 0 到 1。 分數接近 1 表示模型將識別更少的不相關項目。 精確度計量會顯示在模型儀錶板上,以及每個定型回合的飛出視窗頁面上。
預測分數
這是模型指派給檢閱集中每個檔的分數。 分數是根據文件的相關性,與模型從訓練輪次中學習的相關性為基礎。 一般而言,預測分數介於 0 到 0.5 之間的項目被視為不相關,預測分數介於 0.5 到 1 之間的項目被視為相關。 預測分數包含在文件中繼資料欄位中。 您可以使用預測篩選來顯示檢閱集中落在指定預測範圍內的專案。
回顧
召回率指標衡量模型預測的相關項目在相關項目中的比例。 這表示模型預測的控制集中的相關項目也被檢閱者標記為相關。 此指標的分數範圍為 0 到 1。 分數接近 1 表示模型將識別大部分相關項目。 召回計量會顯示在模型儀錶板上,以及每個訓練回合的飛出視窗頁面上。
檢閱集
檢閱集提供預測編碼模型的範圍。 當您為檢閱集建立新模型時,會從檢閱集中選取控制集和定型集的專案。 當模型指派預測分數時,它會將這些分數指派給檢閱中的項目。 您必須先將所有專案新增至檢閱集,才能建立預測性編碼模型。 如果您在建立模型之後新增項目,則不會指派這些項目預測分數。
豐富度
豐富度計量會測量模型預測為相關的檢閱集專案百分比。 此指標的分數範圍為 0 到 1。 豐富度度量會顯示在模型儀表板上。
取樣項目
取 樣專案 一詞是檢閱集 (中專案隨機取樣的參考,其中包含當您建立預測編碼模型時選取並與控制項集相關聯的文字) 。 還為每輪訓練選擇隨機項目樣本。 為模型的控制集選取的項目永遠不會包含在相同模型的訓練集中。 反之亦然:訓練集項目永遠不會包含在控制集中。
訓練集
模型會從檢閱集中隨機選取專案,並將其新增至定型集。 在訓練回合期間,除了控制集中的項目之外,還會向您顯示訓練集 (項目) 以便您可以將每個項目標記為「相關」或「不相關」。 此標記或「訓練」程序可協助模型學習如何預測檢閱中的哪些項目是相關或不相關的。 每次執行訓練回合時,模型都會從檢閱中選取更多項目,並將它們新增至該訓練回合的訓練集。 控制集中的項目永遠不會為訓練集選取。