預覽) (預測性編碼參考

本文說明進階) 中預測性編碼工具的重要概念和計量 Microsoft Purview 電子文件探索 (。 本文中的章節會依字母順序列出。

提示

如果您不是 E5 客戶,請使用 90 天的 Microsoft Purview 解決方案試用版來探索其他 Purview 功能如何協助貴組織管理數據安全性與合規性需求。 立即從 Microsoft Purview 合規性入口網站 試用中樞開始。 瞭解 有關註冊和試用版條款的詳細數據

信賴等級

信賴等級是建立預測性編碼模型時的進階設定。 它會定義模型的效能計量 (例如,豐富度、有效位數和召回率) 落在指定的範圍 (決定為模型定義的錯誤邊界) 代表模型指派給檢閱集中專案之預測分數的實際值。 信賴等級和錯誤邊界的值也有助於判斷控制項集中包含的項目數目。 信賴等級的預設值為 0.95% 或 95%。

控制集

控制集會在預測性編碼模型的定型程式期間使用。 控件集是用來評估模型指派給具有您在定型回合期間所執行標籤之專案的預測分數。 控件集的大小是根據檢閱集中的項目數目,以及建立模型時所設定之錯誤值的信賴等級和邊界。 控件集中的項目永遠不會變更,而且使用者無法識別。 控制組中的專案總數會顯示在定型回合的飛出視窗頁面上。

控件集混淆矩陣

完成訓練回合之後,模型會將預測分數指派給您在定型回合期間標記的控件集中的10個專案。 模型會比較這 10 個專案的預測分數與您在定型回合期間指派給專案的實際標籤。 根據這項比較,模型會識別下列分類,以評估模型的預測效能:



標籤 模型預測項目相關 模型預測專案不相關
檢閱者將項目標示為相關 確判為真 誤判
檢閱者將項目標記為不相關 誤判為負 True 負數

根據這些比較,模型會衍生 F 分數、有效位數和召回率計量的值,以及每個分數的錯誤邊界。 矩陣中每個混淆類型的數目會顯示在定型回合的飛出視窗頁面上。

F 分數

F 分數是精確度和回收度量分數的加權平均。 此計量的分數範圍是從 01。 分數接近 1 表示模型會更精確地偵測相關專案。 F 分數計量會顯示在模型儀錶板和每個訓練回合的飛出視窗頁面上。

錯誤邊界

當您建立預測性編碼模式時,錯誤邊界是進階設定。 它會指定效能度量的錯誤程度, (例如,從控件集中專案的隨機取樣衍生的豐富性、有效位數和回收) 。 較低的錯誤邊界需要較大的控制集,以確保模型的效能計量落在較小的範圍內。 錯誤邊界和信賴等級的值也有助於判斷控制項集中包含的項目數目。 錯誤邊界的預設值為 0.05% 或 5%。

模型穩定性

模型穩定性表示模型能夠精確預測檢閱集中的檔是否相關。 當模型不穩定時,可能需要執行更多定型回合,以包含模型的穩定性。 當模型穩定時,就不需要再執行任何定型回合。 模型儀錶板會指出模型穩定性的目前狀態。 當模型穩定時,效能計量已達到符合信賴等級和錯誤邊界設定的層級。

工資率

傳送率是檢閱集中預測分數在定型回合之間變更的專案百分比。 當工資率小於 5% 時,模型會被視為穩定。 在模型儀錶板和每個訓練回合的飛出視窗頁面上,都會顯示工資率計量。 第一個訓練回合的比率為零,因為沒有先前的預測分數可獲得回應。

精確度

精確度度量會測量模型預測相關項目之間相關專案的比例。 這表示控件集中的專案,其中標籤與檢閱者相關,並由模型預測為相關。 此計量的分數範圍是從 01。 接近 1 的分數表示模型會識別較少的非相關專案。 精確度量會顯示在模型儀錶板和每個訓練回合的飛出視窗頁面上。

預測分數

這是模型指派給檢閱集中每個檔的分數。 相較於模型從定型回合學習,分數是以文件的相關性為基礎。 一般而言,預測分數介於 00.5 之間的專案會被視為不相關,且預測分數介於 0.51 的專案會被視為相關。 預測分數包含在檔元數據欄位中。 您可以使用預測篩選來顯示位於指定預測範圍內之檢閱集中的專案。

記得

回收計量會測量模型預測的相關專案與相關專案的比例。 這表示模型預測之控件集中的相關專案也會被檢閱者標示為相關。 此計量的分數範圍是從 01。 接近 1 的分數表示模型會識別較大部分的相關專案。 召回計量會顯示在模型儀錶板和每個訓練回合的飛出視窗頁面上。

檢閱集

檢閱集提供預測性編碼模型的範圍。 當您建立檢閱集的新模型時,會從檢閱集選取控件集和定型集的專案。 當模型指派預測分數時,它會將檢閱中的專案指派給這些分數。 您必須先將所有專案新增至檢閱集,才能建立預測性編碼模型。 如果您在建立模型之後新增專案,這些專案將不會被指派預測分數。

豐富

豐富度計量會測量模型預測為相關的檢閱集專案百分比。 此計量的分數範圍是從 01。 豐富度計量會顯示在模型儀錶板上。

取樣的專案

取樣專案 」一詞是檢閱集 (中隨機取樣項目的參考,其中包含當您建立預測性編碼模型時所選取的文字) ,並與控件集相關聯。 也會針對每個定型回合選取隨機的專案範例。 針對模型的控件集選取的項目永遠不會包含在該相同模型的定型集中。 反之亦然:定型集項目永遠不會包含在控制組中。

訓練集

模型會從檢閱集隨機選取專案,並將其新增至定型集。 在定型回合期間,除了控件集) 的專案之外,訓練集的專案 (,讓您可以將每個項目標示為「相關」或「不相關」。 此標籤或「定型」程式可協助模型瞭解如何預測檢閱中的哪些項目相關或不相關。 每次執行訓練回合時,模型都會從檢閱中選取更多專案,並將它們新增至該訓練回合的訓練集。 從未針對定型集選取來自控件集的專案。