電子檔探索搜尋結果中的重複數據刪除
提示
新的 Microsoft Purview 入口網站現已提供電子檔探索 (預覽) 。 若要深入瞭解如何使用新的電子檔探索體驗,請參閱 瞭解電子檔探索 (預覽) 。
本文說明重複數據刪除搜尋結果的運作方式,並說明重複資料刪除演算法的限制。
使用電子檔案探索工具匯出電子檔案探索搜尋的結果時,您可以選擇重複刪除匯出的結果。 這代表什麼意思? 當您默認啟用重複數據刪除 (時,) 不會啟用重複資料刪除,即使在搜尋的信箱中找到相同郵件的多個實例,仍只會匯出一個電子郵件訊息複本。 重複資料刪除可減少匯出搜尋結果之後必須檢閱和分析的項目數目,以協助您節省時間。 但請務必瞭解重複數據刪除的運作方式,並注意演算法有一些限制,可能會導致在匯出過程中將唯一專案標示為重複專案。
本文中的資訊適用於使用下列其中一個電子檔案探索工具匯出搜尋結果時:
- Microsoft Purview 合規性入口網站中的內容搜尋
- Exchange Online 中的就地 eDiscovery
- SharePoint Online 中的電子檔探索中心
提示
如果您不是 E5 客戶,請使用 90 天Microsoft Purview 解決方案試用版來探索其他 Purview 功能如何協助貴組織管理數據安全性與合規性需求。 立即從 Microsoft Purview 合規性入口網站試用中樞開始。 瞭解 有關註冊和試用版條款的詳細數據。
如何識別重複的訊息
電子檔案探索工具會使用下列電子郵件屬性的組合來判斷郵件是否重複:
- InternetMessageId - 這個屬性會指定電子郵件訊息的因特網訊息識別碼,這是參考特定訊息特定版本的全域唯一標識符。 此標識碼是由傳送郵件的寄件者電子郵件用戶端程式或主機電子郵件系統所產生。 如果人員將訊息傳送給多個收件者,則每個訊息實例的因特網訊息標識碼都相同。 原始訊息的後續修訂會收到不同的訊息標識碼。
- ConversationTopic - 這個屬性會指定訊息之交談線程的主旨。 ConversationTopic 屬性的值是描述交談整體文章的字串。 交談包含初始訊息,以及在回復初始訊息時傳送的所有訊息。 相同交談內的訊息具有相同的 ConversationTopic 屬性值。 這個屬性的值通常是來自產生交談之初始訊息的主旨行。
- BodyTagInfo - 這是內部 Exchange 存放區屬性。 這個屬性的值是藉由檢查訊息本文中的各種屬性來計算。 這個屬性可用來識別訊息本文中的差異。
在電子檔探索匯出程式期間,這三個屬性會針對符合搜尋準則的每個訊息進行比較。 如果兩個 (或多個) 訊息的這些屬性相同,則會判斷這些訊息是重複的,而結果是如果啟用重複數據刪除,則只會匯出一份訊息。 導出的訊息稱為「來源專案」。 重複訊息的相關信息會包含在 導 出的搜尋結果所包含的 Results.csv和Manifest.xml 報表中。 在 Results.csv 檔案中,藉由在 [複製 到專案 ] 資料行中具有值來識別重複的訊息。 此資料列中的值符合匯出之訊息之 [項目 識別] 資料行中的值。
下圖顯示如何在Results.csv中顯示重複的訊息 ,以及 Manifest.xml 與搜尋結果一起導出的報表。 這些報告不包含先前所述的電子郵件屬性,這些屬性會用於重複數據刪除演算法中。 相反地,報表會包含 Exchange 存放區指派給專案的 Item Identity 屬性。
在 Excel) 中檢視 Results.csv 報表 (
在 Excel) 中檢視 Manifest.xml 報表 (
此外,來自重複訊息的其他屬性也會包含在匯出報告中。 這包括複製郵件所在的信箱、郵件是否傳送至通訊群組,以及郵件是否為 Cc'd 或 Bcc'd 給另一位使用者。
重複資料刪除演算法的限制
重複資料刪除演算法有一些已知的限制,可能會導致唯一項目標示為重複專案。 請務必瞭解這些限制,以便您決定是否要使用選擇性的重複數據刪除功能。
有一種情況是重複資料刪除功能可能會錯誤地將訊息識別為重複的訊息,而不會將它匯出 (,但仍會在匯出報表中將其列為重複) 。 這些是使用者編輯但未傳送的訊息。 例如,假設使用者在 Outlook 中選取訊息、複製訊息的內容,然後將它貼到新的訊息中。 然後,用戶藉由移除或新增附件,或變更主旨行或本文本身,來變更其中一個複本。 如果這兩個訊息符合電子檔探索搜尋的查詢,如果匯出搜尋結果時啟用重複數據刪除,則只會匯出其中一個訊息。 因此,即使原始訊息或複製的訊息已變更,也不會傳送任何修訂的訊息,因此不會更新 InternetMessageId、 ConversationTopic 和 BodyTagInfo 屬性的值。 但如先前所述,這兩個訊息都會列在導出報告中
啟用 [寫入時複製] 頁面保護功能時,也可以將唯一訊息標示為重複專案,如同信箱處於訴訟保留或 In-Place 保留的情況一樣。 [寫入時複製] 功能會將原始訊息複製 (,並將它儲存在使用者 [可復原的專案] 資料夾的 [版本] 資料夾中,) 儲存原始專案的修訂之前。 在此情況下,[可復原的專案] 資料夾中 (修訂的複本和原始訊息) 可能會被視為重複的訊息,因此只會匯出其中一個訊息。
重要事項
如果重複資料刪除演算法的限制可能會影響搜尋結果的品質,則在匯出專案時不應啟用重複數據刪除。 如果本節所述的情況不太可能是搜尋結果的一個因素,而且您想要減少最有可能重複的項目數,則您應該考慮啟用重複數據刪除。
其他相關資訊
如需匯出搜尋結果的詳細資訊,請參閱: