eDiscovery 검색 결과의 중복 제거

이 문서에서는 eDiscovery 검색 결과의 중복 제거가 작동하는 방식을 설명하고 중복 제거 알고리즘의 제한 사항을 설명합니다.

eDiscovery 도구를 사용하여 eDiscovery 검색 결과를 내보낼 때 내보낸 결과를 중복 제거하는 옵션이 있습니다. 어떤 의미가 있나요? 중복 제거를 사용하도록 설정하면(기본적으로 중복 제거를 사용하도록 설정되지 않음) 동일한 메시지의 여러 인스턴스가 검색된 사서함에서 발견되었더라도 전자 메일 메시지의 복사본 하나만 내보내집니다. 중복 제거를 사용하면 검색 결과를 내보낸 후 검토하고 분석해야 하는 항목 수를 줄여 시간을 절약할 수 있습니다. 그러나 중복 제거의 작동 방식을 이해하고 내보내기 프로세스 중에 고유한 항목이 중복으로 표시될 수 있는 알고리즘에 제한이 있다는 점에 유의해야 합니다.

이 문서의 정보는 다음 eDiscovery 도구 중 하나를 사용하여 검색 결과를 내보낼 때 적용됩니다.

E5 고객이 아닌 경우 90일 Microsoft Purview 솔루션 평가판을 사용하여 조직이 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 도움이 되는 추가 Purview 기능을 살펴보세요. Microsoft Purview 규정 준수 포털 평가판 허브에서 지금 시작하세요. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.

중복 메시지를 식별하는 방법

eDiscovery 도구는 다음 전자 메일 속성의 조합을 사용하여 메시지가 중복인지 여부를 확인합니다.

  • InternetMessageId - 이 속성은 특정 메시지의 특정 버전을 참조하는 전역적으로 고유한 식별자인 전자 메일 메시지의 인터넷 메시지 식별자를 지정합니다. 이 ID는 메시지를 보내는 보낸 사람의 이메일 클라이언트 프로그램 또는 호스트 전자 메일 시스템에 의해 생성됩니다. 사용자가 둘 이상의 받는 사람에게 메시지를 보내는 경우 인터넷 메시지 ID는 메시지의 각 instance 동일합니다. 원본 메시지에 대한 후속 수정 버전은 다른 메시지 식별자를 받습니다.
  • ConversationTopic - 이 속성은 메시지의 대화 스레드 제목을 지정합니다. ConversationTopic 속성의 값은 대화의 전체 문서를 설명하는 문자열입니다. 대화는 초기 메시지와 초기 메시지에 대한 회신으로 전송된 모든 메시지로 구성됩니다. 동일한 대화 내의 메시지는 ConversationTopic 속성에 대해 동일한 값을 갖습니다. 이 속성의 값은 일반적으로 대화를 생성한 초기 메시지의 제목 줄입니다.
  • BodyTagInfo - 내부 Exchange 저장소 속성입니다. 이 속성의 값은 메시지 본문의 다양한 특성을 확인하여 계산됩니다. 이 속성은 메시지 본문의 차이점을 식별하는 데 사용됩니다.

eDiscovery 내보내기 프로세스 중에 이러한 세 가지 속성은 검색 조건과 일치하는 모든 메시지에 대해 비교됩니다. 이러한 속성이 두 개 이상의 메시지에 대해 동일한 경우 해당 메시지는 중복된 것으로 확인되고 중복 제거를 사용하도록 설정된 경우 메시지 복사본 하나만 내보내집니다. 내보낸 메시지를 "원본 항목"으로 알려져 있습니다. 중복 메시지에 대한 정보는 보낸 검색 결과에 포함된 Results.csv및Manifest.xml 보고서에 포함됩니다. Results.csv 파일에서 항목에 중복 열에 값이 있으면 중복 메시지가 식별됩니다. 이 열의 값은 내보낸 메시지에 대한 항목 ID 열의 값과 일치합니다.

다음 그래픽에서는 검색 결과와 함께 내보낸 Results.csvManifest.xml 보고서에 중복 메시지가 표시되는 방법을 보여 줍니다. 이러한 보고서에는 중복 제거 알고리즘에 사용되는 이전에 설명한 이메일 속성이 포함되지 않습니다. 대신 보고서에는 Exchange 저장소에서 항목에 할당된 항목 ID 속성이 포함됩니다.

Results.csv 보고서(Excel에서 보기)

Results.csv 보고서에서 중복 항목에 대한 정보 보기

Manifest.xml 보고서(Excel에서 보기)

Manifest.xml 보고서에서 중복 항목에 대한 정보 보기

또한 중복 메시지의 다른 속성은 내보내기 보고서에 포함됩니다. 여기에는 중복 메시지가 있는 사서함, 메시지가 메일 그룹으로 전송되었는지 여부, 메시지가 다른 사용자에게 Cc'd 또는 숨은 참조인지 여부가 포함됩니다.

중복 제거 알고리즘의 제한 사항

중복 제거 알고리즘에는 고유한 항목이 중복으로 표시될 수 있는 몇 가지 알려진 제한 사항이 있습니다. 선택적 중복 제거 기능을 사용할지 여부를 결정할 수 있도록 이러한 제한 사항을 이해하는 것이 중요합니다.

중복 제거 기능이 실수로 메시지를 중복으로 식별하고 내보내지 않을 수 있는 한 가지 상황이 있습니다(하지만 여전히 내보내기 보고서에서 중복으로 인용). 사용자가 편집하지만 보내지 않는 메시지입니다. 예를 들어 사용자가 Outlook에서 메시지를 선택하고 메시지 내용을 복사한 다음 새 메시지에 붙여넣는다고 가정해 보겠습니다. 그런 다음, 사용자는 첨부 파일을 제거하거나 추가하거나 제목 줄 또는 본문 자체를 변경하여 복사본 중 하나를 변경합니다. 이 두 메시지가 eDiscovery 검색의 쿼리와 일치하는 경우 검색 결과를 내보낼 때 중복 제거를 사용하는 경우 메시지 중 하나만 내보내집니다. 따라서 원본 메시지 또는 복사된 메시지가 변경되었더라도 수정된 메시지 중 어느 것도 전송되지 않았으므로 InternetMessageId, ConversationTopicBodyTagInfo 속성의 값이 업데이트되지 않았습니다. 그러나 앞에서 설명한 것처럼 두 메시지는 모두 내보내기 보고서에 나열됩니다.

소송 보존 또는 보류를 In-Place 사서함의 경우와 같이 쓰기 시 복사 페이지 보호 기능을 사용할 때 고유 메시지를 중복으로 표시할 수도 있습니다. 쓰기 복사 기능은 원래 항목의 수정 버전을 저장하기 전에 원본 메시지를 복사하고 사용자의 복구 가능한 항목 폴더의 Versions 폴더에 저장합니다. 이 경우 수정된 복사본과 원본 메시지(복구 가능한 항목 폴더)는 중복 메시지로 간주될 수 있으므로 그 중 하나만 내보냅니다.

중요

중복 제거 알고리즘의 제한 사항이 검색 결과의 품질에 영향을 줄 수 있는 경우 항목을 내보낼 때 중복 제거를 사용하도록 설정해서는 안 됩니다. 이 섹션에 설명된 상황이 검색 결과의 요인이 될 가능성이 낮고 중복될 가능성이 가장 높은 항목 수를 줄이려면 중복 제거를 사용하도록 설정하는 것이 좋습니다.

추가 정보

검색 결과를 내보내는 방법에 대한 자세한 내용은 다음을 참조하세요.