eDiscovery에서 부분적으로 인덱싱된 항목 조사

Microsoft Purview 규정 준수 포털 실행하는 eDiscovery 검색에는 검색을 실행할 때 예상 검색 결과에 부분적으로 인덱싱된 항목이 자동으로 포함됩니다. 부분적으로 인덱싱된 항목은 SharePoint 및 비즈니스용 OneDrive 사이트의 Exchange 사서함 항목 및 문서로, 어떤 이유로 검색을 위해 완전히 인덱싱되지 않았습니다. 대부분의 전자 메일 메시지 및 사이트 문서는 전자 메일 메시지의 인덱싱 제한에 속하기 때문에 성공적으로 인덱싱됩니다. 그러나 일부 항목은 이러한 인덱싱 제한을 초과할 수 있으며 부분적으로 인덱싱됩니다. 다음은 검색을 위해 항목을 인덱싱할 수 없고 eDiscovery 검색을 실행할 때 부분적으로 인덱싱된 항목으로 반환되는 다른 이유입니다.

  • Email 메시지에는 열 수 없는 첨부 파일이 있습니다. 이는 부분적으로 인덱싱된 전자 메일 항목의 가장 일반적인 원인입니다.
  • 전자 메일 메시지에 첨부된 파일이 너무 많습니다.
  • 전자 메일 메시지에 첨부된 파일이 너무 큽합니다.
  • 파일 형식 인덱싱은 지원되지만 특정 파일에 대해 인덱싱 오류가 발생했습니다.

다양하지만 대부분의 조직 고객은 볼륨별 콘텐츠의 1% 미만과 부분적으로 인덱싱된 크기별 콘텐츠의 12% 미만을 가지고 있습니다. 볼륨과 크기가 다른 이유는 큰 파일이 완전히 인덱싱할 수 없는 콘텐츠를 포함할 확률이 높기 때문입니다.

콘텐츠 검색의 부분 인덱스 항목에 대한 자세한 내용은 콘텐츠 검색에서 부분적으로 인덱싱된 항목 조사를 참조하세요.

E5 고객이 아닌 경우 Microsoft Purview의 모든 프리미엄 기능을 무료로 사용해 볼 수 있습니다. 90일 Purview 솔루션 평가판을 사용하여 강력한 Purview 기능이 조직에서 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 어떻게 도움이 되는지 살펴봅니다. 이제 Microsoft Purview 규정 준수 포털 평가판 허브에서 시작합니다. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.

eDiscovery 검색을 실행한 후 검색된 위치에서 부분적으로 인덱싱된 항목의 총 수와 크기는 검색에 대한 자세한 통계에 표시되는 검색 결과 통계에 나열됩니다. 이러한 항목을 검색 통계에서 인덱스되지 않은 항목 이라고 합니다. 다음은 검색 결과에 반환되는 부분적으로 인덱싱된 항목의 수에 영향을 주는 몇 가지 사항입니다.

  • 항목이 부분적으로 인덱싱되고 검색 쿼리와 일치하는 경우 검색 결과 항목의 개수(및 크기)와 부분적으로 인덱싱된 항목 모두에 포함됩니다. 그러나 동일한 검색 결과를 내보낼 때 항목은 검색 결과 집합에만 포함됩니다. 부분적으로 인덱싱된 항목으로 포함되지 않습니다.
  • SharePoint 및 OneDrive 사이트에 있는 부분적으로 인덱싱된 항목 검색에 대한 자세한 통계에 표시되는 부분적으로 인덱싱된 항목의 추정치에 포함되지 않습니다. 그러나 eDiscovery 검색 결과를 내보낼 때 부분적으로 인덱싱된 항목을 내보낼 수 있습니다. 예를 들어 사이트를 검색하는 경우 부분적으로 인덱싱된 예상 항목 수는 0이 됩니다.

조직에서 부분적으로 인덱싱된 항목의 비율 계산

부분적으로 인덱싱된 항목에 대한 조직의 노출을 이해하려면 빈 키워드 쿼리를 사용하여 모든 사서함의 모든 콘텐츠에 대한 검색을 실행할 수 있습니다. 다음 예제에서는 1,629,904(146.46GB) 완전 인덱싱된 항목과 부분적으로 인덱싱된 항목 10,025개(10.27GB)가 있습니다.

부분적으로 인덱싱된 항목을 보여 주는 검색 통계의 예입니다.

다음 계산을 사용하여 부분적으로 인덱싱된 항목의 백분율을 확인할 수 있습니다.

조직에서 부분적으로 인덱싱된 항목의 비율을 계산하려면 다음을 수행합니다.

(Total number of partially indexed items/Total number of items) x 100

(10025/1629904) x 100 = 0.62%

이전 예제의 검색 결과를 사용하면 모든 사서함 항목의 0.62%가 부분적으로 인덱싱됩니다.

조직에서 부분적으로 인덱싱된 항목의 크기 백분율을 계산하려면 다음을 수행합니다.

(Size of all partially indexed items/Size of all items) x 100

(10.27 GB/146.46 GB) x 100 = 7.0%

따라서 이전 예제에서는 사서함 항목의 총 크기 중 7%가 부분적으로 인덱싱된 항목에서 나온 것입니다. 앞서 언급했듯이 대부분의 조직 고객은 볼륨별 콘텐츠의 1% 미만과 부분적으로 인덱싱된 크기별 콘텐츠의 12% 미만을 가지고 있습니다.

부분적으로 인덱싱된 항목 작업

부분적으로 인덱싱된 항목을 검사하여 관련 정보가 없는지 확인해야 하는 경우 부분적으로 인덱싱된 항목에 대한 정보가 포함된 콘텐츠 검색 보고서를 내보낼 수 있습니다. 콘텐츠 검색 보고서를 내보낼 때 부분적으로 인덱싱된 항목을 포함하는 내보내기 옵션 중 하나를 선택해야 합니다.

부분적으로 인덱싱된 항목을 내보내려면 두 번째 또는 세 번째 옵션을 선택합니다.

이러한 옵션 중 하나를 사용하여 eDiscovery 검색 결과 또는 검색 보고서를 내보낼 때 내보내기에는 unindexed Items.csv 보고서가 포함됩니다. 이 보고서에는 ResultsLog.csv 파일과 동일한 정보가 대부분 포함됩니다. 그러나 인덱싱되지 않은 Items.csv 파일에는 부분적으로 인덱싱된 항목과 관련된 두 개의 필드인 오류 태그오류 속성도 포함됩니다. 이러한 필드에는 부분적으로 인덱싱된 각 항목의 인덱싱 오류에 대한 정보가 포함됩니다. 이러한 두 필드의 정보를 사용하면 특정 인덱싱 오류가 조사에 영향을 미치는지 여부를 확인하는 데 도움이 될 수 있습니다.

참고

인덱스되지 않은 Items.csv 파일에는 오류 유형오류 메시지라는 필드도 포함되어 있습니다. 오류 태그오류 속성 필드의 정보와 비슷하지만 세부 정보가 적은 정보를 포함하는 레거시 필드입니다. 이러한 레거시 필드를 무시해도 됩니다.

오류 태그는 오류와 파일 형식의 두 가지 정보로 구성됩니다. 예를 들어 이 오류/파일 형식 쌍에서는 다음을 수행합니다.

 parseroutputsize_xls

parseroutputsize 는 오류이며 xls 오류가 발생한 파일의 파일 형식입니다. 파일 형식이 인식되지 않았거나 파일 형식이 오류에 적용되지 않은 경우 파일 형식 대신 값 noformat 이 표시됩니다.

다음은 인덱싱 오류 목록과 오류의 가능한 원인에 대한 설명입니다.

오류 태그 설명
attachmentcount
전자 메일 메시지에 첨부 파일이 너무 많았고 이러한 첨부 파일 중 일부는 처리되지 않았습니다.
attachmentdepth
콘텐츠 검색기 및 문서 파서에서 다른 첨부 파일 내에 중첩된 첨부 파일이 너무 많은 것을 발견했습니다. 이러한 첨부 파일 중 일부는 처리되지 않았습니다.
attachmentrms
첨부 파일이 RMS로 보호되었기 때문에 디코딩에 실패했습니다.
attachmentsize
전자 메일 메시지에 첨부된 파일이 너무 커서 처리할 수 없습니다.
indexingtruncated
처리된 전자 메일 메시지를 인덱스로 쓸 때 인덱싱 가능한 속성 중 하나가 너무 커서 잘렸습니다. 잘린 속성은 오류 속성 필드에 나열됩니다.
invalidunicode
전자 메일 메시지에 유효한 유니코드로 처리할 수 없는 텍스트가 포함되어 있습니다. 이 항목에 대한 인덱싱이 불완전할 수 있습니다.
parserencrypted
첨부 파일 또는 전자 메일 메시지의 콘텐츠가 암호화되고 Microsoft 365에서 콘텐츠를 디코딩할 수 없습니다.
parsererror
구문 분석 중에 알 수 없는 오류가 발생했습니다. 일반적으로 소프트웨어 버그 또는 서비스 크래시로 인해 발생합니다.
parserinputsize
첨부 파일이 너무 커서 파서가 처리할 수 없었고 해당 첨부 파일의 구문 분석이 수행되지 않았거나 완료되지 않았습니다.
parsermalformed
첨부 파일의 형식이 잘못되었으며 파서에서 처리할 수 없습니다. 이 결과는 이전 파일 형식, 호환되지 않는 소프트웨어에서 만든 파일 또는 클레임 이외의 것으로 가장하는 바이러스 때문일 수 있습니다.
parseroutputsize
첨부 파일 구문 분석의 출력이 너무 커서 잘림해야 했습니다.
parserunknowntype
첨부 파일에는 Microsoft 365에서 검색할 수 없는 파일 형식이 있습니다.
parserunsupportedtype
첨부 파일에는 Office 365 검색할 수 있는 파일 형식이 있지만 해당 파일 형식을 구문 분석하는 것은 지원되지 않습니다.
propertytoobig
Exchange Store의 전자 메일 속성 값이 너무 커서 검색할 수 없으며 메시지를 처리할 수 없습니다. 일반적으로 전자 메일 메시지의 본문 속성에만 발생합니다.
retrieverrms
콘텐츠 검색기가 RMS로 보호되는 메시지를 디코딩하지 못했습니다.
wordbreakertruncated
인덱싱하는 동안 문서에서 너무 많은 단어가 식별되었습니다. 제한에 도달하면 속성 처리가 중지되고 속성이 잘립니다.

오류 필드는 오류 태그 필드에 나열된 처리 오류의 영향을 받는 필드를 설명합니다. 또는 participants와 같은 subject 속성을 검색하는 경우 메시지 본문의 오류는 검색 결과에 영향을 주지 않습니다. 이는 추가로 조사해야 할 부분 인덱싱된 항목을 정확히 결정할 때 유용할 수 있습니다.