콘텐츠 검색에서 부분적으로 인덱싱된 항목
팁
eDiscovery(미리 보기)는 이제 새 Microsoft Purview 포털에서 사용할 수 있습니다. 새 eDiscovery 환경을 사용하는 방법에 대한 자세한 내용은 eDiscovery에 대한 자세한 정보(미리 보기)를 참조하세요.
Microsoft Purview 규정 준수 포털에서 실행하는 콘텐츠 검색에는 검색을 실행할 때 예상 검색 결과에 부분적으로 인덱싱된 항목이 자동으로 포함됩니다. 부분적으로 인덱싱된 항목은 어떤 이유로 검색을 위해 완전히 인덱싱되지 않은 SharePoint 및 비즈니스용 OneDrive 사이트의 Exchange 사서함 항목 및 문서입니다. Exchange에서 부분적으로 인덱싱된 항목에는 일반적으로 전자 메일 메시지에 첨부된 파일(인덱싱할 수 없는 파일 형식)이 포함됩니다. 다음은 항목을 검색을 위해 인덱싱할 수 없고 eDiscovery 검색을 실행할 때 부분적으로 인덱싱된 항목으로 반환되는 몇 가지 다른 이유입니다.
- 파일 형식을 인식할 수 없거나 인덱싱이 지원되지 않습니다.
- 메시지에는 열 수 없는 첨부 파일이 있습니다. 이는 부분적으로 인덱싱된 전자 메일 항목의 가장 일반적인 원인입니다.
- 파일 형식 인덱싱은 지원되지만 특정 파일에 대해 인덱싱 오류가 발생했습니다.
- 전자 메일 메시지에 첨부된 파일이 너무 많습니다.
- 전자 메일 메시지에 첨부된 파일이 너무 큽합니다.
- 타사 기술을 사용하여 파일이 암호화되어 있습니다.
- 파일이 암호로 보호되어 있습니다.
참고
대부분의 조직에는 볼륨별 콘텐츠의 1% 미만과 부분적으로 인덱싱된 크기별 12% 미만이 있습니다. 볼륨과 크기가 다른 이유는 큰 파일이 완전히 인덱싱할 수 없는 콘텐츠를 포함할 확률이 높기 때문입니다.
법적 조사의 경우 조직에서 부분적으로 인덱싱된 항목을 검토해야 할 수 있습니다. 검색 결과를 로컬 컴퓨터로 내보낼 때 또는 eDiscovery(프리미엄)를 사용하여 분석을 위해 결과를 준비할 때 부분적으로 인덱싱된 항목을 포함할지 여부를 지정할 수도 있습니다. 자세한 내용은 eDiscovery에서 부분적으로 인덱싱된 항목 조사를 참조하세요.
팁
E5 고객이 아닌 경우 90일 Microsoft Purview 솔루션 평가판을 사용하여 조직이 데이터 보안 및 규정 준수 요구 사항을 관리하는 데 도움이 되는 추가 Purview 기능을 살펴보세요. Microsoft Purview 규정 준수 포털 평가판 허브에서 지금 시작하세요. 등록 및 평가판 조건에 대한 세부 정보를 알아봅니다.
검색을 위해 인덱싱되지 않은 파일 형식
비트맵(.bmp) 또는 MP3(.mp3) 파일과 같은 특정 형식의 파일에는 인덱싱할 수 있는 콘텐츠가 포함되지 않습니다. 따라서 Exchange 및 SharePoint의 검색 인덱싱 서버는 이러한 형식의 파일에 대해 전체 텍스트 인덱싱을 수행하지 않습니다. 이러한 형식의 파일은 지원되지 않는 파일 형식으로 간주됩니다. 기본적으로 또는 관리자에 의해 전체 텍스트 인덱싱이 사용하지 않도록 설정된 파일 형식도 있습니다. 지원되지 않는 파일 형식과 비활성화된 파일 형식은 콘텐츠 검색에서 인덱스되지 않은 항목으로 레이블이 지정됩니다. 앞서 설명한 것처럼 검색을 실행하거나, 검색 결과를 로컬 컴퓨터로 내보내거나, eDiscovery(프리미엄)에 대한 검색 결과를 준비할 때 부분적으로 인덱싱된 항목을 검색 결과 집합에 포함할 수 있습니다.
지원되는 파일 형식 및 비활성화된 파일 형식 목록은 다음 문서를 참조하세요.
- 교환 - Exchange Search에서 인덱싱된 파일 형식
- 교환 - Get-SearchDocumentFormat
- SharePoint - SharePoint의 기본 크롤링 파일 이름 확장명 및 구문 분석된 파일 형식
부분적으로 인덱싱된 파일 형식의 메시지 및 문서는 검색 결과에서 반환될 수 있습니다.
부분적으로 인덱싱된 파일 첨부 파일이 있거나 부분적으로 인덱싱된 모든 SharePoint 문서가 있는 모든 전자 메일 메시지가 부분적으로 인덱싱된 항목으로 자동으로 반환되는 것은 아닙니다. 전자 메일 메시지의 Subject 속성과 문서의 제목 또는 작성자 속성과 같은 다른 메시지 또는 문서 속성이 인덱싱되어 검색할 수 있기 때문입니다. 예를 들어 "재무"에 대한 키워드 검색은 해당 키워드가 전자 메일 메시지의 제목이나 문서 이름 또는 제목에 표시되는 경우 부분적으로 인덱싱된 파일 첨부 파일이 있는 항목을 반환합니다. 그러나 키워드가 파일 본문에만 표시되는 경우 메시지 또는 문서는 부분적으로 인덱싱된 항목으로 반환됩니다.
마찬가지로 부분적으로 인덱싱된 파일 첨부 파일 및 부분적으로 인덱싱된 파일 형식의 문서가 있는 메시지는 인덱싱되고 검색 가능한 다른 메시지 또는 문서 속성이 검색 조건과 일치할 때 검색 결과에 포함됩니다. 검색을 위해 인덱싱되는 메시지 속성에는 보낸 날짜와 받은 날짜, 보낸 사람과 받은 사람, 첨부 파일의 이름, 메시지 본문의 텍스트 등이 있습니다. 검색을 위해 인덱싱된 문서 속성에는 만든 날짜와 수정된 날짜가 포함됩니다. 따라서 메시지 첨부 파일이 부분적으로 인덱싱된 항목일 수 있지만 다른 메시지 또는 문서 속성 값이 검색 조건과 일치하는 경우 메시지는 일반 검색 결과에 포함됩니다.
규정 준수 포털에서 eDiscovery 도구를 사용하여 검색할 수 있는 전자 메일 및 문서 속성 목록은 eDiscovery에 대한 키워드 쿼리 및 검색 조건을 참조하세요.
참고
인덱싱되지 않은 폴더로 인덱싱된 폴더에서 사서함 항목이 이동되면 플래그가 항목의 유니덱스로 설정되고 항목이 인덱스에서 제거되고 검색할 수 없습니다. 나중에 동일한 항목이 인덱싱된 폴더로 다시 이동되면 플래그가 다시 설정되지 않습니다. 즉, 항목은 인덱스되지 않은 상태로 유지되며 검색할 수 없습니다.
검색 결과에 포함된 부분적으로 인덱싱된 항목
조직에서는 부분적으로 인덱싱된 항목에 대한 추가 분석을 식별하고 수행하여 항목이 무엇인지, 포함된 항목과 특정 조사와 관련이 있는지를 확인해야 할 수 있습니다. 앞서 설명한 것처럼 검색되는 콘텐츠 위치의 부분적으로 인덱싱된 항목은 예상 검색 결과에 자동으로 포함됩니다. 검색 결과를 내보내거나 eDiscovery(프리미엄)에 대한 검색 결과를 준비할 때 이러한 부분적으로 인덱싱된 항목을 포함할 수 있습니다.
부분적으로 인덱싱된 항목에 대해 다음 사항에 유의하세요.
eDiscovery 검색을 실행하면 부분적으로 인덱싱된 Exchange 항목의 총 수와 크기(검색 쿼리에서 반환됨)가 플라이아웃 페이지의 검색 통계에 표시되고 인덱싱되지 않은 항목으로 레이블이 지정됩니다. 플라이아웃 페이지에 표시되는 부분적으로 인덱싱된 항목에 대한 통계에는 SharePoint 사이트 또는 OneDrive 계정에 부분적으로 인덱싱된 항목이 포함되지 않습니다.
결과를 내보내는 검색이 조직의 특정 콘텐츠 위치 또는 모든 콘텐츠 위치를 검색한 경우 검색 조건과 일치하는 항목이 포함된 콘텐츠 위치의 인덱싱되지 않은 항목만 내보내집니다. In other words, if no search results are found in a mailbox or site, then any unindexed items in that mailbox or site won't be exported. 그 이유는 조직의 여러 위치에서 부분적으로 인덱싱된 항목을 내보내면 내보내기 오류가 발생할 가능성이 높아지고 검색 결과를 내보내고 다운로드하는 데 걸리는 시간이 늘어나기 때문입니다.
검색을 위해 모든 콘텐츠 위치에서 부분적으로 인덱싱된 항목을 내보내려면 검색 쿼리에서 키워드를 제거하여 모든 항목을 반환하도록 검색을 구성한 다음 검색 결과를 내보낼 때 부분적으로 인덱싱된 항목만 내보냅니다(인식할 수 없는 형식의 항목만 선택하거나 암호화되거나 출력 옵션에서 다른 이유로 인덱싱되지 않음).
검색 결과에 모든 사서함 항목을 포함하도록 선택하거나 검색 쿼리에서 키워드를 지정하지 않거나 날짜 범위만 지정하는 경우 부분적으로 인덱싱된 항목이 부분적으로 인덱싱된 항목이 포함된 PST 파일에 복사되지 않을 수 있습니다. 부분적으로 인덱싱된 항목을 포함한 모든 항목이 일반 검색 결과에 자동으로 포함되기 때문입니다.
부분적으로 인덱싱된 항목은 미리 볼 수 없습니다. 검색에서 반환된 부분적으로 인덱싱된 항목을 보려면 검색 결과를 내보내야 합니다.
또한 검색 결과를 내보내고 내보내기에서 부분적으로 인덱싱된 항목을 포함하면 SharePoint 항목의 부분적으로 인덱싱된 항목이 크롤링 불가능 폴더로 내보내집니다. 부분적으로 인덱싱된 Exchange 항목을 내보낼 때 부분적으로 인덱싱된 항목이 검색 쿼리 및 내보내기 설정의 구성과 일치하는지여부에 따라 다르게 내보냅니다.
다음 표에서는 인덱싱된 항목과 부분적으로 인덱싱된 항목의 내보내기 동작 및 각 항목이 서로 다른 내보내기 구성 설정에 포함되는지 여부를 보여 있습니다.
내보내기 구성 검색 쿼리와 일치하는 인덱싱된 항목 검색 쿼리와 일치하는 부분적으로 인덱싱된 항목 검색 쿼리와 일치하지 않는 부분적으로 인덱싱된 항목 인덱싱된 항목만 내보내기 내보낸 내보낸 항목(내보낸 인덱싱된 항목에 포함) 내보내지 않음 부분적으로 인덱싱된 항목만 내보내기 내보내지 않음 내보낸 항목(부분적으로 인덱싱된 항목으로) 내보낸 항목(부분적으로 인덱싱된 항목으로) 인덱싱된 항목 및 부분적으로 인덱싱된 항목 내보내기 내보낸 내보낸 항목(내보낸 인덱싱된 항목에 포함) 내보낸 항목(부분적으로 인덱싱된 항목으로)
날짜 범위 및 부분적으로 인덱싱된 항목 제외
콘텐츠 검색 및 Microsoft Purview eDiscovery에서는 날짜 범위를 사용하여 부분적으로 인덱싱된 항목이 검색 쿼리에서 반환되지 않도록 제외할 수 없습니다. 즉, 날짜 범위를 벗어나는 부분적으로 인덱싱된 항목은 여전히 검색 통계 및 부분적으로 인덱싱된 항목을 내보낼 때 부분적으로 인덱싱된 항목으로 포함됩니다. eDiscovery(프리미엄)에서는 부분적으로 인덱싱된 항목을 수집한 다음 내보내기 전에 검토 집합에서 필터링할 수 있습니다.
메시지에 대한 인덱싱 제한
다음 표에서는 전자 메일 메시지가 Microsoft 365의 eDiscovery 검색에서 부분적으로 인덱싱된 항목으로 반환될 수 있는 인덱싱 제한에 대해 설명합니다.
SharePoint 문서에 대한 인덱싱 제한 목록은 SharePoint Online에 대한 검색 제한을 참조하세요.
인덱싱 제한 | 참고 | 설명 |
---|---|---|
최대 첨부 파일 크기(Excel 파일 제외) |
150MB |
인덱싱을 위해 구문 분석할 전자 메일 첨부 파일의 최대 크기입니다. 이 제한보다 큰 첨부 파일은 인덱싱을 위해 구문 분석되지 않으며 첨부 파일이 있는 메시지는 부분적으로 인덱싱된 것으로 표시됩니다. 메모: 구문 분석은 인덱싱 서비스가 첨부 파일에서 텍스트를 추출하고, 문장 부호 및 공백과 같은 불필요한 문자를 제거한 다음, 텍스트를 단어(토큰화라는 프로세스)로 나눈 다음 인덱스에 저장되는 프로세스입니다. |
Excel 파일의 최대 크기 |
4MB |
사이트에 있거나 인덱싱을 위해 구문 분석될 전자 메일 메시지에 첨부된 Excel 파일의 최대 크기입니다. 이 제한보다 큰 Excel 파일은 구문 분석되지 않으며 첨부 파일이 있는 파일 또는 전자 메일은 인덱스되지 않은 것으로 표시됩니다. |
최대 첨부 파일 수 |
250 |
인덱싱을 위해 구문 분석할 전자 메일 메시지에 연결된 최대 파일 수입니다. 메시지에 250개 이상의 첨부 파일이 있는 경우 처음 250개의 첨부 파일이 구문 분석되고 인덱싱되며 구문 분석되지 않은 추가 첨부 파일이 있으므로 메시지가 부분적으로 인덱싱된 것으로 표시됩니다. |
최대 첨부 파일 깊이 |
30 |
구문 분석되는 중첩된 첨부 파일의 최대 수입니다. 예를 들어 전자 메일 메시지에 다른 메시지가 첨부되어 있고 첨부된 메시지에 Word 문서가 첨부된 경우 Word 문서와 첨부된 메시지가 인덱싱됩니다. 이 동작은 최대 30개의 중첩된 첨부 파일에 대해 계속됩니다. |
연결된 이미지의 최대 수 |
0 |
전자 메일 메시지에 첨부된 이미지는 파서에서 건너뛰고 인덱싱되지 않습니다. |
항목을 구문 분석하는 데 소요된 최대 시간 |
30초 |
인덱싱을 위해 항목을 구문 분석하는 데 최대 30초가 소요됩니다. 구문 분석 시간이 30초를 초과하면 항목이 부분적으로 인덱싱된 것으로 표시됩니다. |
최대 파서 출력 |
200만 자 |
인덱싱된 파서의 최대 텍스트 출력 양입니다. 예를 들어 파서가 문서에서 800만 문자를 추출한 경우 처음 2백만 문자만 인덱싱됩니다. |
최대 주석 토큰 |
2백만 |
전자 메일 메시지가 인덱싱되면 각 단어에 해당 단어를 인덱싱하는 방법을 지정하는 다양한 처리 지침에 주석이 추가됩니다. 각 처리 지침 집합을 주석 토큰이라고 합니다. Office 365에서 서비스 품질을 유지하기 위해 전자 메일 메시지에 대한 주석 토큰은 2백만 개로 제한됩니다. |
인덱스 최대 본문 크기 |
6,700만 문자 |
전자 메일 메시지 본문 및 모든 첨부 파일의 총 문자 수입니다. 전자 메일 메시지가 인덱싱되면 메시지 본문과 모든 첨부 파일의 모든 텍스트가 단일 문자열로 연결됩니다. 인덱싱되는 이 문자열의 최대 크기는 6,700만 자입니다. |
본문의 최대 고유 토큰 |
1,000,000 |
앞에서 설명한 것처럼 토큰은 콘텐츠에서 텍스트를 추출하고 문장 부호와 공백을 제거한 다음 인덱스에 저장된 단어(토큰이라고 함)로 나눈 결과입니다. 예를 들어 구 "cat, mouse, bird, dog, dog" 에는 5개의 토큰이 포함됩니다. 그러나 이 중 4개만 고유한 토큰입니다. 이메일 메시지당 고유 토큰은 100만 개로 제한되며, 이를 통해 인덱스가 임의 토큰으로 너무 커지는 것을 방지할 수 있습니다. |
부분적으로 인덱싱된 항목에 대한 자세한 정보
- 앞에서 설명한 것처럼 메시지 및 문서 속성과 해당 메타데이터가 인덱싱되므로 키워드가 인덱싱된 메타데이터에 표시되는 경우 키워드 검색이 결과를 반환할 수 있습니다. 그러나 키워드가 지원되지 않는 파일 형식의 항목 콘텐츠에만 표시되는 경우 동일한 키워드 검색이 동일한 항목을 반환하지 않을 수 있습니다. 이 경우 항목은 부분적으로 인덱싱된 항목으로 반환됩니다.
- 부분적으로 인덱싱된 항목이 검색 쿼리 조건과 일치하여 검색 결과에 포함된 경우 검색 결과를 내보낼 때 부분적으로 인덱싱된 항목에는 포함되지 않습니다.
- 파일 형식은 인덱싱에 지원되며 인덱싱되지만 인덱싱 또는 검색 오류가 있을 수 있습니다. 그러면 파일이 부분적으로 인덱싱된 항목으로 반환됩니다. 예를 들어 큰 Excel 파일 검색은 처음 4MB가 인덱싱되어 부분적으로 성공할 수 있지만 파일 크기 제한이 초과되어 실패합니다. 이 경우 검색 결과 및 부분적으로 인덱싱된 항목과 함께 동일한 파일이 반환될 수 있습니다.
- Microsoft 암호화 기술로 암호화되고 검색 조건과 일치하는 전자 메일 메시지에 첨부된 파일은 미리 볼 수 있으며 내보낼 때 해독됩니다. 현재 Microsoft 암호화 기술로 암호화되고 SharePoint 또는 비즈니스용 OneDrive에 저장된 파일은 부분적으로 인덱싱됩니다.
- S/MIME로 암호화된 전자 메일 메시지는 부분적으로 인덱싱됩니다. 여기에는 암호화된 메시지가 포함됩니다(첨부 파일 포함 여부는 관계없음).
- Azure Rights Management를 사용하여 보호되는 전자 메일 메시지는 인덱싱되며 검색 쿼리와 일치하는 경우 검색 결과에 포함됩니다. 권한으로 보호되는 전자 메일 메시지는 암호가 해독되며 미리 보기 및 내보낼 수 있습니다. 이 기능을 사용하려면 기본적으로 eDiscover Manager 역할 그룹에 할당되는 RMS 암호 해독 역할이 할당되어야 합니다.
- eDiscovery 사례와 연결된 쿼리 기반 보류를 만들면 부분적으로 인덱싱된 모든 항목이 보류됩니다. 여기에는 보류에 대한 검색 쿼리 조건과 일치하지 않는 부분적으로 인덱싱된 항목이 포함됩니다. 쿼리 기반 eDiscovery 보류를 만드는 방법에 대한 자세한 내용은 eDiscovery 보류 만들기를 참조하세요.