Investigar itens parcialmente indexados na descoberta eletrônica

Uma pesquisa de descoberta eletrônica que você executa no portal de conformidade do Microsoft Purview inclui automaticamente itens parcialmente indexados nos resultados estimados da pesquisa ao executar uma pesquisa. Itens parcialmente indexados são itens e documentos da caixa de correio do Exchange no SharePoint e OneDrive for Business sites que, por algum motivo, não foram completamente indexados para pesquisa. A maioria das mensagens de email e documentos do site são indexados com êxito porque estão dentro dos limites de indexação para mensagens de email. No entanto, alguns itens podem exceder esses limites de indexação e serão parcialmente indexados. Veja outros motivos pelos quais os itens não podem ser indexados para pesquisa e são retornados como itens parcialmente indexados ao executar uma pesquisa de descoberta eletrônica:

  • Email mensagens têm um arquivo anexado que não pode ser aberto; essa é a causa mais comum de itens de email parcialmente indexados.
  • Muitos arquivos anexados a uma mensagem de email.
  • Um arquivo anexado a uma mensagem de email é muito grande.
  • O tipo de arquivo é compatível com a indexação, mas ocorreu um erro de indexação com um arquivo específico.

Embora varie, a maioria dos clientes das organizações tem menos de 1% de conteúdo por volume e menos de 12% de conteúdo por tamanho que é parcialmente indexado. O motivo da diferença entre o volume versus o tamanho é que arquivos maiores têm maior probabilidade de conter conteúdo que não pode ser completamente indexado.

Para obter mais informações sobre itens de índice parcialmente na pesquisa de conteúdo, consulte Investigando itens parcialmente indexados na pesquisa de conteúdo.

Dica

Se você não for um cliente E5, use a avaliação de soluções do Microsoft Purview de 90 dias para explorar como recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações portal de conformidade do Microsoft Purview. Saiba mais sobre os termos de inscrição e avaliação.

Depois de executar uma pesquisa de descoberta eletrônica, o número total e o tamanho de itens parcialmente indexados nos locais pesquisados são listados nas estatísticas de resultado da pesquisa exibidas nas estatísticas detalhadas da pesquisa. Observe que eles são chamados de itens nãondexados nas estatísticas de pesquisa. Aqui estão algumas coisas que afetarão o número de itens parcialmente indexados que são retornados nos resultados da pesquisa:

  • Se um item for parcialmente indexado e corresponder à consulta de pesquisa, ele será incluído na contagem (e no tamanho) dos itens de resultado da pesquisa e em itens parcialmente indexados. No entanto, quando os resultados dessa mesma pesquisa são exportados, o item é incluído apenas com conjunto de resultados de pesquisa; não está incluído como um item parcialmente indexado.
  • Itens parcialmente indexados localizados em sites do SharePoint e do OneDrive não estão incluídos na estimativa de itens parcialmente indexados exibidos nas estatísticas detalhadas da pesquisa. No entanto, itens parcialmente indexados podem ser exportados quando você exporta os resultados de uma pesquisa de descoberta eletrônica. Por exemplo, se você pesquisar apenas sites, o número estimado de itens parcialmente indexados será zero.

Calculando a proporção de itens parcialmente indexados em sua organização

Para entender a exposição da sua organização a itens parcialmente indexados, você pode executar uma pesquisa por todo o conteúdo em todas as caixas de correio (usando uma consulta palavra-chave em branco). No exemplo a seguir, há 1.629.904 (146,46 GB) itens totalmente indexados e 10.025 (10,27 GB) parcialmente indexados.

Exemplo de estatísticas de pesquisa mostrando itens parcialmente indexados.

Você pode determinar a porcentagem de itens parcialmente indexados usando os cálculos a seguir.

Para calcular a proporção de itens parcialmente indexados em sua organização:

(Total number of partially indexed items/Total number of items) x 100

(10025/1629904) x 100 = 0.62%

Usando os resultados da pesquisa do exemplo anterior, 0,62% de todos os itens de caixas de correio são parcialmente indexados.

Para calcular a porcentagem do tamanho de itens parcialmente indexados em sua organização:

(Size of all partially indexed items/Size of all items) x 100

(10.27 GB/146.46 GB) x 100 = 7.0%

Portanto, no exemplo anterior, 7% do tamanho total dos itens de caixa de correio são de itens parcialmente indexados. Conforme indicado anteriormente, a maioria dos clientes de organizações tem menos de 1% de conteúdo por volume e menos de 12% de conteúdo por tamanho que é parcialmente indexado.

Trabalhando com itens parcialmente indexados

Nos casos em que você precisa examinar itens parcialmente indexados para validar que eles não contêm informações relevantes, você pode exportar um relatório de pesquisa de conteúdo que contém informações sobre itens parcialmente indexados. Ao exportar um relatório de pesquisa de conteúdo, escolha uma das opções de exportação que inclua itens parcialmente indexados.

Escolha a segunda ou terceira opção para exportar itens parcialmente indexados.

Quando você exporta resultados de pesquisa de descoberta eletrônica ou um relatório de pesquisa usando uma dessas opções, a exportação inclui um relatório chamado Unindexed Items.csv. Este relatório inclui a maioria das mesmas informações que o arquivo ResultsLog.csv; no entanto, o arquivo de Items.csv Unindexed também inclui dois campos relacionados a itens parcialmente indexados: Marcas de Erro e Propriedades de Erro. Esses campos contêm informações sobre o erro de indexação de cada item parcialmente indexado. Usar as informações nesses dois campos pode ajudá-lo a determinar se o erro de indexação de um determinado afeta ou não sua investigação.

Observação

O arquivo Items.csv não especificado também contém campos chamados Tipo de Erro e Mensagem de Erro. São campos herdados que contêm informações semelhantes às informações nos campos Marcas de Erro e Propriedades de Erro , mas com informações menos detalhadas. Você pode ignorar com segurança esses campos herdados.

As marcas de erro são compostas por duas informações, o erro e o tipo de arquivo. Por exemplo, neste par de erros/tipo de arquivo:

 parseroutputsize_xls

parseroutputsize é o erro e xls é o tipo de arquivo do arquivo em que o erro ocorreu. Nos casos em que o tipo de arquivo não foi reconhecido ou o tipo de arquivo não se aplica ao erro, você verá o valor noformat no lugar do tipo de arquivo.

A seguir está uma lista de erros de indexação e uma descrição da possível causa do erro.

Marca de erro Descrição
attachmentcount
Uma mensagem de email tinha muitos anexos e alguns desses anexos não foram processados.
attachmentdepth
O analisador de conteúdo e o analisador de documentos encontraram muitos níveis de anexos aninhados dentro de outros anexos. Alguns desses anexos não foram processados.
attachmentrms
Falha na decodificação de um anexo porque era protegido pelo RMS.
attachmentsize
Um arquivo anexado a uma mensagem de email era muito grande e não podia ser processado.
indexingtruncated
Ao escrever a mensagem de email processada para o índice, uma das propriedades indexáveis era muito grande e truncada. As propriedades truncadas estão listadas no campo Propriedades de Erro.
invalidunicode
Uma mensagem de email continha texto que não podia ser processado como Unicode válido. A indexação desse item pode estar incompleta.
parserencrypted
O conteúdo do anexo ou da mensagem de email é criptografado e o Microsoft 365 não pôde decodificar o conteúdo.
parsererror
Um erro desconhecido ocorreu durante a análise. Normalmente, isso resulta de um bug de software ou de uma falha de serviço.
parserinputsize
Um anexo era muito grande para o analisador manipular, e a análise desse anexo não aconteceu ou não foi concluída.
parsermalformed
Um anexo foi malformado e não pôde ser manipulado pelo analisador. Esse resultado pode ser devido a formatos de arquivo antigos, arquivos criados por software incompatível ou vírus que fingem ser algo diferente do reivindicado.
parseroutputsize
A saída da análise de um anexo era muito grande e tinha que ser truncada.
parserunknowntype
Um anexo tinha um tipo de arquivo que o Microsoft 365 não detectava.
parserunsupportedtype
Um anexo tinha um tipo de arquivo que Office 365 poderia detectar, mas não há suporte para analisar esse tipo de arquivo.
propertytoobig
O valor de uma propriedade de email na Exchange Store era muito grande para ser recuperado e a mensagem não pôde ser processada. Normalmente, isso só acontece com a propriedade do corpo de uma mensagem de email.
retrieverrms
O recuperador de conteúdo falhou ao decodificar uma mensagem protegida pelo RMS.
wordbreakertruncated
Muitas palavras foram identificadas no documento durante a indexação. O processamento da propriedade parou ao atingir o limite e a propriedade é truncada.

Os campos de erro descrevem quais campos são afetados pelo erro de processamento listado no campo Marcas de Erro. Se você estiver pesquisando uma propriedade como subject ou participants, erros no corpo da mensagem não afetarão os resultados da pesquisa. Isso pode ser útil ao determinar exatamente quais itens parcialmente indexados talvez você precise investigar mais.