Itens parcialmente indexados na Pesquisa de Conteúdo

Uma pesquisa de conteúdo que você executa no portal de conformidade do Microsoft Purview inclui automaticamente itens parcialmente indexados nos resultados estimados da pesquisa ao executar uma pesquisa. Itens parcialmente indexados são itens e documentos da caixa de correio do Exchange no SharePoint e OneDrive for Business sites que, por algum motivo, não foram completamente indexados para pesquisa. No Exchange, um item parcialmente indexado normalmente contém um arquivo (de um tipo de arquivo que não pode ser indexado) que é anexado a uma mensagem de email. Aqui estão algumas outras razões pelas quais os itens não podem ser indexados para pesquisa e são retornados como itens parcialmente indexados quando você executa uma pesquisa de descoberta eletrônica:

  • O tipo de arquivo não é reconhecido ou não tem suporte para indexação.
  • As mensagens têm um arquivo anexado que não pode ser aberto; essa é a causa mais comum de itens de email parcialmente indexados.
  • O tipo de arquivo é compatível com a indexação, mas ocorreu um erro de indexação com um arquivo específico.
  • Muitos arquivos anexados a uma mensagem de email.
  • Um arquivo anexado a uma mensagem de email é muito grande.
  • Um arquivo foi criptografado com tecnologias que não são da Microsoft.
  • Um arquivo está protegido por senha.

Observação

A maioria das organizações tem menos de 1% de conteúdo por volume e menos de 12% por tamanho que é parcialmente indexado. O motivo da diferença entre volume e tamanho é que arquivos maiores têm maior probabilidade de conter conteúdo que não pode ser completamente indexado.

Para investigações legais, sua organização pode ser obrigada a examinar itens parcialmente indexados. Você também pode especificar se deve incluir itens parcialmente indexados ao exportar resultados de pesquisa para um computador local ou quando preparar os resultados para análise com descoberta eletrônica (Premium). Para obter mais informações, consulte Investigar itens parcialmente indexados na descoberta eletrônica.

Dica

Se você não for um cliente E5, use a avaliação de soluções do Microsoft Purview de 90 dias para explorar como recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações portal de conformidade do Microsoft Purview. Saiba mais sobre os termos de inscrição e avaliação.

Determinados tipos de arquivos, como arquivos Bitmap (.bmp) ou MP3 (.mp3), não contêm conteúdo que possa ser indexado. Como resultado, os servidores de indexação de pesquisa no Exchange e no SharePoint não executam indexação de texto completo nesses tipos de arquivos. Estes tipos de arquivo são considerados como tipos de arquivo incompatíveis. Também existem tipos de arquivo para os quais a indexação de texto completo foi desabilitada, por padrão ou por um administrador. Tipos de arquivo sem suporte e desabilitados são rotulados como itens não especificados em Pesquisas de Conteúdo. Conforme indicado anteriormente, itens parcialmente indexados podem ser incluídos no conjunto de resultados da pesquisa ao executar uma pesquisa, exportar os resultados da pesquisa para um computador local ou preparar resultados de pesquisa para descoberta eletrônica (Premium).

Para obter uma lista de formatos de arquivo com suporte e desabilitados, confira os seguintes artigos:

Mensagens e documentos com tipos de arquivo parcialmente indexados podem ser retornados nos resultados da pesquisa

Nem todas as mensagens de email com um anexo de arquivo parcialmente indexado ou cada documento do SharePoint parcialmente indexado são retornados automaticamente como um item parcialmente indexado. Isso ocorre porque outras propriedades de mensagem ou documento, como a propriedade Subject em mensagens de email e as propriedades Título ou Autor para documentos são indexadas e disponíveis para serem pesquisadas. Por exemplo, uma pesquisa palavra-chave por "financeiro" retornará itens com um anexo de arquivo parcialmente indexado se esse palavra-chave aparecer no assunto de uma mensagem de email ou no nome do arquivo ou título de um documento. No entanto, se o palavra-chave aparecer apenas no corpo do arquivo, a mensagem ou documento será retornado como um item parcialmente indexado.

Da mesma forma, as mensagens com anexos de arquivo parcialmente indexados e documentos de um tipo de arquivo parcialmente indexado são incluídas nos resultados da pesquisa quando outras propriedades de mensagem ou documento, indexadas e pesquisáveis, correspondem aos critérios de pesquisa. Propriedades de mensagem indexadas para pesquisa incluem datas enviadas e recebidas, remetente e destinatário, o nome do arquivo de um anexo e o texto no corpo da mensagem. Propriedades do documento indexadas para pesquisa incluem datas criadas e modificadas. Portanto, mesmo que um anexo de mensagem possa ser um item parcialmente indexado, a mensagem será incluída nos resultados regulares da pesquisa se o valor de outras propriedades de mensagem ou documento corresponder aos critérios de pesquisa.

Para obter uma lista de propriedades de email e documento que você pode pesquisar usando ferramentas de descoberta eletrônica no portal de conformidade, consulte Consultas de palavra-chave e condições de pesquisa para descoberta eletrônica.

Observação

Se um item de caixa de correio for movido de uma pasta indexada para uma pasta que não está indexada, um sinalizador será definido para desdexar o item e o item será removido do índice e não será pesquisável. Posteriormente, se esse mesmo item for movido de volta para uma pasta indexada, o sinalizador não será redefinido. Isso significa que o item permanecerá indissociável e não pesquisável.

Itens parcialmente indexados incluídos nos resultados da pesquisa

Sua organização pode ser necessária para identificar e executar análises adicionais em itens parcialmente indexados para determinar o que eles são, o que eles contêm e se eles são relevantes para uma investigação específica. Como explicado anteriormente, os itens parcialmente indexados nos locais de conteúdo pesquisados são incluídos automaticamente com os resultados estimados da pesquisa. Você tem a opção de incluir esses itens parcialmente indexados ao exportar resultados de pesquisa ou preparar os resultados da pesquisa para eDiscovery (Premium).

Tenha o seguinte em mente sobre itens parcialmente indexados:

  • Quando você executa uma pesquisa de descoberta eletrônica, o número e o tamanho totais de itens do Exchange parcialmente indexados (retornados pela consulta de pesquisa) são exibidos nas estatísticas de pesquisa na página de flyout e rotulados como itens não desdexados. As estatísticas sobre itens parcialmente indexados exibidos na página de flyout não incluem itens parcialmente indexados em sites do SharePoint ou contas do OneDrive.

  • Se a pesquisa da qual você está exportando resultados for uma pesquisa de locais de conteúdo específicos ou de todos os locais de conteúdo em sua organização, somente os itens não discriminados de locais de conteúdo que contêm itens que correspondem aos critérios de pesquisa serão exportados. In other words, if no search results are found in a mailbox or site, then any unindexed items in that mailbox or site won't be exported. O motivo para isso é que exportar itens parcialmente indexados de muitos locais da organização pode aumentar a probabilidade de erros de exportação e aumentar o tempo necessário para exportar e baixar os resultados da pesquisa.

    Para exportar itens parcialmente indexados de todos os locais de conteúdo para uma pesquisa, configure a pesquisa para retornar todos os itens (removendo as palavras-chave da consulta de pesquisa) e exporte apenas itens parcialmente indexados quando você exportar os resultados da pesquisa (selecionando Somente itens que têm um formato não reconhecido, são criptografados ou não foram indexados por outros motivos em opções de saída).

  • Se você optar por incluir todos os itens da caixa de correio nos resultados da pesquisa ou se uma consulta de pesquisa não especificar palavras-chave ou especificar apenas um intervalo de datas, itens parcialmente indexados podem não ser copiados para o arquivo PST que contém os itens parcialmente indexados. Isso ocorre porque todos os itens, incluindo todos os itens parcialmente indexados, serão incluídos automaticamente nos resultados regulares da pesquisa.

  • Itens parcialmente indexados não estão disponíveis para serem visualizados. Você precisa exportar os resultados da pesquisa para exibir itens parcialmente indexados retornados pela pesquisa.

    Além disso, quando você exporta os resultados da pesquisa e inclui itens parcialmente indexados na exportação, itens parcialmente indexados de itens do SharePoint são exportados para uma pasta chamada Uncrawlable. Quando você exporta itens do Exchange parcialmente indexados, eles são exportados de forma diferente, dependendo se os itens parcialmente indexados corresponderem à consulta de pesquisa e à configuração das configurações de exportação.

  • A tabela a seguir mostra o comportamento de exportação de itens indexados e parcialmente indexados e se cada um está incluído ou não nas diferentes configurações de configuração de exportação.

    Exportar configuração Itens indexados que correspondem à consulta de pesquisa Itens parcialmente indexados que correspondem à consulta de pesquisa Itens parcialmente indexados que não correspondem à consulta de pesquisa
    Exportar somente itens indexados
    Exported
    Exportado (incluído com os itens indexados exportados)
    Não exportado
    Exportar apenas itens parcialmente indexados
    Não exportado
    Exportado (como itens parcialmente indexados)
    Exportado (como itens parcialmente indexados)
    Exportar itens indexados e parcialmente indexados
    Exported
    Exportado (incluído com os itens indexados exportados)
    Exportado (como itens parcialmente indexados)

Intervalos de datas e excluindo itens parcialmente indexados

Em Pesquisa de conteúdo e Descoberta Eletrônica do Microsoft Purview, você não pode usar um intervalo de datas para excluir itens parcialmente indexados de serem retornados por uma consulta de pesquisa. Em outras palavras, itens parcialmente indexados que estão fora de um intervalo de datas ainda são incluídos como itens parcialmente indexados nas estatísticas de pesquisa e quando você exporta itens parcialmente indexados. Na descoberta eletrônica (Premium), itens parcialmente indexados podem ser coletados e filtrados em um conjunto de revisão antes da exportação.

Limites de indexação para mensagens

A tabela a seguir descreve os limites de indexação que podem resultar em uma mensagem de email sendo retornada como um item parcialmente indexado em uma pesquisa de descoberta eletrônica no Microsoft 365.

Para obter uma lista de limites de indexação para documentos do SharePoint, consulte Limites de pesquisa para SharePoint Online.

Limite de indexação Observações Descrição
Tamanho máximo do anexo (excluindo arquivos do Excel)
150 MB
O tamanho máximo de um anexo de email que será analisado para indexação. Qualquer anexo maior que esse limite não será analisado para indexação e a mensagem com o anexo será marcada como parcialmente indexada.

Nota: A análise é o processo em que o serviço de indexação extrai texto do anexo, remove caracteres desnecessários, como pontuação e espaços, e divide o texto em palavras (em um processo chamado tokenização), que são armazenados no índice.
Tamanho máximo dos arquivos do Excel
4 MB
O tamanho máximo de um arquivo do Excel localizado em um site ou anexado a uma mensagem de email que será analisada para indexação. Qualquer arquivo do Excel maior que esse limite não será analisado e o arquivo ou o email da mensagem com o anexo do arquivo serão marcados como não desindenciados.
Número máximo de anexos
250
O número máximo de arquivos anexados a uma mensagem de email que será analisada para indexação. Se uma mensagem tiver mais de 250 anexos, os primeiros 250 anexos serão analisados e indexados, e a mensagem será marcada como parcialmente indexada porque tinha anexos adicionais que não foram analisados.
Profundidade máxima do anexo
30
O número máximo de anexos aninhados analisados. Por exemplo, se uma mensagem de email tiver outra mensagem anexada a ela e a mensagem anexada tiver um documento Word anexado, o documento Word e a mensagem anexada serão indexados. Esse comportamento continuará para até 30 anexos aninhados.
Número máximo de imagens anexadas
0
Uma imagem anexada a uma mensagem de email é ignorada pelo analisador e não é indexada.
Tempo máximo gasto analisando um item
30 segundos
Um máximo de 30 segundos é gasto analisando um item para indexação. Se o tempo de análise exceder 30 segundos, o item será marcado como parcialmente indexado.
Saída máxima do analisador
2 milhões de caracteres
A quantidade máxima de saída de texto do analisador indexado. Por exemplo, se o analisador extraísse 8 milhões de caracteres de um documento, somente os primeiros 2 milhões de caracteres serão indexados.
Tokens de anotação máximos
Dois milhões
Quando uma mensagem de email é indexada, cada palavra é anotada com instruções de processamento diferentes que especificam como essa palavra deve ser indexada. Cada conjunto de instruções de processamento é chamado de token de anotação. Para manter a qualidade do serviço no Office 365, há um limite de 2 milhões de tokens de anotação para uma mensagem de email.
Tamanho máximo do corpo no índice
67 milhões de caracteres
O número total de caracteres no corpo de uma mensagem de email e todos os seus anexos. Quando uma mensagem de email é indexada, todo o texto no corpo da mensagem e em todos os anexos é concatenado em uma única cadeia de caracteres. O tamanho máximo dessa cadeia de caracteres indexada é de 67 milhões de caracteres.
Tokens exclusivos máximos no corpo
1 milhão
Como explicado anteriormente, os tokens são o resultado da extração de texto do conteúdo, da remoção de pontuação e dos espaços e, em seguida, dividi-los em palavras (chamados tokens) armazenadas no índice. Por exemplo, a frase "cat, mouse, bird, dog, dog" contém 5 tokens. Mas apenas 4 deles são tokens exclusivos. Há um limite de 1 milhão de tokens exclusivos por mensagem de email, o que ajuda a impedir que o índice fique muito grande com tokens aleatórios.

Mais informações sobre itens parcialmente indexados

  • Conforme indicado anteriormente, como as propriedades da mensagem e do documento e seus metadados são indexados, uma pesquisa palavra-chave pode retornar resultados se esse palavra-chave aparecer nos metadados indexados. No entanto, essa mesma pesquisa de palavra-chave poderá não retornar o mesmo item se a palavra-chave só aparece no conteúdo de um item com um tipo de arquivo sem suporte. Nesse caso, o item seria retornado como um item parcialmente indexado.
  • Se um item parcialmente indexado for incluído nos resultados da pesquisa porque correspondeu aos critérios de consulta de pesquisa, ele não será incluído como um item parcialmente indexado nas estatísticas de pesquisa estimadas. Além disso, ele não será incluído com itens parcialmente indexados quando você exportar resultados da pesquisa.
  • Embora um tipo de arquivo tenha suporte para indexação e seja indexado, pode haver erros de indexação ou pesquisa que farão com que um arquivo seja retornado como um item parcialmente indexado. Por exemplo, pesquisar um arquivo grande do Excel pode ser parcialmente bem-sucedido (porque os primeiros 4 MB são indexados), mas falha porque o limite de tamanho do arquivo é excedido. Nesse caso, é possível que o mesmo arquivo seja retornado com os resultados da pesquisa e como um item parcialmente indexado.
  • Arquivos criptografados com tecnologias de criptografia da Microsoft e anexados a uma mensagem de email que corresponda aos critérios de uma pesquisa podem ser visualizados e serão descriptografados quando exportados. Neste momento, os arquivos criptografados com tecnologias de criptografia da Microsoft (e armazenados no SharePoint ou OneDrive for Business) são parcialmente indexados.
  • Email mensagens criptografadas com S/MIME são parcialmente indexadas. Isso inclui mensagens criptografadas com ou sem anexos de arquivo.
  • Email mensagens protegidas usando o Azure Rights Management são indexadas e serão incluídas nos resultados da pesquisa se corresponderem à consulta de pesquisa. As mensagens de email protegidas por direitos são descriptografadas e podem ser visualizadas e exportadas. Essa funcionalidade exige que você receba a função Descriptografar RMS, que é atribuída por padrão ao grupo de funções eDiscover Manager.
  • Se você criar uma retenção baseada em consulta associada a um caso de descoberta eletrônica, todos os itens parcialmente indexados serão colocados em espera. Isso inclui itens parcialmente indexados que não correspondem aos critérios de consulta de pesquisa para o hold. Para obter mais informações sobre como criar retenções de descoberta eletrônica baseadas em consulta, consulte Criar uma retenção de descoberta eletrônica.