Investigar itens parcialmente indexados na Deteção de Dados Eletrónicos
Dica
A Deteção de Dados Eletrónicos (pré-visualização) está agora disponível no novo portal do Microsoft Purview. Para saber mais sobre como utilizar a nova experiência de Deteção de Dados Eletrónicos, veja Saiba mais sobre a Deteção de Dados Eletrónicos (pré-visualização).
Uma pesquisa de Deteção de Dados Eletrónicos que executa a partir do portal de conformidade do Microsoft Purview inclui automaticamente itens parcialmente indexados nos resultados estimados da pesquisa quando executa uma pesquisa. Os itens parcialmente indexados são itens de caixa de correio do Exchange e documentos em sites do SharePoint e do OneDrive para Empresas que, por algum motivo, não foram completamente indexados para pesquisa. A maioria das mensagens de e-mail e documentos do site são indexados com êxito porque estão dentro dos limites de Indexação para mensagens de e-mail. No entanto, alguns itens podem exceder estes limites de indexação e serão parcialmente indexados. Eis outros motivos pelos quais os itens não podem ser indexados para pesquisa e são devolvidos como itens parcialmente indexados quando executa uma pesquisa de Deteção de Dados Eletrónicos:
- As mensagens de e-mail têm um ficheiro anexado que não pode ser aberto; esta é a causa mais comum de itens de e-mail parcialmente indexados.
- Muitos arquivos anexados a uma mensagem de email.
- Um arquivo anexado a uma mensagem de email é muito grande.
- O tipo de arquivo é compatível com a indexação, mas ocorreu um erro de indexação com um arquivo específico.
Embora varie, a maioria dos clientes das organizações tem menos de 1% de conteúdo por volume e menos de 12% do conteúdo por tamanho parcialmente indexado. A razão para a diferença entre o volume e o tamanho é que os ficheiros maiores têm uma maior probabilidade de conter conteúdo que não pode ser completamente indexado.
Para obter mais informações sobre itens parcialmente indexados na Pesquisa de conteúdos, veja Investigar itens parcialmente indexados na Pesquisa de conteúdos.
Dica
Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de testes do portal de conformidade do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.
Por que motivo a contagem de itens parcialmente indexados muda para uma pesquisa?
Depois de executar uma pesquisa de Deteção de Dados Eletrónicos, o número total e o tamanho dos itens parcialmente indexados nas localizações que foram pesquisadas são listados nas estatísticas de resultados da pesquisa que são apresentadas nas estatísticas detalhadas da pesquisa. Tenha em atenção que estes itens são denominados itens não identificados nas estatísticas de pesquisa. Seguem-se algumas coisas que irão afetar o número de itens parcialmente indexados que são devolvidos nos resultados da pesquisa:
- Se um item estiver parcialmente indexado e corresponder à consulta de pesquisa, este será incluído na contagem (e no tamanho) dos itens de resultados da pesquisa e nos itens parcialmente indexados. No entanto, quando os resultados dessa mesma pesquisa são exportados, o item é incluído apenas com um conjunto de resultados de pesquisa; não está incluído como um item parcialmente indexado.
- Os itens parcialmente indexados localizados em sites do SharePoint e do OneDrive não estão incluídos na estimativa de itens parcialmente indexados que são apresentados nas estatísticas detalhadas da pesquisa. No entanto, os itens parcialmente indexados podem ser exportados quando exporta os resultados de uma pesquisa de Deteção de Dados Eletrónicos. Por exemplo, se pesquisar apenas sites, o número estimado de itens parcialmente indexados será zero.
Calcular a proporção de itens parcialmente indexados na sua organização
Para compreender a exposição da sua organização a itens parcialmente indexados, pode executar uma pesquisa de todo o conteúdo em todas as caixas de correio (utilizando uma consulta de palavra-chave em branco). No exemplo seguinte, existem 1.629.904 (146,46 GB) itens totalmente indexados e 10.025 (10,27 GB) itens parcialmente indexados.
Pode determinar a percentagem de itens parcialmente indexados com os seguintes cálculos.
Para calcular a proporção de itens parcialmente indexados na sua organização:
(Total number of partially indexed items/Total number of items) x 100
(10025/1629904) x 100 = 0.62%
Ao utilizar os resultados da pesquisa do exemplo anterior, 0,62% de todos os itens de caixas de correio são parcialmente indexados.
Para calcular a percentagem do tamanho dos itens parcialmente indexados na sua organização:
(Size of all partially indexed items/Size of all items) x 100
(10.27 GB/146.46 GB) x 100 = 7.0%
Assim, no exemplo anterior, 7% do tamanho total dos itens da caixa de correio provém de itens parcialmente indexados. Conforme indicado anteriormente, a maioria dos clientes das organizações tem menos de 1% do conteúdo por volume e menos de 12% do conteúdo por tamanho parcialmente indexado.
Trabalhar com itens parcialmente indexados
Nos casos em que precisa de examinar itens parcialmente indexados para confirmar que não contêm informações relevantes, pode exportar um relatório de pesquisa de conteúdos que contenha informações sobre itens parcialmente indexados. Ao exportar um relatório de pesquisa de conteúdos, certifique-se de que escolhe uma das opções de exportação que inclui itens parcialmente indexados.
Quando exporta os resultados da pesquisa de Deteção de Dados Eletrónicos ou um relatório de pesquisa com uma destas opções, a exportação inclui um relatório com o nome Items.csv Não Codificados. Este relatório inclui a maioria das mesmas informações que o ficheiro ResultsLog.csv; No entanto, o ficheiro de Items.csv Unindexed também inclui dois campos relacionados com itens parcialmente indexados: Etiquetas de Erro e Propriedades de Erro. Estes campos contêm informações sobre o erro de indexação para cada item parcialmente indexado. A utilização das informações nestes dois campos pode ajudá-lo a determinar se o erro de indexação de um determinado impacto na investigação é ou não afetado.
Observação
O ficheiro de Items.csv Não Identificado também contém campos denominados Tipo de Erro e Mensagem de Erro. Estes são campos legados que contêm informações semelhantes às informações nos campos Etiquetas de Erro e Propriedades do Erro, mas com informações menos detalhadas . Pode ignorar estes campos legados com segurança.
Erros relacionados com itens parcialmente indexados
As etiquetas de erro são compostas por duas informações, o erro e o tipo de ficheiro. Por exemplo, neste par de erros/tipo de ficheiro:
parseroutputsize_xls
parseroutputsize
é o erro e xls
é o tipo de ficheiro do ficheiro em que ocorreu o erro. Nos casos em que o tipo de ficheiro não foi reconhecido ou o tipo de ficheiro não se aplicou ao erro, verá o valor noformat
em vez do tipo de ficheiro.
Segue-se uma lista de erros de indexação e uma descrição da possível causa do erro.
Etiqueta de erro | Descrição |
---|---|
attachmentcount |
Uma mensagem de e-mail tinha demasiados anexos e alguns destes anexos não foram processados. |
attachmentdepth |
O recuperador de conteúdos e o analisador de documentos encontraram demasiados níveis de anexos aninhados dentro de outros anexos. Alguns destes anexos não foram processados. |
attachmentrms |
Falha ao descodificar um anexo porque estava protegido por RMS. |
attachmentsize |
Um ficheiro anexado a uma mensagem de e-mail era demasiado grande e não podia ser processado. |
indexingtruncated |
Ao escrever a mensagem de e-mail processada no índice, uma das propriedades indexáveis era demasiado grande e estava truncada. As propriedades truncadas estão listadas no campo Propriedades do Erro. |
invalidunicode |
Uma mensagem de e-mail continha texto que não podia ser processado como Unicode válido. A indexação deste item pode estar incompleta. |
parserencrypted |
O conteúdo do anexo ou mensagem de e-mail é encriptado e o Microsoft 365 não conseguiu descodificar o conteúdo. |
parsererror |
Ocorreu um erro desconhecido durante a análise. Normalmente, isto resulta de um erro de software ou de uma falha de serviço. |
parserinputsize |
Um anexo era demasiado grande para o analisador processar e a análise desse anexo não ocorreu ou não foi concluída. |
parsermalformed |
Um anexo tinha um formato incorreto e não podia ser processado pelo analisador. Este resultado pode dever-se a formatos de ficheiro antigos, ficheiros criados por software incompatível ou vírus que fingem ser algo diferente do que foi reivindicado. |
parseroutputsize |
O resultado da análise de um anexo era demasiado grande e tinha de ser truncado. |
parserunknowntype |
Um anexo tinha um tipo de ficheiro que o Microsoft 365 não conseguiu detetar. |
parserunsupportedtype |
Um anexo tinha um tipo de ficheiro que o Office 365 conseguia detetar, mas a análise desse tipo de ficheiro não é suportada. |
propertytoobig |
O valor de uma propriedade de e-mail no Exchange Store era demasiado grande para ser obtido e não foi possível processar a mensagem. Normalmente, isto só acontece à propriedade do corpo de uma mensagem de e-mail. |
retrieverrms |
O obtenção de conteúdos não conseguiu descodificar uma mensagem protegida por RMS. |
wordbreakertruncated |
Foram identificadas demasiadas palavras no documento durante a indexação. O processamento da propriedade parou quando atingiu o limite e a propriedade está truncada. |
Os campos de erro descrevem que campos são afetados pelo erro de processamento listado no campo Etiquetas de Erro. Se estiver a procurar uma propriedade como subject
ou participants
, os erros no corpo da mensagem não afetarão os resultados da pesquisa. Isto pode ser útil ao determinar exatamente que itens parcialmente indexados poderá ter de investigar mais aprofundadamente.