Configurar definições de pesquisa e análise para casos de Deteção de Dados Eletrónicos (Premium)

Artigo
06/26/2024

Pode configurar as definições para cada caso de Deteção de Dados Eletrónicos do Microsoft Purview (Premium) para controlar as seguintes funcionalidades:

Duplicatas próximas e threading de email
Temas
Consulta de conjunto de revisão autogerada
Ignorar texto
Reconhecimento óptico de caracteres

Dica

Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de testes do portal de conformidade do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.

Configurar definições de análise para um caso

Para definir as configurações de pesquisa e análise de um caso:

Na página Descoberta Eletrônica (Premium), selecione o caso.
No separador Definições , em Procurar & análise, selecione Selecionar. A página de definições de maiúsculas e minúsculas é apresentada. Estas definições são aplicadas a todos os conjuntos de revisão num caso.

As secções seguintes neste artigo descrevem as definições de análise que pode configurar para um caso.

Duplicatas próximas e threading de email

Nesta secção, pode definir parâmetros para deteção de duplicados, quase deteção de duplicados e threading de e-mail. Para obter mais informações, veja Quase deteção de duplicados e Threading de e-mail.

Threads de e-mail/duplicados próximos: Quando ativada, a deteção duplicada, a deteção quase duplicada e o threading de e-mail são incluídos como parte do fluxo de trabalho quando executa análises nos dados num conjunto de revisão.
Limiar de semelhança entre documentos e e-mails: Se o nível de semelhança de dois documentos estiver acima do limiar, ambos os documentos serão colocados no mesmo conjunto quase duplicado.
Número mínimo/máximo de palavras: Estas definições especificam que as análises de threads de e-mail e duplicados próximos são efetuadas apenas em documentos que tenham, pelo menos, o número mínimo de palavras e, no máximo, o número máximo de palavras.

Temas

Nesta secção, pode definir parâmetros para temas. Para obter mais informações, consulte Temas.

Temas: Quando ativado, o clustering de temas é executado como parte do fluxo de trabalho quando executa análises nos dados num conjunto de revisão.
Número máximo de temas: Especifica o número máximo de temas que podem ser gerados quando executa análises nos dados num conjunto de revisão.
Incluir números em temas: Quando ativados, os números (que identifica um tema) são incluídos ao gerar temas.
Ajustar dinamicamente o número máximo de temas: Em determinadas situações, pode não haver documentos suficientes num conjunto de revisão para produzir o número pretendido de temas. Quando esta configuração está habilitada, a Descoberta Eletrônica (Premium) ajusta de forma dinâmica o número máximo de temas em vez de tentar impor.

Resumo do conjunto de consulta

Se selecionar a caixa de verificação Criar automaticamente uma pesquisa para Revisão guardada após análise, a Deteção de Dados Eletrónicos (Premium) gera automaticamente a consulta do conjunto de revisões com o nome Para Revisão.

A consulta Para Revisão gerada automaticamente.

Basicamente, esta consulta filtra itens duplicados do conjunto de revisões. Isto permite-lhe rever os itens exclusivos no conjunto de revisão. Essa consulta é criada apenas quando você executa uma análise de um conjunto de revisão no caso. Para obter mais informações, sobre consultas de conjuntos de revisão, veja Consultar os dados num conjunto de revisão.

Ignorar texto

Existem situações em que determinado texto irá diminuir a qualidade da análise, como exclusões de responsabilidade longas que são adicionadas às mensagens de e-mail, independentemente do conteúdo do e-mail. Se conhece texto que deve ser ignorado, você pode excluí-lo da análise ao especificar a cadeia de texto e a funcionalidade de análise (duplicadas próximas, threading de email, Temas e Relevância) que o texto deve ser excluído. A utilização de expressões regulares (RegEx) como texto ignorado também é suportada.

Reconhecimento óptico de caracteres (OCR)

Quando esta definição estiver ativada, o processamento OCR será executado em ficheiros de imagem. O processamento de OCR é executado nas seguintes situações:

Quando os depositários e as origens de dados não depositárias são adicionados a um caso. Quando o OCR é aplicado a ficheiros de imagem, o texto nesses ficheiros será pesquisável durante uma coleção. O processamento de OCR é efetuado durante o processo de indexação Avançada . O OCR só é executado em itens que são processados durante a indexação Avançada. Por exemplo, se um ficheiro PDF grande parcialmente indexado ou com outros erros de indexação for processado durante a indexação Avançada, o ficheiro também terá o OCR aplicado. Por outras palavras, o processamento de OCR só ocorre em ficheiros que são reindexados durante o processo de indexação Avançado.

Isto significa que podem existir situações em que os depositários são adicionados a um caso, mas alguns anexos de e-mail não serão processados para OCR porque esses ficheiros não são processados durante a indexação Avançada.

Quando o conteúdo de outras origens de dados (que não estão associados a um depositário e adicionados ao caso numa origem de dados não custodial) é adicionado a um conjunto de revisão.
A pesquisa keyQL (estimativas de coleção) não executa o OCR num item, a menos que um item tenha erros de indexação e estes itens têm de ser Indexados avançados.

Depois de os dados serem adicionados a um conjunto de revisão, o texto da imagem pode ser revisto, pesquisado, marcado e analisado. Pode ver o texto extraído no Visualizador de texto do ficheiro de imagem selecionado no conjunto de revisão. Para saber mais, confira:

Compartilhar via