Saiba mais sobre as definições de pesquisa e análise em casos de Deteção de Dados Eletrónicos

2025-03-06

Pode configurar as definições para cada caso de Deteção de Dados Eletrónicos para controlar a seguinte funcionalidade:

Duplicatas próximas e threading de email
Temas
Consulta de conjunto de revisão autogerada
Ignorar texto
Reconhecimento óptico de caracteres

Dica

Comece a utilizar Microsoft Security Copilot para explorar novas formas de trabalhar de forma mais inteligente e rápida com o poder da IA. Saiba mais sobre Microsoft Security Copilot no Microsoft Purview.

Configurar definições de análise para um caso

Para definir as configurações de pesquisa e análise de um caso:

Aceda ao portal do Microsoft Purview e inicie sessão com as credenciais de uma conta de utilizador com permissões de Deteção de Dados Eletrónicos atribuídas.
Selecione a solução de Deteção de Dados Eletrónicos card e, em seguida, selecione Casos no painel de navegação esquerdo.
Selecione um caso e, em seguida, selecione Definições de caso.
Na página Definições do caso, selecione Procurar & análise.
É apresentada a página pesquisa & análise . Estas definições são aplicadas a todos os conjuntos de revisão num caso.
Depois de selecionar as opções de pesquisa e análise aplicáveis, selecione Guardar.

As secções seguintes neste artigo descrevem as definições de análise que pode configurar para um caso.

Duplicatas próximas e threading de email

Nesta secção, pode definir parâmetros para deteção de duplicados, quase deteção de duplicados e threading de e-mail.

Threads de e-mail/duplicados próximos: Quando ativada, a deteção duplicada, a deteção quase duplicada e o threading de e-mail são incluídos como parte do fluxo de trabalho quando executa análises nos dados num conjunto de revisão.
Limiar de semelhança entre documentos e e-mails: Se o nível de semelhança de dois documentos ultrapassar o limiar, ambos os documentos serão colocados no mesmo conjunto quase duplicado.
Número mínimo/máximo de palavras: Estas definições especificam que as análises de threads de e-mail e duplicados próximos são efetuadas apenas em documentos que tenham, pelo menos, o número mínimo de palavras e, no máximo, o número máximo de palavras.

Detecção de duplicata próxima

Considere um conjunto de documentos a serem revisados no qual um subconjunto é baseado no mesmo modelo e tem basicamente a mesma linguagem clichê, com algumas diferenças aqui e ali. Se um revisor pudesse identificar este subconjunto, rever um deles cuidadosamente e rever as diferenças para o resto, não perderia nenhuma informação exclusiva enquanto demorasse apenas uma fração de tempo que levaria a ler todos os documentos para cobrir. Detecção de duplicata próxima agrupa documentos textualmente similares para deixar seu processo de avaliação mais eficiente.

Quando a detecção de duplicatas próximas é executada, o sistema analisa cada documento com texto. Depois, ela compara os documento entre si para determinar se suas semelhanças são maiores que o limite definido. Se forem maiores, os documentos são agrupados. Assim que todos os documentos forem comparados e agrupados, um documento de cada grupo é marcado como o "pivot"; ao rever os seus documentos, pode rever primeiro um pivô e rever os outros documentos no mesmo conjunto quase duplicado, concentrando-se na diferença entre o pivô e o documento que está em revisão.

Threading de emails

Considere uma conversa por email que está acontecendo há algum tempo. Na maioria dos casos, a última mensagem no tópico de e-mail inclui o conteúdo de todas as mensagens anteriores. Por conseguinte, rever a última mensagem dá um contexto completo da conversação que ocorreu no tópico. O encadeamento de emails identifica essas mensagens para que os revisores possam revisar uma fração dos documentos coletados sem perder nenhum contexto.

Email threading na Deteção de Dados Eletrónicos é o processo de organização de uma sequência de e-mails relacionados que fazem parte da mesma conversação. Isto inclui o e-mail inicial e todas as respostas e reencaminhamentos subsequentes ligados ao e-mail original. Ao agrupar estes e-mails em threads, os revisores veem todo o contexto de uma conversação, facilitando a compreensão do fluxo de comunicação. Esta abordagem ajuda a identificar informações relevantes de forma mais eficiente e elimina a necessidade de rever cada e-mail individualmente. Email mensagens incluídas no processo de análise têm os seguintes metadados preenchidos:

É Inclusivo: este campo identifica se um e-mail contém todo o conteúdo exclusivo de um tópico, incluindo todas as respostas anteriores. Garante que apenas o e-mail mais abrangente num tópico é revisto, o que é essencial para compreender todo o contexto da conversação sem ter de rever cada resposta individual.
Tem Anexos Exclusivos: este campo marca e-mails que contêm anexos não encontrados noutros e-mails dentro do mesmo tópico. Mesmo que o conteúdo do e-mail seja duplicado, os anexos exclusivos são sinalizados para garantir que todos os documentos relevantes são revistos. Isto é importante no processo de revisão legal para garantir que não são ignoradas provas exclusivas, mesmo que o próprio corpo do e-mail não seja exclusivo.

Como é diferente das conversas no Outlook?

De relance, isto soa semelhante aos agrupamentos de conversações no Outlook. No entanto, existem algumas distinções importantes. Considere uma conversação por e-mail que foi bifurcado em duas conversações; por exemplo, alguém respondeu a um e-mail que não é o mais recente na conversação, pelo que os dois últimos e-mails na conversação têm conteúdo exclusivo.

O Outlook continuaria a agrupar os e-mails numa única conversação; ler apenas o último e-mail poderá perder o contexto do último e-mail, que também contém conteúdo exclusivo. Uma vez que os threads de e-mail analisam cada e-mail em componentes individuais e os comparam, o threading de e-mail marcaria ambos os últimos dois e-mails como inclusivos, garantindo que não perderá qualquer contexto, desde que leia todos os e-mails marcados como inclusivos.

Vamos também considerar um tópico de e-mail com múltiplas respostas, onde algumas respostas incluem respostas inline que modificam o conteúdo citado. Se uma resposta inline alterar parte do e-mail anterior, a resposta mais recente não abrange totalmente o conteúdo do e-mail anterior. Tanto a resposta mais recente como o e-mail anterior com conteúdo exclusivo são marcados como inclusivos. Esta abordagem garante que todas as informações exclusivas da resposta inline são preservadas e não ignoradas.

Temas

Nesta secção, pode definir os seguintes parâmetros para os temas:

Temas: Quando ativado, os temas clustering são executados como parte do fluxo de trabalho quando executa análises nos dados num conjunto de revisão.
Número máximo de temas: Especifica o número máximo de temas que podem ser gerados quando executa análises nos dados num conjunto de revisão.
Incluir números em temas: Quando ativados, os números (que identifica um tema) são incluídos ao gerar temas.
Ajustar dinamicamente o número máximo de temas: Em determinadas situações, pode não haver documentos suficientes num conjunto de revisão para produzir o número de temas pretendido. Quando esta configuração está habilitada, a Descoberta Eletrônica ajusta dinamicamente o número máximo de temas em vez de tentar impor.

Quando cria um novo documento, geralmente começa com uma ou mais ideias que pretende transmitir no documento e, em seguida, compõe o documento com palavras alinhadas com estas ideias. Quanto mais prevalente é uma ideia, mais frequentes tendem a ser as palavras relacionadas a essa ideia. Este método também se alinha com a forma como os leitores consomem documentos. Os aspetos importantes a compreender ao ler um documento são as main ideias que o documento está a tentar transmitir. Isto também inclui as ideias que aparecem onde e quais são as relações entre as ideias.

Este processo pode ser alargado à forma como um revisor de Deteção de Dados Eletrónicos quer consumir um conjunto de documentos num caso. Querem ver que ideias estão presentes nos conjuntos de revisão e que documentos estão a falar dessas ideias. Se encontrarem um documento de interesse específico, querem ver documentos que abordam ideias semelhantes.

A funcionalidade Temas na Deteção de Dados Eletrónicos tenta imitar a razão dos humanos em relação aos documentos ao analisar os temas que são discutidos num conjunto de revisão e ao atribuir um tema a documentos no conjunto de revisão. Na Deteção de Dados Eletrónicos, os Temas vão um passo mais além e identificam o tema dominante em cada conjunto de revisão e documento. O tema dominante é aquele que aparece mais frequentemente num documento.

Como funcionam os temas?

A funcionalidade Temas analisa documentos com texto num conjunto de revisões para analisar temas comuns que aparecem em todos os documentos no conjunto de revisão. A Descoberta Eletrônica atribui esses temas aos documentos nos quais eles aparecem. Ela também rotula cada tema com as palavras usadas nos documentos que são representantes do tema. Uma vez que um documento pode conter vários tipos de assunto, a Deteção de Dados Eletrónicos atribui frequentemente vários temas para rever conjuntos e documentos. Isto é referido como a lista Temas. O tema que aparece de forma mais proeminente num conjunto de revisões ou documento é designado como o seu tema dominante.

Configurar Temas

Os temas são suportados para casos e aplicam-se a todos os conjuntos de revisão dentro dos mesmos. Pode configurar as definições para temas quando cria um novo caso ou pode atualizar as definições do tema para um caso existente.

Para configurar temas num caso, conclua os seguintes passos:

Aceda ao portal do Microsoft Purview e inicie sessão com as credenciais de uma conta de utilizador com permissões de Deteção de Dados Eletrónicos atribuídas.
Selecione a solução de Deteção de Dados Eletrónicos card e, em seguida, selecione Casos (pré-visualização) no painel de navegação esquerdo.
Selecione um caso, selecione Definições de caso.
Na página Definições do caso, selecione Procurar & análise.
Selecione as seguintes opções de tema, conforme aplicável:
- Número máximo de temas: Especifica o número máximo de temas que podem ser gerados quando executa análises nos dados em conjuntos de revisão incluídos num caso. Para obter mais informações sobre limites, veja Limites na Deteção de Dados Eletrónicos.
- Incluir números em temas: Os números (que identificam um tema) são incluídos ao gerar temas.
- Ajustar dinamicamente o número máximo de temas: Em determinadas situações, pode não haver documentos suficientes num conjunto de revisão para produzir o número pretendido de temas para o caso. Quando esta definição está ativada, o número máximo de temas é ajustado dinamicamente em vez de tentar impor o número máximo de temas.
Se precisar de excluir palavras-chave associadas a temas, introduza o texto ou expressão regular necessária no campo Ignorar texto . No campo Aplicar a , selecione Temas para aplicar o texto ou expressão regular a todos os temas.
Selecione Salvar.

Após a criação de um novo caso, a análise é executada automaticamente nos dados quando os conjuntos de revisão são adicionados ao caso. Os temas dos conjuntos de revisão são gerados como parte do processamento de análise.

Resumo do conjunto de consulta

Se selecionar a caixa de verificação Criar automaticamente uma pesquisa para Revisão guardada após análise, a Deteção de Dados Eletrónicos gera automaticamente uma consulta de conjunto de revisão denominada Para Revisão.

Esta consulta filtra itens duplicados do conjunto de revisão, o que lhe permite rever rapidamente os itens exclusivos no conjunto de revisão. Essa consulta é criada apenas quando você executa uma análise de um conjunto de revisão no caso. Para obter mais informações sobre consultas de conjuntos de revisão, veja Consultar os dados num conjunto de revisão.

Ignorar texto

Existem situações em que determinado texto diminui a qualidade da análise, como exclusões de responsabilidade longas que são adicionadas às mensagens de e-mail, independentemente do conteúdo do e-mail. Se souber que texto deve ser ignorado, pode excluí-lo da análise ao especificar a cadeia de texto e a funcionalidade de análise (quase duplicados, threads de e-mail, temas e relevância) para os quais o texto deve ser excluído. A utilização de expressões regulares (RegEx) para texto ignorado também é suportada.

Reconhecimento óptico de caracteres (OCR)

Quando esta definição está ativada, o processamento OCR é executado em ficheiros de imagem. Quando o OCR é aplicado a ficheiros de imagem, o texto nestes ficheiros está disponível nos resultados da pesquisa. O OCR é executado apenas em itens processados durante a Indexação avançada (se esta opção estiver selecionada na consulta de pesquisa).

Por exemplo, se um ficheiro PDF grande parcialmente indexado ou com outros erros de indexação for processado durante a indexação Avançada, o OCR é aplicado. O processamento de OCR só ocorre em ficheiros que são reindexados durante o processo de indexação Avançado. Isto significa que podem existir situações em que os conteúdos são adicionados a um conjunto de revisão, mas alguns anexos de e-mail não são processados para OCR porque estes ficheiros não são processados durante a indexação Avançada.

Depois de os dados serem adicionados a um conjunto de revisão, o texto da imagem pode ser revisto, pesquisado, marcado e analisado. Pode ver o texto extraído no Visualizador de texto do ficheiro de imagem selecionado no conjunto de revisão. Para saber mais, confira: