Saiba mais sobre os tipos de informações confidenciais com base na correspondência exata de dados

SITs (tipos de informações confidenciais ) são usados para ajudar a identificar dados confidenciais para que você possa impedir que sejam compartilhados inadvertidamente ou inapropriadamente. Eles também são usados para ajudar na localização de dados relevantes na descoberta eletrônica e para aplicar ações de governança a determinados tipos de informações. Você define um SIT personalizado com base em:

  • padrões
  • palavra-chave evidências, como funcionário, número de segurança social ou ID
  • proximidade de um caractere da evidência em um padrão específico
  • níveis de confiança

Mas e se você quiser um SIT personalizado que use valores de dados exatos ou quase exatos, em vez de um que encontre correspondências com base em padrões genéricos? Com a classificação baseada em EDM (Exact Data Match), você pode criar um tipo de informação confidencial personalizado projetado para:

  • ser dinâmica e facilmente atualizada
  • resultar em menos falsos positivos
  • trabalhar com dados confidenciais estruturados
  • lidar com informações confidenciais com mais segurança, não compartilhá-la com ninguém, incluindo a Microsoft
  • ser usado com vários serviços de nuvem da Microsoft

Dica

Se você não for um cliente E5, use a avaliação de soluções do Microsoft Purview de 90 dias para explorar como recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações portal de conformidade do Microsoft Purview. Saiba mais sobre os termos de inscrição e avaliação.

A classificação baseada em EDM permite criar SITs personalizados que se referem a valores exatos em um banco de dados de informações confidenciais. O banco de dados pode ser atualizado diariamente e pode conter até 100 milhões de linhas de dados. Assim, à medida que funcionários, pacientes e clientes vêm e vão, e à medida que os registros mudam, seus tipos de informações confidenciais personalizados permanecem atuais e aplicáveis. E você pode usar a classificação baseada em EDM com políticas, como políticas de Prevenção Contra Perda de Dados do Microsoft Purview ou políticas de arquivo do Microsoft Cloud App Security.

O diagrama a seguir mostra o funcionamento fundamental da classificação EDM:

Classificação baseada em EDM.

Observação

Proteção de Informações do Microsoft Purview dá suporte aos seguintes idiomas que usam conjuntos de caracteres de bytes duplos:

  • Chinês (simplificado)
  • Chinês (tradicional)
  • Coreano
  • Japonês

Este suporte está disponível para tipos de informações confidenciais. Para obter mais informações, consulte Suporte à proteção de informações para conjuntos de caracteres de bytes duplos: Notas de versão (versão prévia).

O que é diferente em um SIT EDM

Quando você trabalha com SITs EDM, é útil entender alguns conceitos exclusivos para eles.

Esquema

Um esquema é um arquivo XML. O Microsoft Purview usa o esquema para determinar se seus dados contêm ou não cadeias de caracteres que correspondem àqueles que seus tipos de informações confidenciais foram projetados para detectar.

O arquivo XML do esquema define:

  • O nome do esquema, mais tarde chamado de DataStore.
  • O campo nomeia os nomes que a tabela de origem de informações confidenciais contém. Há um mapeamento 1:1 de nomes de campo de esquema para os nomes de coluna na tabela fonte de informações confidenciais.
  • Quais campos de evidência corroborativos exigem o modo de correspondência de vários tokens.
  • Quais campos de dados são pesquisáveis.
  • Há suporte ou não para correspondências configuráveis para cada campo. Uma correspondência configurável é aquela com parâmetros que modificam uma pesquisa, como ignorar delimitadores e casos em valores pesquisados.

Tabela de origem de informações confidenciais

A tabela de origem de informações confidenciais contém os valores que o EDM SIT procura. A tabela é composta por colunas e linhas. Os cabeçalhos de coluna são os nomes de campo, as linhas são instâncias de itens e cada célula em uma linha contém os valores dessa instância de item para esse campo.

Aqui está um exemplo simples de uma tabela de origem de informações confidenciais.

Nome Sobrenome Date of Birth
Isaías Langer 05-05-1960
Ana Bowman 11-24-1971
Oscar Ward 02-12-1998

Pacote de regras

Cada tipo de informação confidencial tem um pacote de regras. Você usa o pacote de regras em um SIT EDM para definir os vários componentes do SEU EDM SIT. A tabela a seguir fornece uma descrição de cada componente.

Componente Descrição
Match Especifica o elemento primário (campo de dados) a ser usado na pesquisa exata. Pode ser uma expressão regular com ou sem uma validação de soma de verificação, uma lista de palavra-chave, um dicionário palavra-chave ou uma função.
Classificação Especifica a correspondência de tipo de informação confidencial que dispara uma pesquisa do EDM.
Elementos de suporte Elementos que, quando encontrados, fornecem evidências que ajudam a aumentar a confiança da correspondência. Por exemplo, a ocorrência de um sobrenome próximo a um número de segurança social real. Um elemento de suporte pode ser uma expressão regular com ou sem uma validação de soma de verificação, uma lista de palavra-chave, um dicionário palavra-chave ou uma correspondência de cadeia de caracteres de um ou vários tokens.
Nível de confiança
(Alto, Médio, Baixo)
Indicação de quanta evidência de suporte é detectada além do elemento primário. Quanto mais evidências de suporte um item contiver, maior será a confiança de que um item correspondente contém as informações confidenciais que você está procurando. Para obter mais informações sobre níveis de confiança, consulte Partes fundamentais de um tipo de informação confidencial.
Proximidade O número de caracteres entre o elemento primário e o elemento de suporte.

Você fornece seu próprio esquema e dados

O Microsoft Purview vem com muitos SITs internos predefinidos. Esses SITs vêm com esquemas, padrões REGEX, palavras-chave e níveis de confiança. No entanto, com SITs EDM, você é responsável por definir o esquema, bem como os campos primários e secundários que identificam itens confidenciais. Como os valores de dados primários e secundários são altamente confidenciais, você os criptografa por meio de uma função de hash que inclui um valor de sal gerado aleatoriamente ou auto-fornecido. Somente os valores de hash são carregados no serviço, portanto, seus dados confidenciais nunca estão abertos.

Elementos de suporte primário e secundário

Ao criar um SIT EDM, você define um campo de elemento primário no pacote de regras. Em seguida, o EDM pesquisa todo o conteúdo do elemento primário. Para que o EDM possa detectá-los, os elementos primários devem ser detectáveis por meio de um SIT existente.

Observação

Para obter uma lista completa dos SITs disponíveis., consulte Definições de entidade de tipo de informação confidencial

Você precisa encontrar um SIT interno que detecte as informações confidenciais que deseja que seu EDM SIT detecte. Por exemplo, se o esquema EDM SIT tiver o número de segurança social dos EUA como o elemento principal, ao criar seu esquema EDM, você o associaria ao SIT (Número de Segurança Social) dos EUA . Os elementos primários devem seguir um padrão definido para serem detectados.

Quando o elemento primário é encontrado em um item verificado, o EDM procura elementos secundários (também chamados de elementos de suporte ). Ao contrário dos elementos primários, os elementos secundários têm a opção de seguir um padrão. Se elementos secundários contiverem vários tokens, esses elementos precisarão ser associados a um SIT que possa detectar esse conteúdo ou que possa ser configurado para correspondência de vários tokens. Em todos os casos, os elementos secundários devem estar dentro de uma certa proximidade com o elemento primário para que uma correspondência seja detectada.

Como funciona a correspondência

O EDM funciona comparando cadeias de caracteres em seus documentos e emails com valores na tabela de origem de informações confidenciais. Ele usa essa comparação para determinar se os valores no conteúdo verificado estão presentes na tabela. A determinação é feita comparando hashes criptográficos unidirecionais.

Dica

Você pode usar SITs EDM e SITs predefinidos nos quais eles se baseiam, juntos em regras DLP para melhorar a detecção de dados confidenciais. Use o EDM SIT com níveis de confiança mais altos e o SIT predefinido com níveis de confiança mais baixos. Por exemplo, use um EDM SIT que procura número de segurança social e outros dados de suporte com requisitos rígidos com alta confiança. Se configurado para correspondências de alta confiança, o EDM gera uma correspondência DLP quando apenas algumas instâncias são detectadas. Para disparar uma correspondência DLP quando um maior número de ocorrências for detectado, use um SIT interno, como o Número de Segurança Social dos EUA.

Como os elementos de suporte funcionam com o EDM

Conforme discutido em O que é diferente em um EDM SIT, os elementos de suporte são elementos que, quando encontrados, fornecem evidências que ajudam a aumentar a confiança da correspondência.

Com suporte para SITs EDM, você pode procurar e detectar elementos de suporte compostos por vários campos. As correspondências de elementos de suporte podem consistir em listas de palavra-chave, dicionários palavra-chave, cadeias de caracteres alfanuméricas individuais ou cadeias de caracteres multi token.

Vamos examinar um exemplo. Presuma que você queira detectar números da Previdência Social dos EUA. Para aumentar a confiança de correspondência, seus elementos de suporte incluem first name, last namee date of birth (DoB). Portanto, sua tabela de origem é semelhante a esta:

SSN FirstName Sobrenome Dob
987-65-4320 Isaías Langer 05-05-1960
078-05-1120 Ana Bowman 11-24-1971
219-09-9999 Oscar Ward 02-12-1998

Ao procurar elementos de suporte correspondentes em um arquivo protegido, o SIT do EDM verifica cada elemento de suporte (individualmente e em combinação) depois que o elemento primário é detectado.

Por exemplo, diga que o primeiro número de segurança social foi detectado. A funcionalidade exata de correspondência de dados em seguida procura combinações de elementos de suporte em todas as colunas em sua tabela de origem:

  • Isaías
  • Langer
  • 05-05-1960
  • Isaiah Langer
  • Isaías 05-05-1960
  • Langer 05-05-1960
  • Isaiah Langer 05-05-1960

Correspondência de vários tokens

A correspondência de vários tokens foi projetada para ser usada quando seu campo de evidência corroborativa contém valores de vários tokens, mas corresponder esses valores a um SIT não é facilmente realizado. Por exemplo, quando você tem um Address campo que contém valores como 1 Microsoft Way, Redmond, WA ou 123 Main Street, New York, NY.

Esse recurso permite que o EDM compare os hashes de palavras consecutivas no conteúdo com os hashes dos campos de vários tokens em sua fonte de dados. Se forem idênticos, o EDM produzirá uma correspondência. Dessa forma, o EDM pode detectar campos de vários tokens, como nomes, endereços, condições médicas ou quaisquer outros campos de evidência corroborativos que possam conter mais de uma palavra, desde que sejam marcados como vários tokens em seu esquema EDM.

Por exemplo, se você selecionar a correspondência de vários tokens como a opção de correspondência, obterá dois benefícios adicionais:

  1. Suas políticas detectarão conteúdo que corresponda a vários campos entre as colunas na tabela de origem.
  2. Sua tabela de origem pode incluir campos com valores de cadeia de caracteres que consistem em um número pré-configurado de palavras. A tabela a seguir mostra uma tabela de origem de exemplo:
SSN Nome Endereço
987-65-4320 Isaiah Langer 1432 Lincoln Road
078-05-1120 Ana Bowman Rua 8250
219-09-9999 Oscar Ward Avenida 424 205

Com a correspondência de vários tokens, os campos Nome e Endereço de Rua são correspondidos como cadeias de caracteres de elemento de suporte independentes e em combinação como campos individuais. Portanto, quando correspondidas como cadeias de caracteres de vários tokens como elementos de suporte para o número da Previdência Social 987-65-4320, as correspondências são:

  • Isaiah Langer
  • 1432 Lincoln Road

Quando correspondida em combinação, a correspondência é assim:

  • Isaiah Langer + 1432 Lincoln Road

Também há suporte para correspondência de vários tokens para conjuntos de caracteres de bytes duplos, que geralmente não usam espaços para separar palavras.

Serviços que o EDM dá suporte

Serviço Localizações
Prevenção Contra Perda de Dados do Microsoft Purview - SharePoint
– OneDrive
– Chat
do Teams – Exchange Online
– Dispositivos
Microsoft Defender for Cloud Apps - SharePoint
– OneDrive
Rotulagem automática (lado do serviço) - SharePoint
– OneDrive
– Exchange Online
Rotulagem automática (lado do cliente) - Word
– Excel
– PowerPoint
– Clientes da área de trabalho do Exchange
Chave Gerenciada pelo Cliente - SharePoint
– OneDrive
– Chat
do Teams – Exchange Online
– Word
– Excel
– PowerPoint
– Clientes da área de
trabalho do Exchange – Dispositivos
Descoberta eletrônica - SharePoint
– OneDrive
– Chat
do Teams – Exchange Online
– Word
– Excel
– PowerPoint
– Clientes da área de trabalho do Exchange
Gerenciamento de riscos internos - SharePoint
– OneDrive
– Chat
do Teams – Exchange Online
– Word
– Excel
– PowerPoint
– Clientes da área de trabalho do Exchange

Confira também