Aprenda sobre os tipos de informações confidenciais

Identificar e classificar itens confidenciais que estão sob o controle de suas organizações é a primeira etapa na Proteção de Informações disciplina. O Microsoft Purview fornece três maneiras de identificar itens para que eles possam ser classificados:

  • manualmente por usuários
  • reconhecimento automatizado de padrões, como tipos de informações confidenciais
  • machine learning

Tipos de informações confidenciais (SIT) são classificadores baseados em padrões. Eles detectam informações confidenciais, como números de seguro social, cartão de crédito ou conta bancária, para identificar itens confidenciais. Consulte Definições de entidade de tipos de informações confidenciais para obter uma lista completa de todos os SITs.

A Microsoft fornece um grande número de SITs pré-configurados ou você pode criar seus próprios.

Ponta

Se você não for um cliente E5, poderá experimentar todos os recursos premium do Microsoft Purview gratuitamente. Use a avaliação de soluções do Purview de 90 dias para explorar como os recursos robustos do Purview podem ajudar sua organização a gerenciar as necessidades de conformidade e segurança de dados. Comece agora no portal de conformidade do Microsoft Purview de avaliações. Saiba mais sobre como inscrever-se e os termos de avaliação.

Tipos de informações confidenciais são usados em

Categorias de tipos de informações confidenciais

Tipos de informações confidenciais internos

Esses SITs são criados pela Microsoft aparecem no console de conformidade por padrão. Esses SITs não podem ser editados, mas podem ser usados como modelos e copiados para criar tipos de informações confidenciais personalizados. Consulte, definições de entidade de tipo de informações confidenciais para obter uma listagem completa de todos os SITs.

Tipos de informações confidenciais de entidade nomeada

Os SITs de entidade nomeadas também aparecem no console de conformidade por padrão. Eles detectam nomes de pessoas, endereços físicos e termos e condições médicas. Eles não podem ser editados ou copiados. Saiba mais sobre entidades nomeadas . Os SITs de entidade nomeadas vêm em dois tipos:

un-bundled

Esses SITs de entidade nomeadas têm um foco mais estreito, como um único país ou uma única classe de termos. Use-os quando precisar de uma política DLP com um escopo de detecção mais estreito. Veja, exemplos de SITs de entidade nomeada.

Empacotado

SITs de entidade nomeada agrupados detectam todas as possíveis partidas em uma classe, como Todos os endereços físicos. Use-os como critérios amplos em suas políticas DLP para detectar itens confidenciais. Veja, exemplos de SITs de entidade nomeada.

Tipos de informações confidenciais personalizadas

Se os tipos de informações confidenciais pré-configurados não atenderem às suas necessidades, você poderá criar seus próprios tipos de informações confidenciais personalizados que definir totalmente ou copiar um dos internos e modificá-los. Consulte, Criar um tipo de informação confidencial personalizado no Centro de Conformidade para obter mais informações.

Os dados exatos correspondem a tipos de informações confidenciais

Todos os SITs baseados em EDM são criados do zero. Use-os para detectar itens que têm valores exatos que você define em um banco de dados de informações confidenciais. Saiba mais sobre os tipos de informações confidenciais baseados em correspondência de dados exatos para obter mais informações.

Partes fundamentais de um tipo de informação confidencial

Cada entidade de tipo de informação confidencial é definida por estes campos:

  • name: como o tipo de informação confidencial é referenciado
  • descrição: descreve o que o tipo de informação confidencial está procurando
  • padrão: um padrão define o que um tipo de informação confidencial detecta. Ele consiste nos componentes a seguir.
    • Elemento primário – o elemento principal que o tipo de informação confidencial está procurando. Pode ser uma expressão regular com ou sem uma validação de soma de verificação, uma lista de palavras-chave, um dicionário de palavras-chave ou uma função.
    • Elemento de suporte – elementos que atuam como evidência de suporte que ajudam a aumentar a confiança da correspondência. Por exemplo, a palavra-chave "SSN" próxima a um número SSN. Pode ser uma expressão regular com ou sem uma validação de soma de verificação, lista de palavras-chave, dicionário de palavras-chave.
    • Nível de confiança – os níveis de confiança (alto, médio, baixo) refletem a quantidade de evidências de suporte detectadas junto com o elemento primário. Quanto mais evidências de suporte um item contiver, maior será a confiança de que um item correspondido contém as informações confidenciais que você está procurando.
    • Proximidade – número de caracteres entre o elemento primário e o elemento de suporte.

Diagrama de evidências comprobatórias e janela de proximidade.

Saiba mais sobre os níveis de confiança neste breve vídeo.

Exemplo de tipo de informação confidencial

Número de identidade nacional/regional da Argentina (DNI)

Formatar

Oito dígitos separados por pontos

Padrão

Oito dígitos:

  • dois dígitos
  • um ponto
  • três dígitos
  • um ponto
  • três dígitos

Soma de verificação

Não

Definição

Uma política DLP tem média confiança de que detectou esse tipo de informação confidencial se, dentro de uma proximidade de 300 caracteres:

  • A expressão regular Regex_argentina_national_id encontra o conteúdo que corresponde ao padrão.
  • Uma palavra-chave Keyword_argentina_national_id é encontrada.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Palavras-chave

Keyword_argentina_national_id

  • Número de Identidade Nacional da Argentina
  • Identidade
  • Carteira de Identidade Nacional de Identificação
  • Dni
  • Registro Nacional de Pessoas da NIC
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

Mais informações sobre níveis de confiança

Em uma definição de entidade de tipo de informação confidencial, o nível de confiança reflete a quantidade de evidências de suporte detectadas além do elemento primário. Quanto mais evidências de suporte um item contiver, maior será a confiança de que um item correspondido contém as informações confidenciais que você está procurando. Por exemplo, as combinações com um alto nível de confiança conterão mais evidências de suporte próximas ao elemento primário, enquanto as correspondentes com um nível de confiança baixo conteriam pouca ou nenhuma evidência de suporte próxima.

Um alto nível de confiança retorna o menor número de falsos positivos, mas pode resultar em mais falsos negativos. Níveis de confiança baixo ou médio retornam mais falsos positivos, mas poucos a zero falsos negativos.

  • baixa confiança: os itens correspondentes conterão o menor número de falsos negativos, mas os mais falsos positivos. Baixa confiança retorna todas as partidas de confiança baixa, média e alta. O nível de confiança baixo tem um valor de 65.
  • confiança média: os itens correspondentes conterão uma quantidade média de falsos positivos e falsos negativos. A confiança média retorna todas as correspondentes média e alta confiança. O nível de confiança médio tem um valor de 75.
  • alta confiança: os itens correspondentes conterão o menor número de falsos positivos, mas os mais falsos negativos. Alta confiança retorna apenas as partidas de alta confiança e tem um valor de 85.

Você deve usar padrões de alto nível de confiança com contagens baixas, digamos de cinco a dez e padrões de baixa confiança com contagens mais altas, digamos 20 ou mais.

Observação

Se você tiver políticas existentes ou SITs (tipos de informações confidenciais) personalizados definidos usando níveis de confiança baseados em número (também sabem como precisão), eles serão mapeados automaticamente para os três níveis de confiança discretos; baixa confiança, confiança média e alta confiança na interface do usuário do Security @ Compliance Center.

  • Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança entre 76 e 100 serão mapeadas para alta confiança.
  • Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança entre 66 e 75 serão mapeadas para confiança média.
  • Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança menores ou iguais a 65 serão mapeadas para baixa confiança.

Criando tipos de informações confidenciais personalizadas

Você pode escolher entre várias opções para criar tipos de informações confidenciais personalizados no Centro de Conformidade.

Observação

Níveis de confiança aprimorados estão disponíveis para uso imediato nos serviços de prevenção contra perda de dados do Microsoft Purview, proteção de informações, Conformidade de Comunicação, gerenciamento do ciclo de vida de dados e gerenciamento de registros. Proteção de Informações agora dá suporte a idiomas de conjunto de caracteres de byte duplo para:

  • Chinês (simplificado)
  • Chinês (tradicional)
  • Coreano
  • Japonês

Este suporte está disponível para tipos de informações confidenciais. Consulte, Suporte à proteção de informações para notas de versão de conjuntos de caracteres de bytes duplos para obter mais informações.

Ponta

Para detectar padrões que contêm caracteres chineses/japoneses e caracteres de byte único ou para detectar padrões que contenham chinês/japonês e inglês, defina duas variantes da palavra-chave ou regex.

  • Por exemplo, para detectar uma palavra-chave como "机的document", use duas variantes da palavra-chave; um com um espaço entre o texto japonês e o inglês e outro sem um espaço entre o texto japonês e o inglês. Portanto, as palavras-chave a serem adicionadas no SIT devem ser "机密的 document" e "机密的document". Da mesma forma, para detectar uma frase "東京オリンピック2020", duas variantes devem ser usadas; "東京オリンピック 2020" e "東京オリンピック2020".

Juntamente com caracteres de byte chinês/japonês/duplo, se a lista de palavras-chave/frases também contiver palavras não chinesas/japonesas (como apenas em inglês), você deverá criar duas listas de dicionários/palavras-chave. Um para palavras-chave contendo caracteres de dois bytes/Chineses/Japoneses e outro apenas para inglês.

  • Por exemplo, se você quiser criar um dicionário/lista de palavras-chave com três frases "Altamente confidencial", "機密性が高い" e "机密的document", você deverá criar duas listas de palavras-chave.
    1. Altamente confidencial
    2. 機密性が高い, documento机密的 e documento机密的

Ao criar um regex usando um hífen de byte duplo ou um ponto de byte duplo, certifique-se de escapar ambos os caracteres, como um escape de um hífen ou ponto em um regex. Aqui está um exemplo de regex para referência:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

É recomendável usar a correspondência de cadeia de caracteres em vez da correspondência de palavras-chave em uma lista de palavras-chave.

Fornecer comentários de correspondência/não de precisão de correspondência em tipos de informações confidenciais

Você pode exibir o número de correspondentes que um SIT tem nos tipos de informações confidenciais eno Explorador de conteúdo. Você também pode fornecer comentários sobre se um item é realmente uma correspondência ou não usando o mecanismo de comentários Match,Not a Match e usar esses comentários para ajustar seus SITs. Consulte, Aumentar a precisão do classificador (versão prévia) para obter mais informações.

Para obter mais informações

Para saber como usar tipos de informações confidenciais para cumprir as regulamentações de privacidade de dados, consulte Implantar proteção de informações para regulamentos de privacidade de dados com o Microsoft 365 (aka.ms/m365dataprivacy).