Aprenda sobre os tipos de informações confidenciais

2025-07-03

Identificar e classificar itens confidenciais que estão sob o controlo da sua organização é o primeiro passo na disciplina de Proteção de Informações. O Microsoft Purview fornece três formas de identificar itens para que possam ser classificados:

manualmente, por utilizadores
através do reconhecimento de padrões automatizados, tal como acontece com tipos de informações confidenciais
através de machine learning

Os tipos de informações confidenciais (SITs) são classificadores baseados em padrões. Detetam informações confidenciais como segurança social, card de crédito ou números de contas bancárias para identificar itens confidenciais. Veja Definições de entidades de tipo de informação confidencial para obter uma lista completa de todos os SITs.

A Microsoft fornece um grande número de SITs pré-configurados ou pode criar os seus próprios.

Licenciamento

A licença E5 é necessária para utilizar os SITs de análise de credenciais. Para obter uma lista de todos os SITs de análise de credenciais, veja Todos os tipos de informações confidenciais de credenciais. Este SIT contém todos os SITs de análise de credenciais disponíveis no portal. Cada membro deste SIT é um SIT de análise de credenciais e pode ser utilizado como autónomo. Para obter uma lista de muitos SITs criados pela Microsoft, veja Definições de entidades de tipo de informação confidencial.

Dica

Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.

Os tipos de informações confidenciais são utilizados no

Categorias de tipos de informações confidenciais

Tipos de informações confidenciais incorporados

A Microsoft criou estes SITs e aparecem no portal do Purview por predefinição. Estes SITs não podem ser editados, mas pode utilizá-los como modelos ao copiá-los para criar tipos de informações confidenciais personalizados. Veja Definições de entidades de tipo de informações confidenciais para obter uma lista completa de todos os SITs.

Tipos de informações confidenciais de entidades nomeadas

Por predefinição, os SITs de entidades nomeadas também são apresentados no portal do Purview. Detetam nomes de pessoas, endereços físicos e termos e condições médicos. Não podem ser editadas ou copiadas. Para obter mais informações, veja Saiba mais sobre entidades nomeadas.

Os SITs de entidades nomeadas têm dois tipos:

não agrupado

Estes SITs de entidades nomeadas têm um foco mais estreito, como um único país ou região, ou uma única classe de termos. Utilize-as quando precisar de uma política de prevenção de perda de dados (DLP) com um âmbito de deteção mais restrito. Veja Exemplos de SITs de entidades nomeadas.

agrupadas

Os SITs de entidades nomeadas agrupadas detetam todas as correspondências possíveis numa classe, como Todos os endereços físicos. Utilize-os como critérios abrangentes nas suas políticas DLP para detetar itens confidenciais. Veja Exemplos de SITs de entidades nomeadas.

Tipos de informações confidenciais personalizadas

Se os tipos de informações confidenciais pré-configurados não corresponderem às suas necessidades, pode criar os seus próprios tipos de informações confidenciais personalizados que define na totalidade ou pode copiar um dos incorporados e modificá-lo. Para obter mais informações, confira

Crie um tipo de informação confidencial personalizado no portal do Microsoft Purview.

Os dados exatos correspondem a tipos de informações confidenciais

Todos os SITs exatos baseados em correspondência de dados (EDM) são criados de raiz. Pode utilizá-los para detetar itens com valores exatos, que define numa base de dados de informações confidenciais. Para obter mais informações, veja Saiba mais sobre os tipos de informações confidenciais baseados em correspondência de dados exatas.

Partes fundamentais de um tipo de informação confidencial

Cada entidade de tipo de informação confidencial (SIT) consiste nos seguintes campos:

Nome: Indica a forma como o tipo de informações confidenciais é referido.
Descrição: Explicação do que o tipo de informação confidencial procura.
Padrão: Define o que um SIT deteta. Consiste nos seguintes componentes: elemento primário, elementos de suporte, nível de confiança e proximidade.

A tabela seguinte descreve cada componente dos padrões utilizados na definição de tipos de informações confidenciais.

Componente de padrão	Descrição
Elemento primário	O elemento main que o tipo de informação confidencial procura. Pode ser uma expressão regular com ou sem uma validação da soma de verificação, uma lista de palavra-chave, um dicionário palavra-chave ou uma função. Cada um destes tipos de elementos pode ser selecionado na lista de SITs existentes ou pode ser definido de forma personalizada por um utilizador com permissões de administrador. Quando um elemento é definido, aparece na lista de elementos existentes, juntamente com os que vêm incorporados.
Elemento de suporte	Um elemento que funciona como prova corroborativa. Quando incluídos, os elementos de suporte ajudam a aumentar o nível de confiança em relação à precisão das correspondências detetadas. Por exemplo, se o elemento primário for definido como `SSN` (composto por nove dígitos) e o Número de Segurança Social (SSN) de palavra-chave for utilizado como um elemento de suporte quando se encontra próximo `SSN`de , a confiança de que o `SSN` detetado é verdadeiramente um número de Segurança Social é maior do que se o Número de Segurança Social (SSN) palavra-chave não estiver presente. Um elemento de suporte pode ser uma expressão regular (com ou sem uma validação da soma de verificação), uma lista de palavra-chave ou um dicionário palavra-chave.
Nível de Confiança	Existem três níveis de confiança no que diz respeito às correspondências detetadas: alta, média e baixa. O nível de confiança reflete a quantidade de provas de suporte detetadas, juntamente com o elemento primário. Quanto mais provas de suporte um item detetado contiver, maior é a confiança de que um item correspondente contém as informações confidenciais que procura. Para obter mais informações sobre os níveis de confiança, veja o vídeo incluído mais à frente neste artigo.
Proximidade	Especifica a proximidade de um elemento de suporte a um elemento primário, em termos do número de carateres entre os mesmos.

Compreender a proximidade

O diagrama seguinte mostra como funciona a deteção de correspondência em relação à proximidade. Neste exemplo, o elemento principal é o SSN campo e a definição SIT requer que cada instância de um SSN valor esteja numa proximidade especificada de, pelo menos, um dos seguintes elementos:

AccountNumber
Name
DateOfBirth

No diagrama, vemos que os dados que estão a ser verificados incluem três instâncias diferentes do SSN campo: SSN1, SSN2, SSN3e SSN4.

Para compreender como a proximidade funciona, vamos começar por analisar alguns critérios de deteção de exemplo. Aqui, queriam detectar números de segurança social de nove dígitos. Os critérios de deteção requerem que uma expressão regular de nove dígitos (elemento primário) seja encontrada em conjunto com provas de suporte (entre os AccountNumbercampos , Namee DateOfBirth ) que aparece dentro de 250 carateres (a proximidade).

Conforme ilustrado no diagrama, apenas os elementos SSN1 principais e SSN4 cumprem os critérios de deteção descritos. Vamos ver mais detalhadamente.

No caso de SSN1, o AccountNumber valor está dentro da janela de proximidade especificada de 250 carateres, pelo que é detetada uma correspondência.
Em ambos os casos de SSN2 e SSN3, nenhum dos elementos de suporte ocorre dentro de 250 carateres do elemento primário, pelo que esses valores não são detetados como uma correspondência. No entanto, ao olhar para SSN2 a janela de proximidade do no diagrama, poderá perguntar: Por que motivo não existe uma correspondência para SSN2? A janela de proximidade não SSN2 se estende ao Name elemento? Esta é uma boa pergunta. A resposta é: Ainda não. Embora a janela de proximidade se estenda aoName valor, não inclui todo o valor, pelo que o padrão não corresponde.
Por fim, no caso de , existem dois elementos de SSN4suporte na janela de proximidade, tanto Name como DateOfBirth, pelo que este padrão também corresponde.

Saiba mais sobre os níveis de confiança neste breve vídeo.

Tipo de informações confidenciais de exemplo

Número de identidade nacional da Argentina (DNI)

Formatar

Oito dígitos separados por pontos

Padrão

Oito dígitos:

dois dígitos
um ponto
três dígitos
um ponto
três dígitos

Soma de verificação

Não

Definição

Uma política DLP tem confiança média de que detetou este tipo de informações confidenciais se, numa proximidade de 250 carateres:

A expressão regular Regex_argentina_national_id localiza conteúdo que corresponde ao padrão.
Foi encontrada uma palavra-chave de Keyword_argentina_national_id.

<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Palavras-chave

Keyword_argentina_national_id

Número de Identidade Nacional da Argentina
Identidade
Cartão de Identidade Nacional de Identificação
DNI
Registo Nacional de Pessoas (NIC)
Documento Nacional de Identidad
Registro Nacional de las Personas
Identidad
Identificación

Mais sobre níveis de confiança

Numa definição de entidade de tipo de informação confidencial, o nível de confiança reflete a quantidade de provas de suporte detetadas, além do elemento primário. Quanto mais provas de suporte um item contiver, maior é a confiança de que um item correspondente contém as informações confidenciais que procura. Por exemplo, as correspondências com um nível de confiança elevado contêm mais provas de apoio perto do elemento primário, enquanto as correspondências com um nível de confiança baixo conteriam pouca ou nenhuma prova de apoio perto.

Um nível de confiança elevado devolve o menor número de falsos positivos, mas pode resultar em mais falsos negativos. Os níveis de confiança baixos ou médios devolvem mais falsos positivos, mas poucos a zero falsos negativos.

baixa confiança: os itens correspondentes contêm o menor número de falsos negativos, mas os mais falsos positivos. A confiança baixa devolve todas as correspondências de confiança baixa, média e alta. O nível de confiança baixo tem um valor de 65.
confiança média: os itens correspondentes contêm um número médio de falsos positivos e falsos negativos. A confiança média devolve todas as correspondências médias e de confiança elevada. O nível de confiança médio tem um valor de 75.
alta confiança: os itens correspondentes contêm o menor número de falsos positivos, mas os mais falsos negativos. A confiança elevada só devolve correspondências de confiança elevadas e tem um valor de 85.

Deve utilizar padrões de nível de confiança elevados com contagens baixas, por exemplo, 5 a 10 e padrões de confiança baixa com contagens mais altas, por exemplo, 20 ou mais.

Observação

Se tiver políticas existentes ou tipos de informações confidenciais (SITs) personalizados definidos com níveis de confiança baseados em números (também conhecidos como precisão), estes serão automaticamente mapeados para os três níveis de confiança discretos; baixa confiança, confiança média e alta confiança na IU do Centro de Conformidade @ Segurança.

Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança entre 76 e 100 serão mapeadas para elevada confiança.
Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança entre 66 e 75 serão mapeadas para confiança média.
Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança inferiores ou iguais a 65 serão mapeadas para baixa confiança.

Criando tipos de informações confidenciais personalizadas

Pode escolher entre várias opções para criar tipos de informações confidenciais personalizados.

Utilizar a IU – pode configurar um tipo de informação confidencial personalizado com a IU do portal do Purview. Com esse método, você pode usar expressões comuns, palavras-chave e dicionários de palavras-chave. Para saber mais, confira Criar um tipo de informações confidenciais personalizadas.
Utilizar o EDM – pode configurar tipos de informações confidenciais personalizados com a classificação baseada em Correspondência de Dados Exata (EDM). Esse método permite criar um tipo de informações confidenciais dinâmico usando um banco de dados seguro que você pode atualizar periodicamente. Veja Saiba mais sobre os tipos de informações confidenciais baseados em correspondência de dados exatas.
Utilizar o PowerShell – pode configurar tipos de informações confidenciais personalizados com o PowerShell. Embora esse método seja mais complexo do que usar a interface do usuário, você tem mais opções de configuração. Veja Criar um tipo de informações confidenciais personalizado no PowerShell de Conformidade do & de Segurança.

Otimizar classificadores treináveis

O DLP de Ponto Final classifica os ficheiros com base em todos os tipos de informações confidenciais disponíveis no inquilino, incluindo tipos de informações confidenciais personalizados, independentemente da sua utilização em quaisquer políticas DLP. Isto pode causar tráfego de classificação excessivo se os tipos de informações confidenciais não estiverem bem ajustados e acabarem por corresponder a muitos ficheiros. Deve otimizar todos os tipos de informações confidenciais personalizados. Para tal, remova os tipos de informações confidenciais não utilizados e reestruture os SITs se corresponderem à maioria dos ficheiros na sua organização. Para obter orientações sobre como utilizar validadores SIT Regex para otimizar OS SITs, consulte: Validadores REGEX do tipo de informações confidenciais e marcar adicionais

Suporte de conjunto de carateres de byte duplo

Estão disponíveis níveis de confiança melhorados para utilização imediata nos serviços Prevenção Contra Perda de Dados do Microsoft Purview, proteção de informações, Conformidade de Comunicações, gestão do ciclo de vida dos dados e gestão de registos.

Proteção de Informações agora suporta idiomas de conjunto de carateres de byte duplo para:
Chinês (simplificado)
Chinês (tradicional)
Coreano
Japonês

Este suporte está disponível para tipos de informações confidenciais. Para obter mais informações, veja Suporte de proteção de informações para notas de versão de conjuntos de carateres de byte duplo.

Suporte de conjunto de carateres de byte único

Para detectar padrões que contêm caracteres chineses/japoneses e caracteres de byte único ou para detectar padrões que contenham chinês/japonês e inglês, defina duas variantes da palavra-chave ou regex.

Por exemplo, para detectar uma palavra-chave como "机的document", use duas variantes da palavra-chave; um com um espaço entre o texto japonês e o inglês e outro sem um espaço entre o texto japonês e o inglês. Portanto, as palavras-chave a serem adicionadas no SIT devem ser "机密的 document" e "机密的document". Da mesma forma, para detectar uma frase "東京オリンピック2020", duas variantes devem ser usadas; "東京オリンピック 2020" e "東京オリンピック2020".

Juntamente com carateres de bytes duplos/chinês/japonês, se a lista de palavras-chave/expressões também contiver palavras não chinesas/japonesas (por exemplo, apenas em inglês), deverá criar dois dicionários/listas de palavra-chave. Uma para palavras-chave que contêm carateres de bytes chineses/japoneses/duplos e outra para palavras-chave apenas em inglês. Por exemplo, se quiser criar um palavra-chave dicionário/lista com três expressões "Altamente confidencial", "機密性が高い" e "机密的document", deve criar duas listas de palavra-chave.

Altamente confidencial
機密性が高い, 机密的document e 机密的 documento Ao criar um regex com um hífen de byte duplo ou um período de byte duplo, certifique-se de que escapa a ambos os carateres como se escapasse de um hífen ou ponto final num regex. Eis um regex de exemplo para referência: (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Recomendamos que utilize a correspondência de cadeias em vez da correspondência de palavras numa lista de palavra-chave.

Testar o tipo de informações confidenciais

Pode testar o SIT ao carregar um ficheiro de exemplo. Os resultados do teste mostram o número de correspondências para cada nível de confiança. Pode testar SITs incorporados, SITs personalizados, classificadores treináveis e correspondência de dados exata.

Testar o tipo de informações confidenciais incorporadas e personalizadas

Testar dados exatos correspondem ao tipo de informações confidenciais.

Para testar qualquer inquilino SIT personalizado ou predefinido, tem de haver, pelo menos, uma licença Exchange Online adicionada ao inquilino. Caso contrário, a opção Testar SIT estará desativada quando qualquer SIT estiver selecionado.

Fornecer comentários de precisão correspondentes/não correspondentes em tipos de informações confidenciais

Pode ver o número de correspondências que um SIT tem em Tipos de informações confidenciais e Explorador de conteúdos. Também pode fornecer feedback sobre se um item corresponde ou não ao mecanismo de feedback Match, Not a Match e utilizar esse feedback para otimizar os seus SITs. Para obter mais informações, veja Aumentar a precisão do classificador.

Para obter mais informações

Para saber como utilizar tipos de informações confidenciais para cumprir as normas de privacidade dos dados, consulte Implementar a proteção de informações para regulamentos de privacidade de dados com o Microsoft 365 (aka.ms/m365dataprivacy).