Partilhar via


Crie um tipo de informação confidencial/pacote de regras de correspondência exata de dados

Dica

Se você não for um cliente E5, use a avaliação de soluções do Microsoft Purview de 90 dias para explorar como recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações portal de conformidade do Microsoft Purview. Saiba mais sobre os termos de inscrição e avaliação.

Aplicável a

Você pode criar uma SIT (correspondência exata de dados) (SIT) usando o esquema Use o esquema Exact Data Match e a ferramenta de padrão SIT no Portal de Conformidade do Microsoft Purview ou pode criar o pacote de regras manualmente como um arquivo XML. Você também pode combinar os dois métodos usando um método para criar o esquema e, posteriormente, usando o outro método para editá-lo.

Se você não estiver familiarizado com o SITS baseado em EDM ou sua implementação, você deverá se familiarizar com:

Pré-requisitos

Execute as etapas nestes artigos:

  1. Exportar dados de origem para tipos de informações confidenciais baseados em correspondência de dados exatos
  2. Criar o esquema para tipos de informações confidenciais com base em correspondência exata de dados
  3. Hash e carregue a tabela de fonte de informações confidenciais para tipos de informações confidenciais de correspondência exata de dados
  • Se você criará um SIT EDM usando a ferramenta ou o arquivo XML do pacote de regras por meio do PowerShell, você deve ter permissões de administrador global ou administrador de conformidade para criar, testar e implantar um SIT personalizado por meio da interface do usuário. Consulte Sobre funções de administrador no Office 365.
  • Identifique um dos SITs internos a serem usados como os elementos primários SIT.
    • Se nenhum dos SITs internos corresponder aos dados na coluna selecionada, você terá que criar um SIT personalizado que o faça.
    • Se você selecionou a opção Delimitadores Ignorados para a coluna de elemento primário em seu esquema, verifique se o SIT personalizado criado corresponderá aos dados com e sem os delimitadores selecionados.
    • Se você usar um SIT interno, verifique se ele detectará exatamente as cadeias de caracteres que deseja selecionar e não incluirá caracteres ao redor ou excluirá qualquer parte válida da cadeia de caracteres, conforme armazenado em sua tabela de informações confidenciais.

Consulte Definições de entidade de tipo de informação confidencial e Criar tipos de informações confidenciais personalizados.

Usar o esquema Exact Data Match e a ferramenta de padrão SIT

Você pode usar essa ferramenta para criar seus arquivos SIT para ajudar a simplificar o processo.

Um SIT EDM é composto por um ou mais padrões. Cada padrão descreve uma combinação de campos do esquema que serão usados para identificar conteúdo confidencial em um documento ou email (evidência).

Selecione a guia apropriada para o portal que você está usando. Para saber mais sobre o portal do Microsoft Purview, consulte o portal do Microsoft Purview. Para saber mais sobre o portal de conformidade, consulte portal de conformidade do Microsoft Purview.

  1. Entre no portal > do Microsoft PurviewProteção de Informações>Classificadores classificadores>EDM.

    1. Defina a nova experiência EDM como Desativada
  2. Escolha tipos de informações confidenciais do EDM e Crie tipo de informações confidenciais do EDM para abrir a ferramenta de configuração tipo de informação confidencial.

  3. Selecione Escolher um esquema EDM existente e escolha o esquema criado em Criar o esquema para tipos de informações confidenciais baseados em correspondência de dados exatos. Selecione Adicionar.

  4. Escolha Próximo e escolha Criar padrão.

  5. Escolha o nível de confiança e o elemento Primário. Para saber mais sobre os níveis de confiança, consulte Saiba mais sobre tipos de informações confidenciais.

  6. Escolha o tipo de informações confidenciais do elemento Primário para associá-lo a que texto no documento será comparado com todos os valores no campo elemento primário. Consulte Definições de entidade SIT para saber mais sobre os tipos de informações confidenciais disponíveis.

    Importante

    Selecione um SIT que corresponda de perto ao formato do conteúdo que você deseja encontrar. Selecionar um SIT que corresponda a conteúdo desnecessário, como um que corresponda a todas as cadeias de caracteres de texto ou todos os números pode causar carga excessiva no sistema, o que pode resultar em informações confidenciais que permanecem não detectadas.

  7. Selecione seus elementos de suporte e opções de correspondência.

  8. Escolha Concluído.

  9. Escolha Criar padrão se quiser criar padrões adicionais para seu EDM SIT.

  10. Selecione Avançar.

  11. Escolha o nível de confiança recomendado desejado e a proximidade do caractere. Esse será o valor padrão para o SIT EDM inteiro. (Para obter informações sobre a proximidade do caractere, consulte Compreensão da proximidade). Selecione Avançar.

  12. Escolha Próximo e preencha oNome e Descrição para os administradores.

    Ao criar seu arquivo de esquema, os cabeçalhos de coluna (campos de dados) devem seguir os seguintes requisitos de nomenclatura:
    - Deve começar com uma letra e deve consistir em pelo menos três caracteres alfanuméricos.
    - Deve incluir apenas caracteres alfanuméricos.

  13. Examine e escolha Enviar.

Editar ou excluir um padrão SIT

Selecione a guia apropriada para o portal que você está usando. Para saber mais sobre o portal do Microsoft Purview, consulte o portal do Microsoft Purview. Para saber mais sobre o portal de conformidade, consulte portal de conformidade do Microsoft Purview.

  1. Entre no portal > do Microsoft PurviewProteção de Informações>Classificadores classificadores>EDM.

    1. Defina a nova experiência EDM como Desativada
  2. Escolha tipos de informações confidenciais do EDM.

  3. Escolha o EDM SIT que você deseja editar.

  4. Escolha Editar tipo de informações confidenciais do EDM ou Excluir tipo de informações confidenciais do EDM no flyout.

  5. Veja , Use o esquema Exact Data Match e a ferramenta de padrão SIT para os procedimentos na edição.

Trabalhando com tipos específicos de dados

Por motivos de desempenho, é fundamental que você use padrões que minimizarão o número de correspondências desnecessárias. Por exemplo, você pode usar um SIT com base na expressão regular.

\b\w*\b

Isso corresponderia a cada palavra ou número individual em qualquer documento ou email. Isso faria com que o serviço fosse sobrecarregado com correspondências e não detectasse correspondências verdadeiras. Usar padrões mais precisos pode evitar essa situação. Aqui estão algumas recomendações para identificar a configuração certa para alguns tipos comuns de dados.

Email endereços: Email endereços podem ser fáceis de identificar, mas como são tão comuns em conteúdo confidencial, eles podem causar uma carga significativa no sistema se usados como um campo primário. Use os adidores de email apenas como evidência secundária. Se eles precisarem ser usados como evidência primária, quando você definir sua lógica de uso de SIT personalizada para excluir itens em que endereços de email são usados como From ou To campos em emails. Use também a lógica para excluir endereços de email do domínio da sua empresa para reduzir o número de cadeias de caracteres desnecessárias que precisam ser correspondidas.

Números de telefone: os números de telefone podem vir em muitos formatos diferentes, incluindo ou excluindo prefixos de país/região, códigos de área e separadores. Para reduzir os falsos negativos mantendo a carga no mínimo, use-os apenas como elementos secundários, exclua todos os separadores prováveis, como parênteses e traços e inclua apenas na tabela de dados confidenciais a parte que sempre estará presente no número de telefone.

nomes de Pessoas: não use os nomes das pessoas como elementos primários se estiver usando um SIT com base em uma expressão regular como o elemento de classificação para esse tipo de EDM, pois elas são difíceis de distinguir das palavras comuns.

Se você precisar usar um elemento primário difícil de identificar com um padrão específico (como um nome de código do projeto), que possa gerar um grande volume de correspondências a serem processadas, certifique-se de incluir palavras-chave no SIT que você usa como elemento de classificação para o tipo EDM. Por exemplo, se usar nomes de código de projeto que também são palavras regulares, você poderá usar a palavra project como evidência adicional necessária nas proximidades do padrão baseado em expressão regular do nome do projeto no SIT que você usa como elemento de classificação para o tipo EDM. Ou você pode considerar o uso de um SIT com base em um dicionário regular como o elemento de classificação do SEU EDM SIT.

Ao tentar corresponder cadeias de caracteres numéricas, especifique os intervalos permitidos de números, como o número de dígitos ou os dígitos iniciais, se conhecidos. Se você precisar corresponder a um intervalo relativamente flexível de números, poderá usar palavras-chave no SIT base para reduzir o número de correspondências. Por exemplo, se tentar corresponder números de conta que consistem em 7 a 11 dígitos, adicione as palavras account, , customeracct. ao SIT como evidência adicional necessária. Isso reduz a probabilidade de correspondências desnecessárias que podem resultar em exceder os limites de correspondências EDM que podem ser processadas.

Se um campo que você precisa usar como elemento primário seguir um padrão simples que pode resultar em um grande número de correspondências, e você não pode adicionar a presença de palavras-chave como evidência adicional no SIT, em vez disso, você pode exigir um número mínimo de ocorrências desse padrão. Por exemplo, você pode usar um SIT personalizado definido da seguinte maneira para detectar pelo menos outros 29 números de cinco dígitos em torno de um número potencial de cinco dígitos para corresponder em seu conteúdo confidencial:

 <Entity id="98703510-18b3-43d4-961f-15317594beb7"
                  patternsProximity="300"
                  recommendedConfidence="85"
                  relaxProximity="false">
                  <Pattern confidenceLevel="85"
                              proximity="300">
                              <IdMatch idRef="MRN"/>
                              <Match idRef="30 AccountNrs"
                                    minCount="30"
                                    proximity="3000"
                                    uniqueResults="true"/>
                  </Pattern>
      </Entity>
      <Regex id="30 AccountNrs">\d{5}</Regex>

Em alguns casos, talvez seja necessário identificar determinados números de identificação de conta ou registro que, por razões históricas, não seguem um padrão padronizado. Por exemplo, Medical Record Numbers pode ser composto por muitas permutações diferentes de letras e números dentro da mesma organização. Embora possa ser difícil no início identificar um padrão, uma inspeção mais próxima geralmente permite reduzir um padrão que descreve todos os valores válidos sem causar um número excessivo de correspondências inválidas. Por exemplo, pode-se detectar que "todas as MRNs têm pelo menos sete caracteres de comprimento, têm pelo menos dois dígitos numéricos neles e, se tiverem letras neles, começam com um". A criação de uma expressão regular com base nesses critérios deve permitir que você minimize correspondências desnecessárias ao capturar todos os valores desejados, e uma análise adicional pode permitir maior precisão definindo padrões separados que descrevem diferentes formatos.

Criar um pacote de regras manualmente

Este procedimento mostra como criar um arquivo no formato XML chamado pacote de regras (com codificação Unicode) e, em seguida, carregá-lo no Microsoft Purview usando cmdlets do PowerShell de Conformidade & Segurança.

Observação

Se o SIT para o qual você mapeia pode detectar evidências corroborativas de várias palavras, os elementos secundários que você define em um pacote de regras criados manualmente podem ser mapeados para o SIT. Por exemplo, o nome John Smith não corresponderia como um elemento secundário porque compararíamos John e Smith encontramos no conteúdo separadamente com o termo John Smith carregado em um dos campos, se esse campo de evidência corroborativa não fosse mapeado para um SIT que possa detectar esse padrão.

Há um limite de 10 pacotes de regras em um locatário do Microsoft 365. Como um pacote de regras pode conter um número arbitrário de tipos de informações confidenciais, você pode evitar criar um novo pacote de regras sempre que quiser definir um novo SIT usando esse método, em vez disso, exportar um pacote de regras existente e adicionar seus tipos de informações confidenciais ao XML antes de carregá-lo novamente.

  1. Crie um pacote de regras no formato XML (com codificação Unicode), semelhante ao exemplo a seguir. (Você pode copiar, modificar e usar nosso exemplo.)

    Ao configurar o pacote de regras, faça referência correta ao arquivo de tabela de origem de informações confidenciais e edm.xmlarquivo de esquema delimitado .csv, .tsv ou pipe (|). Você pode copiar, modificar e usar nosso exemplo. Neste exemplo xml, os seguintes campos precisam ser personalizados para criar seu tipo sensível EDM:

    • Id do RulePack e id ExactMatch: Use New-GUID para gerar um GUID.

    • Datastore: este campo especifica o repositório de dados de pesquisa EDM a ser usado. Você fornece o nome da fonte de dados do Esquema EDM configurado.

    • idMatch: este campo aponta para o elemento principal do EDM.

    • Correspondências: especifica o campo a ser usado na pesquisa exata. Forneça um nome de campo pesquisável no esquema EDM para o DataStore.

    • Classificação: este campo especifica a correspondência SIT que dispara a pesquisa EDM. Você pode usar o nome ou GUID de um SIT interno ou personalizado existente.

    Observação

    Esteja ciente de que qualquer cadeia de caracteres que corresponda ao SIT fornecido será hash e comparada a cada entrada na tabela de origem de informações confidenciais. Para evitar problemas de desempenho se você escolher um SIT personalizado para o elemento de classificação, não use um que corresponda a uma grande porcentagem de conteúdo. Por exemplo, um que corresponde a "qualquer número" ou "qualquer palavra de cinco letras". Você pode diferenciá-lo adicionando palavras-chave de suporte ou incluindo a formatação na definição da classificação personalizada SIT.

    • Correspondência: este campo aponta para evidências adicionais encontradas nas proximidades do idMatch.

    • Correspondências: você fornece qualquer nome de campo no Esquema EDM para DataStore.

    • IdRef de recurso: Esta seção especifica o nome e a descrição do tipo confidencial em várias localidades

      • Você fornece GUID para A ID do ExactMatch.
      • Nome & descrição: personalize conforme necessário.
      <RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm">
         <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11">
           <Version build="0" major="2" minor="0" revision="0" />
           <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" />
           <Details defaultLangCode="en-us">
             <LocalizedDetails langcode="en-us">
               <PublisherName>IP DLP</PublisherName>
               <Name>Health Care EDM Rulepack</Name>
               <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description>
             </LocalizedDetails>
           </Details>
         </RulePack>
         <Rules>
           <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" >
             <Pattern confidenceLevel="65">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
             </Pattern>
             <Pattern confidenceLevel="75">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
               <Any minMatches ="3" maxMatches ="6">
                 <match matches="PatientID" />
                 <match matches="MRN"/>
                 <match matches="FirstName"/>
                 <match matches="LastName"/>
                 <match matches="Phone"/>
                 <match matches="DOB"/>
               </Any>
             </Pattern>
           </ExactMatch>
           <LocalizedStrings>
             <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371">
               <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name>
               <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description>
             </Resource>
           </LocalizedStrings>
         </Rules>
      </RulePackage>
      
  2. Carregue o pacote de regras executando o seguinte comando do PowerShell:

    New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
    

Observação

A sintaxe do arquivo de pacote de regra é a mesma de outros tipos de informações confidenciais. Para obter detalhes completos sobre a sintaxe do arquivo de pacote de regras e para opções de configuração adicionais e para obter instruções sobre como modificar e excluir tipos de informações confidenciais usando o PowerShell, crie um SIT personalizado usando o PowerShell.

Próxima etapa