Exportar dados de origem para tipos de informações confidenciais baseados em correspondência de dados exatos
Dica
Se você não for um cliente E5, use a avaliação de soluções do Microsoft Purview de 90 dias para explorar como recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações portal de conformidade do Microsoft Purview. Saiba mais sobre os termos de inscrição e avaliação.
Aplicável a
A tabela de dados confidenciais é um arquivo de texto que contém linhas de valores em que você compara o conteúdo em seus documentos para identificar dados confidenciais. Esses valores podem ser informações pessoalmente identificáveis, registros de produtos ou outros dados confidenciais no formulário de texto que você deseja detectar em seu conteúdo e proteger.
Depois de exportar os dados em sua tabela (em um dos formatos com suporte), você poderá criar um esquema EDM.
Definindo seu tipo EDM Sensitive
Quando você define seu tipo sensível ao EDM, uma das decisões mais críticas é definir quais campos são seus campos primários. Os campos primários precisam seguir um padrão detectável e ser definidos como campos pesquisáveis (colunas) em seu esquema EDM. Os campos secundários não precisam seguir nenhum padrão, pois serão comparados com todos os textos em torno de correspondências com os campos primários.
Use estas regras para ajudá-lo a decidir quais colunas você deve usar como campos primários:
- Se você precisar detectar dados confidenciais com base na presença de um único valor que corresponda a um campo em sua tabela de dados confidenciais, independentemente da presença de outros dados confidenciais ao seu redor, essa coluna deve ser definida como um elemento primário para um SIT EDM.
- Se várias combinações de campos diferentes na tabela de dados confidenciais precisarem ser detectadas no conteúdo, identifique as colunas comuns à maioria dessas combinações e designe-as como elementos primários. Designe combinações dos outros campos como elementos secundários.
- Se uma coluna que você deseja usar como elemento primário não seguir um padrão detectável, como
any text string
ou seguir padrões detectáveis que estariam presentes em algum lugar em uma grande porcentagem de documentos ou emails, escolha outras colunas mais estruturadas e mais estruturadas como elementos primários.
Por exemplo, se você tiver as colunas full name
, date of birth
, , account number
e Social Security Number
, mesmo que os primeiros e sobrenomes sejam as colunas comuns às diferentes combinações de dados que você deseja detectar, essas cadeias de caracteres não seguem padrões facilmente identificáveis e podem ser difíceis de definir como um tipo de informação confidencial. Há uma série de razões para isso:
- alguns nomes podem não começar com um caractere maiúscula
- alguns podem ser formados por duas, três ou mais palavras/cadeias de caracteres
- alguns podem conter números ou outros caracteres não alfabéticos. As datas de nascimento podem ser identificadas com mais facilidade, mas, como cada email e a maioria dos documentos conterão pelo menos uma data, um
DateOfBirth
campo também não é um bom candidato. Em vez disso, use campos como números da Previdência Social e números de conta, que são bons candidatos para campos primários.
Modelos de arquivo de exemplo
Para facilitar a seleção dos campos primários, reunimos alguns modelos de arquivo de exemplo para:
Estes são arquivos de valor separado por vírgulas (.csv) que têm os valores mais usados entre essas verticais do setor como cabeçalhos de coluna, juntamente com valores sintéticos gerados pela Microsoft nas linhas. Use os cabeçalhos de coluna para ajudá-lo a decidir sobre seus campos primários. A melhor prática é exportar apenas os dados de origem necessários. Os cabeçalhos de coluna sugerem os campos mais relevantes.
Para saber como usar os modelos de arquivo de exemplo, consulte Como usar os modelos de arquivo de exemplo.
Salvar dados confidenciais no formato separado por.csv, .tsv ou pipe
Identifique as informações confidenciais que deseja usar. Exporte os dados para um aplicativo como o Microsoft Excel e salve o arquivo como um arquivo de texto. O arquivo pode ser salvo em qualquer um dos seguintes formatos: .csv (valores separados por vírgulas), .tsv (valores separados por guia) ou (|)(separados por pipe). O formato .tsv é recomendado nos casos em que seus valores de dados podem incluir vírgulas, como endereços de rua. O arquivo de dados pode incluir um máximo de:
- Até 100 milhões de linhas de dados confidenciais
- Até 32 colunas (campos) por fonte de dados
- Até 10 colunas (campos) marcadas como pesquisáveis
Estruturar os dados confidenciais no arquivo .csv ou .tsv de modo que a primeira linha inclua os nomes dos campos usados para classificação baseada em EDM. No arquivo, você pode ter nomes de campo como "ssn", "birthdate", "firstname", "lastname". Os nomes de cabeçalhos de coluna não podem conter espaços ou sublinhados. Por exemplo, o arquivo .csv de amostra que usamos neste artigo é denominado PatientRecords.csv e suas colunas incluem PatientID, MRN, LastName, FirstName, SSN e mais.
Preste atenção ao formato dos campos de dados confidenciais; em particular, campos que podem conter vírgulas em seu conteúdo. Por exemplo, um endereço de rua que contém o valor "Seattle, WA" seria analisado como dois campos separados se o formato .csv for selecionado. Para evitar isso, use o formato .tsv ou cerque a vírgula que contém valores por aspas duplas na tabela de dados confidenciais. Se a vírgula que contém valores também contiver espaços, você precisará criar um SIT personalizado que corresponda ao formato correspondente. Por exemplo, um SIT que detecta cadeia de caracteres de várias palavras com vírgulas e espaços nele.
Próxima etapa
- Para uma nova experiência: criar o arquivo de exemplo SIT do EDM para a nova experiência
ou
- Para experiência clássica: crie o esquema para tipos de informações confidenciais baseados em correspondência de dados exatos