Práticas recomendadas de classificação no portal de governança do Microsoft Purview

Artigo
08/23/2023

A classificação de dados no portal de governança do Microsoft Purview é uma forma de categorizar ativos de dados atribuindo rótulos lógicos exclusivos ou classes aos ativos de dados. A classificação é baseada no contexto comercial dos dados. Por exemplo, você pode classificar ativos por Número de Passaporte, Número da Carteira de Motorista, Número do Cartão de Crédito, Código SWIFT, Nome da Pessoa e assim por diante. Para saber mais sobre a classificação em si, confira nosso artigo de classificação.

Este artigo descreve as melhores práticas a serem adotadas quando você está classificando ativos de dados, para que seus exames sejam mais eficazes e você tenha as informações mais completas possíveis sobre todo o seu patrimônio de dados.

Conjunto de regras de verificação

Usando um conjunto de regras de verificação, você pode configurar as classificações relevantes que devem ser aplicadas à verificação específica da fonte de dados. Selecione as classificações de sistema relevantes ou selecione classificações personalizadas se você criou uma para os dados que está examinando.

Por exemplo, na imagem a seguir, somente o sistema selecionado específico e as classificações personalizadas serão aplicadas à fonte de dados que você está examinando (por exemplo, dados financeiros).

Gerenciamento de anotação

Enquanto você está decidindo quais classificações serão aplicadas, recomendamos que você:

Acesse o painelClassificações degerenciamento> de anotação do Mapa> de Dados.
Examine as classificações do sistema disponíveis a serem aplicadas nos ativos de dados que você está examinando. Os nomes formais das classificações do sistema têm um prefixo MICROSOFT .
Crie um nome de classificação personalizado, se necessário. Inicie neste painel e vá paraRegras de classificação degerenciamento> de anotação do Mapa> de Dados. Aqui, você pode criar a regra de classificação para o nome de classificação personalizado que você criou na etapa anterior.

Classificações personalizadas

Crie classificações personalizadas somente se as classificações do sistema disponíveis não atenderem às suas necessidades.

Para o nome da classificação personalizada, é uma boa prática usar uma convenção de namespace (por exemplo, <nome> da empresa.<unidade> de negócios.<nome> da classificação personalizada).

Como exemplo, para a classificação de EMPLOYEE_ID personalizada para a empresa fictícia Contoso, o nome da classificação personalizada seria CONTOSO.HR. EMPLOYEE_ID e o nome amigável é armazenado no sistema como RH. ID DO FUNCIONÁRIO.

Ao criar e configurar as regras de classificação para uma classificação personalizada, faça o seguinte:

Selecione o nome de classificação apropriado para o qual a regra de classificação deve ser criada.
O portal de governança do Microsoft Purview dá suporte aos dois métodos a seguir para criar regras de classificação personalizadas:
- Use o método regex ( expressão regular ) se você puder expressar consistentemente o elemento de dados usando um padrão de expressão regular ou pode gerar o padrão usando um arquivo de dados. Verifique se os dados de exemplo refletem a população.
- Use o método Dictionary somente se a lista de valores no arquivo de dicionário representar todos os valores possíveis de dados a serem classificados e deverá estar em conformidade com um determinado conjunto de dados (considerando valores futuros também).
Usando o método de expressão regular :
- Configure o padrão regex para que os dados sejam classificados. Verifique se o padrão regex é genérico o suficiente para atender aos dados que estão sendo classificados.
- O Microsoft Purview também fornece um recurso para gerar um padrão regex sugerido. Depois de carregar um arquivo de dados de exemplo, selecione um dos padrões sugeridos e selecione Adicionar aos padrões para usar os dados sugeridos e os padrões de coluna. Você pode modificar os padrões sugeridos ou digitar seus próprios padrões sem precisar carregar um arquivo.
- Você também pode configurar o padrão de nome da coluna para que a coluna seja classificada para minimizar falsos positivos.
- Configure o parâmetro de limite de correspondência mínimo aceitável para seus dados que correspondem ao padrão de dados para aplicar a classificação. Os valores de limite podem ser de 1% a 100%. Sugerimos um valor de pelo menos 60% como o limite para evitar falsos positivos. No entanto, você pode configurar conforme necessário para seus cenários de classificação específicos. Por exemplo, seu limite pode ser tão baixo quanto 1% se você quiser detectar e aplicar uma classificação para qualquer valor nos dados se ele corresponder ao padrão.
- A opção de definir uma regra de correspondência mínima será desabilitada automaticamente se mais de um padrão de dados for adicionado à regra de classificação.
- Use a regra de classificação de teste e teste com dados de exemplo para verificar se a regra de classificação está funcionando conforme o esperado. Verifique se nos dados de exemplo (por exemplo, em um arquivo .csv) pelo menos três colunas estão presentes, incluindo a coluna na qual a classificação deve ser aplicada. Se o teste for bem-sucedido, você deverá ver o rótulo de classificação na coluna, conforme mostrado na imagem a seguir:
Usando o método Dictionary :
- Você pode usar o método Dictionary para ajustar dados de enumeração ou se a lista de dicionários de valores possíveis estiver disponível.
- Esse método dá suporte a arquivos .csv e .tsv, com um limite de tamanho de arquivo de 30 megabytes (MB).

Arquétipos de classificação personalizada

Como o parâmetro "limite" funciona na expressão regular

Considere os dados de origem de exemplo na imagem a seguir. Há cinco colunas e a regra de classificação personalizada deve ser aplicada a colunas Sample_col1, Sample_col2 e Sample_col3 para o padrão de dados N{Digit}{Digit}{Digit}AN.
A classificação personalizada é chamada NDDDAN.
A regra de classificação (regex para o padrão de dados) é ^N[0-9]{3}AN$.
O limite seria calculado para o padrão "^N[0-9]{3}AN$", conforme mostrado na imagem a seguir:

Se você tiver um limite de 55%, somente as colunas Sample_col1 e Sample_col2 serão classificadas. Sample_col3 não será classificado, pois não atende ao critério de limite de 55%.

Como usar os padrões de dados e colunas

Para os dados de exemplo fornecidos, em que a coluna B e a coluna C têm padrões de dados semelhantes, você pode classificar na coluna B com base no padrão de dados "^P[0-9]{3}[A-Z]{2}$".
Use o padrão de coluna junto com o padrão de dados para garantir que apenas a coluna ID do produto seja classificada.

Observação

O padrão de coluna é verificado como uma condição AND com o padrão de dados.
Use a regra de classificação de teste e teste com dados de exemplo para verificar se a regra de classificação está funcionando conforme o esperado.

Como usar vários padrões de coluna

Se houver vários padrões de coluna a serem classificados para a mesma regra de classificação, use nomes de coluna separados por caracteres (|). Por exemplo, para colunas ID do produto, Product_ID, ProductID e assim por diante, escreva o padrão de coluna conforme mostrado na imagem a seguir:

Para obter mais informações, consulte construção de alternância regex.

Considerações de classificação

Aqui estão algumas considerações a serem consideradas, pois você está definindo classificações:

Para decidir quais classificações são necessárias para serem aplicadas aos ativos antes da verificação, considere como suas classificações devem ser usadas. Rótulos de classificação desnecessários podem parecer barulhentos e até enganosos para os consumidores de dados. Você pode usar classificações para:
- Descreva a natureza dos dados existentes no ativo de dados ou esquema que está sendo verificado. Em outras palavras, as classificações devem permitir que os clientes identifiquem o conteúdo do ativo de dados ou do esquema dos rótulos de classificação à medida que pesquisam o catálogo.
- Defina prioridades e desenvolva um plano para alcançar as necessidades de segurança e conformidade de uma organização.
- Descreva as fases nos processos de preparação de dados (zona bruta, zona de destino e assim por diante) e atribua as classificações a ativos específicos para marcar a fase no processo.
Você pode atribuir classificações no nível do ativo ou da coluna automaticamente incluindo classificações relevantes na regra de verificação ou atribuí-las manualmente depois de ingerir os metadados no Mapa de Dados do Microsoft Purview.
Para atribuição automática, consulte armazenamentos de dados com suporte no portal de governança do Microsoft Purview.
Antes de examinar suas fontes de dados no Mapa de Dados do Microsoft Purview, é importante entender seus dados e configurar o conjunto de regras de verificação apropriado para ele (por exemplo, selecionando classificação relevante do sistema, classificações personalizadas ou uma combinação de ambos), pois isso pode afetar o desempenho da verificação. Para obter mais informações, consulte classificações com suporte no portal de governança do Microsoft Purview.
O scanner do Microsoft Purview aplica regras de amostragem de dados para verificações profundas (sujeitas à classificação) para classificações personalizadas e de sistema. A regra de amostragem é baseada no tipo de fontes de dados. Para obter mais informações, consulte a seção "Amostragem dentro de um arquivo" em fontes de dados com suporte e tipos de arquivo no Microsoft Purview.

Observação

Limite de dados distinto: esse é o número total de valores de dados distintos que precisam ser encontrados em uma coluna antes que o scanner execute o padrão de dados nele. O limite de dados distinto não tem nada a ver com a correspondência de padrões, mas é um pré-requisito para correspondência de padrões. As regras de classificação do sistema exigem que haja pelo menos 8 valores distintos em cada coluna para as sujeitar à classificação. O sistema requer esse valor para garantir que a coluna contenha dados suficientes para o scanner classificá-lo com precisão. Por exemplo, uma coluna que contém várias linhas que contêm o valor 1 não será classificada. Colunas que contêm uma linha com um valor e o restante das linhas têm valores nulos também não serão classificadas. Se você especificar vários padrões, esse valor se aplica a cada um deles.
As regras de amostragem também se aplicam a conjuntos de recursos. Para obter mais informações, consulte a seção "Amostragem de arquivo de conjunto de recursos" em fontes de dados e tipos de arquivo com suporte no portal de governança do Microsoft Purview.
Classificações personalizadas não podem ser aplicadas em ativos de tipo de documento usando regras de classificação personalizadas. As classificações para esses tipos só podem ser aplicadas manualmente.
As classificações personalizadas não estão incluídas em nenhuma regra de verificação padrão. Portanto, se a atribuição automática de classificações personalizadas for esperada, você deverá implantar e usar uma regra de verificação personalizada que inclua a classificação personalizada para executar a verificação.
Se você aplicar classificações manualmente no portal de governança do Microsoft Purview, essas classificações serão mantidas em verificações subsequentes.
As verificações subsequentes não removerão nenhuma classificação dos ativos, se forem detectadas anteriormente, mesmo que as regras de classificação sejam inaplicáveis.
Para ativos de dados de origem criptografados , o Microsoft Purview escolhe apenas nomes de arquivo, nomes totalmente qualificados, detalhes do esquema para tipos de arquivo estruturados e tabelas de banco de dados. Para que a classificação funcione, descriptografe os dados criptografados antes de executar verificações.