Рекомендации по классификации на портале управления Microsoft Purview

Статья
08/23/2023

Классификация данных на портале управления Microsoft Purview — это способ классификации ресурсов данных путем назначения уникальных логических меток или классов ресурсам данных. Классификация основана на бизнес-контексте данных. Например, можно классифицировать ресурсы по номеру паспорта, номеру водительского удостоверения, номеру кредитной карты, коду SWIFT, имени человека и т. д. Дополнительные сведения о самой классификации см. в нашей статье классификации.

В этой статье описаны рекомендации, которые следует применять при классификации ресурсов данных, чтобы ваши проверки были более эффективными и у вас были максимально полные сведения обо всем пространстве данных.

Набор правил сканирования

С помощью набора правил проверки можно настроить соответствующие классификации, которые должны применяться к конкретному сканированию источника данных. Выберите соответствующие системные классификации или пользовательские классификации, если вы создали их для сканируемых данных.

Например, на следующем рисунке для проверяемого источника данных (например, финансовых данных) будут применены только определенная выбранная система и пользовательские классификации.

Управление заметками

При принятии решения о том, какие классификации следует применять, рекомендуется:

Перейдите в областьКлассификации примечаний>картыданных>.
Просмотрите доступные системные классификации для применения к проверяемой базе данных. Формальные имена системных классификаций имеют префикс МАЙКРОСОФТ .
При необходимости создайте пользовательское имя классификации. Начните на этой панели и перейдите кразделу Правила классификациизаметок для управления>картой данных>. Здесь можно создать правило классификации для пользовательского имени классификации, созданного на предыдущем шаге.

Пользовательские классификации

Создавайте пользовательские классификации, только если доступные системные классификации не соответствуют вашим потребностям.

Для имени пользовательской классификации рекомендуется использовать соглашение о пространстве имен (например, <название> компании).<бизнес-подразделение>.<пользовательское имя> классификации).

Например, для пользовательской классификации EMPLOYEE_ID для вымышленной компании Contoso имя пользовательской классификации будет CONTOSO.HR. EMPLOYEE_ID, и понятное имя сохраняется в системе как отдел кадров. ИДЕНТИФИКАТОР СОТРУДНИКА.

При создании и настройке правил классификации для пользовательской классификации выполните следующие действия.

Выберите подходящее имя классификации, для которого будет создано правило классификации.
Портал управления Microsoft Purview поддерживает следующие два метода создания настраиваемых правил классификации:
- Используйте метод Регулярное выражение (регулярное выражение), если можно согласованно выразить элемент данных с помощью шаблона регулярного выражения или создать шаблон с помощью файла данных. Убедитесь, что данные выборки отражают население.
- Используйте метод Dictionary только в том случае, если список значений в файле словаря представляет все возможные значения данных для классификации и, как ожидается, будет соответствовать заданному набору данных (с учетом будущих значений).
Использование метода Регулярных выражений :
- Настройте шаблон регулярных выражений для классифицируемых данных. Убедитесь, что шаблон регулярных выражений является достаточно универсальным для удовлетворения классифицируемых данных.
- Microsoft Purview также предоставляет функцию для создания рекомендуемого шаблона регулярных выражений. После отправки примера файла данных выберите один из предложенных шаблонов, а затем выберите Добавить в шаблоны , чтобы использовать предлагаемые шаблоны данных и столбцов. Вы можете изменить предлагаемые шаблоны или ввести собственные шаблоны, не загружая файл.
- Вы также можете настроить шаблон имени столбца, чтобы классифицировать столбец, чтобы свести к минимуму ложные срабатывания.
- Настройте параметр минимального порогового значения соответствия , допустимый для данных, соответствующих шаблону данных, для применения классификации. Пороговые значения могут быть от 1% до 100%. Мы предлагаем значение не менее 60 % в качестве порога, чтобы избежать ложноположительных результатов. Однако вы можете настроить по мере необходимости для конкретных сценариев классификации. Например, если вы хотите обнаружить и применить классификацию для любого значения в данных, если оно соответствует шаблону, пороговое значение может быть ниже 1 %.
- Параметр для задания правила минимального соответствия автоматически отключается, если в правило классификации добавляется несколько шаблонов данных.
- Используйте правило классификации тестов и проверьте с примерами данных, чтобы убедиться, что правило классификации работает должным образом. Убедитесь, что в образце данных (например, в файле .csv) присутствует по крайней мере три столбца, включая столбец, к которому будет применена классификация. В случае успешного выполнения теста в столбце должна появиться метка классификации, как показано на следующем рисунке:
Использование метода Dictionary :
- Метод Dictionary можно использовать для размещения данных перечисления или, если список возможных значений словаря доступен.
- Этот метод поддерживает .csv и TSV-файлы с ограничением размера файла в 30 МБ.

Архетипы пользовательской классификации

Принцип работы параметра threshold в регулярном выражении

Рассмотрим пример исходных данных на следующем рисунке. Существует пять столбцов, и настраиваемое правило классификации должно применяться к столбцам , Sample_col1, Sample_col2 и Sample_col3 для шаблона данных N{Digit}{Digit}{Digit}AN.
Пользовательская классификация называется NDDDAN.
Правило классификации (регулярное выражение для шаблона данных) — ^N[0-9]{3}AN$.
Пороговое значение будет вычисляться для шаблона "^N[0-9]{3}AN$", как показано на следующем рисунке:

Если пороговое значение 55 %, классифицируются только столбцы , Sample_col1 и Sample_col2 . Sample_col3 не будет классифицироваться, так как он не соответствует пороговой критерию 55 %.

Использование шаблонов данных и столбцов

Для заданного примера данных, где и столбец B , и столбец C имеют одинаковые шаблоны данных, можно классифицировать по столбцу B на основе шаблона данных "^P[0-9]{3}[A-Z]{2}$".
Используйте шаблон столбца вместе с шаблоном данных, чтобы убедиться, что классифицируется только столбец Product ID .

Примечание.

Шаблон столбца проверяется как условие И с шаблоном данных.
Используйте правило классификации тестов и проверьте с примерами данных, чтобы убедиться, что правило классификации работает должным образом.

Использование шаблонов нескольких столбцов

Если для одного правила классификации требуется классифицировать несколько шаблонов столбцов, используйте имена столбцов, разделенных символами (|). Например, для столбцов Product ID, Product_ID, ProductID и т. д. запишите шаблон столбца, как показано на следующем рисунке:

Дополнительные сведения см. в разделе Конструкция изменения регулярных выражений.

Поделиться через

Рекомендации по классификации на портале управления Microsoft Purview

Набор правил сканирования

Управление заметками

Пользовательские классификации

Архетипы пользовательской классификации

Принцип работы параметра threshold в регулярном выражении

Использование шаблонов данных и столбцов

Использование шаблонов нескольких столбцов

Рекомендации по классификации

Дальнейшие действия

Обратная связь

Дополнительные ресурсы