Создание набора правил сканирования
В Схема данных Microsoft Purview можно создать наборы правил проверки, чтобы настроить сканирование источников данных в организации.
Набор правил проверки — это контейнер для группировки набора правил проверки, что позволяет легко связать их с проверкой. Например, можно создать набор правил проверки по умолчанию для каждого из типов источников данных, а затем использовать эти наборы правил проверки по умолчанию для всех проверок в организации. Вы также можете потребовать, чтобы пользователи с соответствующими разрешениями создавали другие наборы правил проверки с различными конфигурациями в зависимости от бизнес-потребности.
Чтобы создать набор правил проверки, выполните приведенные далее действия.
На портале Microsoft Purview выберите решение Карта данных .
В разделе Управление исходным кодом выберите Сканировать наборы правил, а затем нажмите кнопку Создать.
На странице Новый набор правил сканирования выберите источники данных, поддерживаемые сканером каталога, в раскрывающемся списке Тип источника . Вы можете создать набор правил проверки для каждого типа источника данных, который вы планируете сканировать.
Присвойте набору правил сканирования имя. Максимальная длина составляет 63 символа, при этом пробелы не допускаются. При необходимости введите описание. Максимальная длина составляет 256 символов.
Выберите домен.
Важно!
Вы сможете использовать набор правил проверки только в том домене, в котором вы его создали.
Нажмите Продолжить.
Откроется страница Выбор типов файлов . Обратите внимание, что параметры типа файла на этой странице зависят от типа источника данных, выбранного на предыдущей странице. Все типы файлов включены по умолчанию.
Выбор типов файлов документов на этой странице позволяет включить или исключить следующие типы файлов Office: .doc, .docm, .docx, .dot, .odp, .ods, .odt, .pdf, .pot, .pps, .ppsx, .ppt, .pptm, .pptx, .xlc, .xls, .xlsb, .xlsm, .xlsx и .xlt.
Включите или отключите тип файла для схемы и классификации, выбрав или очистив поле проверка. Если выбран источник данных типа Data Lake (например, Azure Data Lake Storage 2-го поколения или BLOB-объект Azure), включите типы файлов, для которых требуется извлечь и классифицировать схему.
Важно!
Отмена выбора типа файла не означает, что он не будет приниматься. Сведения о файле по-прежнему будут приниматься, но его схема и классификации не будут извлечены.
Для определенных типов источников данных можно также создать пользовательский тип файла.
Нажмите Продолжить.
Откроется страница Выбор правил классификации . На этой странице отображаются выбранные Системные правила и Пользовательские правила, а также общее количество выбранных правил классификации. По умолчанию выбраны все поля Системные правила проверка.
Для правил, которые необходимо включить или исключить, можно выбрать или снять флажки Правило классификации системных правил проверка глобально по категориям.
Вы можете развернуть узел категории и выбрать или очистить отдельные поля проверка. Например, если правило для номера Argentina.DNI имеет высокий уровень ложноположительных результатов, можно очистить этот конкретный проверка поле.
Нажмите кнопку Создать , чтобы завершить создание набора правил сканирования.
Microsoft Purview поддерживает добавление пользовательского расширения и определение пользовательского разделителя столбцов в наборе правил проверки.
Чтобы создать пользовательский тип файла, выполните приведенные далее действия.
Выполните шаги 1–5 в разделе Шаги, чтобы создать набор правил проверки или изменить существующий набор правил проверки.
На странице Выбор типов файлов выберите Новый тип файла , чтобы создать новый пользовательский тип файлов.
Введите расширение файла и необязательное описание.
Чтобы указать тип содержимого файла в файле, выберите один из следующих вариантов:
Выберите Настраиваемый разделитель и введите собственный настраиваемый разделитель (только один символ).
Выберите Тип системного файла и выберите тип системного файла (например, XML) в раскрывающемся списке Тип системного файла .
Выберите Создать , чтобы сохранить пользовательский файл.
Система возвращается на страницу Выбор типов файлов и вставляет новый пользовательский тип файла в виде новой плитки.
Выберите Изменить на плитке нового типа файла, если вы хотите изменить или удалить ее.
Нажмите кнопку Продолжить , чтобы завершить настройку набора правил сканирования.
Microsoft Purview поддерживает определение регулярных выражений (регулярных выражений) для исключения ресурсов во время сканирования. Во время сканирования Microsoft Purview сравнивает URL-адрес ресурса с этими регулярными выражениями. Все ресурсы, соответствующие любому из указанных регулярных выражений, будут игнорироваться во время сканирования.
В колонке Игнорировать шаблоны предварительно заполняется один регулярный запрос для файлов транзакций Spark. Вы можете удалить существующий шаблон, если он не требуется. Можно определить до 10 шаблонов игнорирования.
В приведенном выше примере:
- Регулярные выражения 2 и 3 игнорируют все файлы, заканчивающиеся .txt и .csv во время сканирования.
- Regex 4 игнорирует /folderB/ и все его содержимое во время сканирования.
Вот еще несколько советов, которые можно использовать для игнорирования шаблонов:
При обработке регулярного выражения Microsoft Purview по умолчанию добавляет $ к регулярному выражению.
Хороший способ понять, какой URL-адрес агент сканирования будет сравнивать с регулярным выражением, — просмотреть каталог данных Microsoft Purview, найти ресурс, который вы хотите игнорировать в будущем, и просмотреть его полное имя (FQN) на вкладке Обзор .
Наборы правил проверки системы — это наборы правил проверки, определенные Корпорацией Майкрософт, которые автоматически создаются для каждого каталога Microsoft Purview. Каждый набор правил проверки системы связан с определенным типом источника данных. При создании сканирования его можно связать с набором правил проверки системы. Каждый раз, когда корпорация Майкрософт обновляет эти системные наборы правил, вы можете обновить их в каталоге и применить обновление ко всем связанным сканированиям.
Чтобы просмотреть список наборов правил проверки системы, выберите Сканировать наборы правил в Центре управления и перейдите на вкладку Система .
Каждый набор правил проверки системы имеет имя, тип источника и версию. Если выбрать номер версии набора правил сканирования в столбце Версия , вы увидите правила, связанные с текущей и предыдущей версиями (если таковые есть).
Если доступно обновление для набора правил проверки системы, можно выбрать Обновить в столбце Версия . На странице правила проверки системы выберите версию из раскрывающегося списка Выберите новую версию для обновления . На странице представлен список правил классификации систем, связанных с новой и текущей версиями.
При создании сканирования ее можно связать с набором правил проверки системы следующим образом: