Поделиться через


Рекомендации по проверке Microsoft Purview

Решения по управлению Microsoft Purview поддерживают автоматическое сканирование локальных, многооблачных источников данных и программного обеспечения как услуги (SaaS).

При выполнении сканирования вызывается процесс приема метаданных из зарегистрированных источников данных. Метаданные, проверенные в конце процесса сканирования и проверки, включают технические метаданные. Эти метаданные могут включать имена ресурсов данных, такие как имена таблиц или файлов, размер файла, столбцы и происхождение данных. Сведения о схеме также записываются для структурированных источников данных. Примером такого типа источника является система управления реляционными базами данных.

Процесс курирования применяет метки автоматической классификации к атрибутам схемы на основе настроенного набора правил сканирования. Метки конфиденциальности применяются, если учетная запись Microsoft Purview подключена к Портал соответствия требованиям Microsoft Purview.

Важно!

Если у вас есть политики Azure , препятствующие обновлению учетных записей хранения, это приведет к ошибкам при проверке Microsoft Purview. Следуйте инструкциям в руководстве по тегу исключений Microsoft Purview , чтобы создать исключение для учетных записей Microsoft Purview.

Зачем нужны рекомендации по управлению источниками данных?

Рекомендации позволяют:

  • Оптимизация затрат.
  • Повысьте эффективность работы.
  • Повысьйте соответствие требованиям безопасности.
  • Повышение эффективности производительности.

Регистрация источника и установка подключения

Следующие рекомендации и рекомендации по проектированию помогут зарегистрировать источник и установить подключение.

Особенности дизайна

  • Используйте коллекции для создания иерархии, которая соответствует стратегии организации, например географической, бизнес-функции или источника данных. Иерархия определяет источники данных для регистрации и проверки.
  • По сути, вы не можете зарегистрировать источники данных несколько раз в одной учетной записи Microsoft Purview. Эта архитектура помогает избежать риска назначения разных элементов управления доступом к одному и тому же источнику данных.

Рекомендации по проектированию

  • Если метаданные одного и того же источника данных потребляются несколькими командами, вы можете зарегистрировать источник данных и управлять им в родительской коллекции. Затем можно создать соответствующие проверки под каждой подколлекцией. Таким образом, соответствующие ресурсы отображаются в каждой дочерней коллекции. Источники без родителей группируются в пунктирной рамке в представлении карты. Стрелки не связывают их с родителями.

    Снимок экрана: Microsoft Purview с источником данных, зарегистрированным в родительской коллекции.

  • Используйте параметр Несколько Azure , если необходимо зарегистрировать несколько источников, таких как подписки Azure или группы ресурсов, в облаке. Дополнительные сведения см. в следующей документации:

  • После регистрации источника данных можно несколько раз сканировать один и тот же источник, если один и тот же источник используется различными командами или подразделениями по-разному.

Дополнительные сведения об определении иерархии для регистрации источников данных см. в статье Рекомендации по архитектуре коллекций.

Сканирование

Следующие рекомендации и рекомендации по проектированию организованы на основе ключевых шагов, связанных с процессом сканирования.

Особенности дизайна

  • После регистрации источника данных настройте проверку для управления автоматическим и безопасным сканированием и проверкой метаданных.
  • Настройка сканирования включает в себя настройку имени сканирования, область сканирования, среды выполнения интеграции, частоты триггеров сканирования, набора правил сканирования и набора ресурсов для каждого источника данных на каждую частоту сканирования.
  • Прежде чем создавать учетные данные, рассмотрите типы источников данных и требования к сети. Эти сведения помогут вам решить, какой метод проверки подлинности и среда выполнения интеграции необходимы для вашего сценария.

Рекомендации по проектированию

После регистрации источника в соответствующей коллекции спланируйте и следуйте порядку, указанному здесь при настройке сканирования. Такой порядок процесса помогает избежать непредвиденных затрат и переделки.

Снимок экрана: порядок выполнения при подготовке сканирования.

  1. Определите требования к классификации на основе встроенных системных правил классификации. Кроме того, при необходимости можно создать специальные правила классификации. Они основывались на конкретных отраслевых, деловых или региональных требованиях, которые недоступны в коробке:

  2. Создайте наборы правил проверки перед настройкой сканирования.

    Снимок экрана: наборы правил сканирования в разделе Карта данных.

    При создании набора правил проверки убедитесь в следующих моментах:

    • Проверьте, достаточно ли набора правил проверки по умолчанию для проверяемого источника данных. В противном случае определите настраиваемый набор правил проверки.

    • Набор правил настраиваемого сканирования может включать в себя системные значения по умолчанию и пользовательские, поэтому очистите эти параметры, не относящиеся к проверяемым ресурсам данных.

    • При необходимости создайте пользовательский набор правил, чтобы исключить нежелательные метки классификации. Например, набор системных правил содержит универсальные шаблоны государственного кода для планеты, а не только США. Ваши данные могут соответствовать шаблону другого типа, например "Номер водительского удостоверения Бельгии".

    • Ограничьте настраиваемые правила классификации наиболее важными и релевантными метками, чтобы избежать беспорядка. Вы не хотите, чтобы слишком много меток добавлялось к ресурсу.

    • При изменении настраиваемой классификации или набора правил сканирования активируется полная проверка. Настройте правила классификации и сканирования соответствующим образом, чтобы избежать повторной работы и дорогостоящих полных проверок.

      Снимок экрана, на котором показан параметр выбора соответствующих правил классификации при создании настраиваемого набора правил проверки.

      Примечание.

      При проверке учетной записи хранения Microsoft Purview использует набор определенных шаблонов, чтобы определить, образует ли группа ресурсов набор ресурсов. Правила шаблонов набора ресурсов можно использовать для настройки или переопределения того, как Microsoft Purview определяет, какие ресурсы группируются как наборы ресурсов. Правила также определяют, как ресурсы отображаются в каталоге. Дополнительные сведения см. в статье Создание правил шаблонов набора ресурсов. Эта функция учитывает затраты. Дополнительные сведения см. на странице с ценами.

  3. Настройте проверку зарегистрированных источников данных.

    • Имя сканирования. По умолчанию Microsoft Purview использует соглашение об именовании SCAN-[A-Z][a-z][a-z], которое не полезно при попытке определить выполненную проверку. Обязательно используйте понятное соглашение об именовании. Например, можно присвоить сканируемой среде-источнику-частоте-времени имя DEVODS-Daily-0200. Это имя представляет собой ежедневное сканирование в 0200 часов.

    • Проверка подлинности. Microsoft Purview предлагает различные методы проверки подлинности для сканирования источников данных в зависимости от типа источника. Это могут быть облачные, локальные или сторонние источники Azure. Следуйте принципу минимальных привилегий для метода проверки подлинности в следующем порядке:

      • Microsoft Purview MSI — управляемое удостоверение службы (например, для Azure Data Lake Storage 2-го поколения источников)
      • Управляемое удостоверение, назначаемое пользователем
      • Субъект-служба
      • Проверка подлинности SQL (например, для локальных или Azure SQL источников)
      • Ключ учетной записи или обычная проверка подлинности (например, для источников SAP S/4HANA)

      Дополнительные сведения см. в руководстве по управлению учетными данными.

      Примечание.

      Если для учетной записи хранения включен брандмауэр, при настройке проверки необходимо использовать метод проверки подлинности управляемого удостоверения. При настройке новых учетных данных имя учетных данных может содержать только буквы, цифры, символы подчеркивания и дефисы.

    • Среда выполнения интеграции

      • Дополнительные сведения см. в статье Рекомендации по архитектуре сети.
      • Если удалена локальная среда выполнения интеграции (SHIR), все текущие проверки, основанные на ней, завершатся ошибкой.
      • При использовании SHIR убедитесь, что памяти достаточно для проверяемого источника данных. Например, если вы используете SHIR для сканирования источника SAP, вы видите сообщение "Ошибка нехватки памяти":
        • Убедитесь, что на компьютере SHIR достаточно памяти. Рекомендуемый объем — 128 ГБ.
        • В параметре сканирования задайте максимальное доступное значение памяти, например 100.
        • Дополнительные сведения см. в разделе Предварительные требования в статье Сканирование и управление SAP ECC Microsoft Purview.
    • Проверка области

      • При настройке область для сканирования выберите только те ресурсы, которые относятся к уровню детализации или родительскому уровню. Это гарантирует оптимальную стоимость сканирования и эффективность производительности. Все будущие ресурсы под определенным родительским элементом будут выбраны автоматически, если родитель полностью или частично проверен.

      • Некоторые примеры для некоторых источников данных:

        • Для базы данных Azure SQL или Data Lake Storage 2-го поколения можно область проверку на определенные части источника данных. Выберите в списке соответствующие элементы, такие как папки, вложенные папки, коллекции или схемы.
        • Для источников Oracle, Базы данных хранилища метаданных Hive и Teradata конкретный список экспортируемых схем можно указать с помощью значений, разделенных точкой с запятой, или шаблонов имен схем с помощью выражений SQL LIKE.
        • Для запроса Google Big определенный список экспортируемых наборов данных можно указать с помощью значений, разделенных точкой с запятой.
        • При создании проверки для всей учетной записи AWS можно выбрать определенные сегменты для сканирования. При создании сканирования для определенного контейнера AWS S3 можно выбрать определенные папки для сканирования.
        • Для Erwin можно область сканирование, предоставив разделенный точкой с запятой список строк указателя модели Erwin.
        • Для Cassandra определенный список экспортируемых пространств ключей можно указать с помощью значений, разделенных точкой с запятой, или шаблонов имен ключевых пространств с помощью выражений SQL LIKE.
        • Для Looker можно область сканирование, указав разделенный точкой с запятой список проектов Looker.
        • Для клиента Power BI можно только указать, следует ли включать или исключать личную рабочую область.

        Снимок экрана: параметр область проверки при настройке сканирования.

      • Как правило, используйте "игнорировать шаблоны", где они поддерживаются на основе подстановочных карт (например, для озер данных), чтобы исключить временные, конфигурационные файлы, системные таблицы RDBMS, резервные копии или таблицы STG.

      • При сканировании документов или неструктурированных данных избегайте сканирования огромного количества таких документов. Сканирование обрабатывает первые 20 МБ таких документов и может привести к большей продолжительности сканирования.

    • Набор правил сканирования

      • При выборе набора правил проверки обязательно настройте соответствующий системный или пользовательский набор правил проверки, созданный ранее.
      • Вы можете создавать пользовательские типы файлов и заполнять соответствующие сведения. В настоящее время Microsoft Purview поддерживает только один символ в пользовательском разделителях. Если в фактических данных используются пользовательские разделители, такие как ~, необходимо создать новый набор правил сканирования.

      Снимок экрана: выбор набора правил проверки при настройке сканирования.

    • Тип и расписание сканирования

      • Процесс сканирования можно настроить для выполнения полной или добавочной проверки.
      • Выполните сканирование в нерабочие или нерабочие часы, чтобы избежать перегрузки обработки в источнике.
      • Запуск повторения должен быть по крайней мере на 1 минуту меньше времени запланированной проверки. В противном случае проверка будет активирована при следующем повторении.
      • Начальное сканирование — это полная проверка, и каждая последующая проверка является добавочной. Последующие проверки можно запланировать как периодические добавочные проверки.
      • Частота проверок должна соответствовать расписанию управления изменениями источника данных или бизнес-требованиям. Например:
        • Если структура источника может изменяться еженедельно, частота сканирования должна быть синхронизирована. Изменения включают новые ресурсы или поля в ресурсе, которые добавляются, изменяются или удаляются.
        • Если ожидается, что метки классификации или конфиденциальности будут обновляться еженедельно, возможно, по нормативным причинам, частота сканирования должна быть еженедельной. Например, если файлы секций добавляются каждую неделю в исходном озере данных, можно запланировать ежемесячные проверки. Вам не нужно планировать еженедельные проверки, так как метаданные не изменяются. Это предложение предполагает, что новых сценариев классификации нет.
        • При планировании сканирования в тот же день, когда она будет создана, время начала должно быть до времени проверки по крайней мере на одну минуту.
        • Максимальная продолжительность выполнения сканирования составляет семь дней, возможно, из-за проблем с памятью. Этот период времени исключает процесс приема. Если ход выполнения не был обновлен по истечении семи дней, проверка помечается как сбой. Процесс приема (в каталог) в настоящее время не имеет таких ограничений.
    • Отмена проверок

      • В настоящее время сканирование может быть отменено или приостановлено только в том случае, если состояние проверки переключилось в состояние "Выполняется" с "В очереди" после запуска сканирования.
      • Отмена отдельного дочернего сканирования не поддерживается.

Примечания

  • Если поле или столбец, таблица или файл удаляются из исходной системы после выполнения сканирования, они будут отражены (удалены) в Microsoft Purview только после следующей запланированной полной или добавочной проверки.
  • Ресурс можно удалить из каталога Microsoft Purview с помощью значка Удалить под именем ресурса. Это действие не приведет к удалению объекта в источнике. Если выполнить полную проверку в том же источнике, он будет повторно включен в каталог. Если вы запланировали еженедельное или ежемесячное сканирование (добавочное), удаленный ресурс не будет выбран, если объект не будет изменен в источнике. Например, столбец добавлен или удален из таблицы.
  • Чтобы понять поведение последующих проверок после ручного редактирования ресурса данных или базовой схемы на портале управления Microsoft Purview, см. статью Сведения об активах каталога.
  • Дополнительные сведения см. в руководстве по просмотру, изменению и удалению ресурсов.

Дальнейшие действия

Управление источниками данных