Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Схема данных Microsoft Purview поддерживает автоматическое сканирование локальных, многооблачных источников данных и программного обеспечения как услуги (SaaS).
При выполнении проверки процесс начинает принимать метаданные из зарегистрированных источников данных. В конце процесса сканирования и курирования вы получите проверенные метаданные, которые включают технические метаданные. Эти метаданные могут включать имена ресурсов данных, такие как имена таблиц или файлов, размер файла, столбцы и происхождение данных. Для структурированных источников данных также фиксируются сведения о схеме. Примером такого типа источника является система управления реляционными базами данных.
В процессе проверки автоматические метки классификации применяются к атрибутам схемы на основе настраиваемого набора правил проверки. Если учетная запись Microsoft Purview подключена к порталу Microsoft Purview, применяются метки конфиденциальности.
Важно!
Если у вас есть политики Azure, препятствующие обновлению учетных записей хранения, эти политики приводят к ошибкам при проверке Microsoft Purview. См. статью Создание исключения политики Azure для Microsoft Purview, чтобы создать исключение для учетных записей Microsoft Purview.
Зачем нужны рекомендации по управлению источниками данных?
Рекомендации помогут вам:
- Оптимизация затрат.
- Повысьте эффективность работы.
- Повысьйте соответствие требованиям безопасности.
- Повышение эффективности производительности.
Регистрация источника и установка подключения
Следующие рекомендации и рекомендации по проектированию помогут зарегистрировать источник и установить подключение.
Особенности дизайна
- Используйте коллекции для создания иерархии, которая соответствует стратегии организации, например географическому расположению, бизнес-функции или источнику данных. Иерархия определяет источники данных для регистрации и проверки.
- По сути, вы не можете зарегистрировать источники данных несколько раз в одной учетной записи Microsoft Purview. Эта архитектура помогает избежать риска назначения разных элементов управления доступом к одному и тому же источнику данных.
Рекомендации по проектированию
Если несколько команд потребляют метаданные одного и того же источника данных, зарегистрируйте источник данных и управляйте им в родительской коллекции. Затем создайте соответствующие проверки под каждой подколлекцией. Таким образом, соответствующие ресурсы отображаются в каждой дочерней коллекции. В представлении карты источники без родителей группируются в пунктирной рамке. Стрелки не связывают их с родителями.
Используйте параметр Azure Несколько, если необходимо зарегистрировать в облаке несколько источников, таких как Azure подписки или группы ресурсов. Дополнительные сведения см. в следующей документации:
После регистрации источника данных можно проверить один и тот же источник несколько раз. Разные команды или подразделения могут использовать один и тот же источник по-разному.
Дополнительные сведения об определении иерархии для регистрации источников данных см. в статье Рекомендации по архитектуре коллекций.
Сканирование
Следующие рекомендации и рекомендации по проектированию организованы на основе ключевых шагов, связанных с процессом сканирования.
Особенности дизайна
- После регистрации источника данных настройте проверку для управления автоматическим и безопасным сканированием и проверкой метаданных.
- Настройка сканирования включает в себя настройку имени сканирования, область сканирования, среды выполнения интеграции, частоты триггеров сканирования, набора правил сканирования и набора ресурсов для каждого источника данных на каждую частоту сканирования.
- Прежде чем создавать учетные данные, рассмотрите типы источников данных и требования к сети. Эти сведения помогут вам решить, какой метод проверки подлинности и среда выполнения интеграции необходимы для вашего сценария.
Рекомендации по проектированию
После регистрации источника в соответствующей коллекции спланируйте и выполните порядок, показанный в этом примере при настройке сканирования. Такой порядок процесса помогает избежать непредвиденных затрат и переделки.
Определите требования к классификации на основе встроенных системных правил классификации. Или при необходимости создайте определенные настраиваемые правила классификации. Они основывались на конкретных отраслевых, деловых или региональных требованиях, которые недоступны в коробке:
- Ознакомьтесь с рекомендациями по классификации.
- Узнайте, как создать пользовательское правило классификации и классификации.
Создайте наборы правил проверки перед настройкой сканирования. При создании набора правил проверки убедитесь в следующих моментах:
Проверьте, достаточно ли набора правил проверки по умолчанию для проверяемого источника данных. В противном случае определите настраиваемый набор правил проверки.
Набор настраиваемых правил проверки может включать как системные правила по умолчанию, так и пользовательские правила, поэтому очистите параметры, которые не относятся к сканируемым ресурсам данных.
При необходимости создайте пользовательский набор правил, чтобы исключить нежелательные метки классификации. Например, набор системных правил содержит универсальные шаблоны государственного кода для планеты, а не только США. Ваши данные могут соответствовать шаблону другого типа, например "Номер водительского удостоверения Бельгии".
Ограничьте настраиваемые правила классификации наиболее важными и релевантными метками, чтобы избежать беспорядка. Вы не хотите, чтобы слишком много меток добавлялось к ресурсу.
При изменении настраиваемой классификации или набора правил сканирования активируется полная проверка. Настройте правила классификации и сканирования соответствующим образом, чтобы избежать повторной работы и дорогостоящих полных проверок.
Примечание.
При проверке учетной записи хранения Microsoft Purview использует набор определенных шаблонов, чтобы определить, образует ли группа ресурсов набор ресурсов. Правила шаблонов набора ресурсов можно использовать для настройки или переопределения того, как Microsoft Purview определяет, какие ресурсы группируются как наборы ресурсов. Правила также определяют, как ресурсы отображаются в каталоге. Дополнительные сведения см. в статье Создание правил шаблонов набора ресурсов. Эта функция учитывает затраты. Дополнительные сведения см. на сайте цен на Microsoft Purview.
Настройте проверку зарегистрированных источников данных. - Имя сканирования. По умолчанию Microsoft Purview использует соглашение об именовании SCAN-[A-Z][a-z][a-z], которое не полезно при попытке определить выполненную проверку. Используйте понятное соглашение об именовании. Например, можно присвоить сканируемой среде-источнику-частоте-времени имя DEVODS-Daily-0200. Это имя представляет собой ежедневное сканирование в 0200 часов.
Проверка подлинности. Microsoft Purview предлагает различные методы проверки подлинности для сканирования источников данных в зависимости от типа источника. Это может быть Azure облачных, локальных или сторонних источников. Следуйте принципу минимальных привилегий для метода проверки подлинности в следующем порядке:
- Microsoft Purview MSI — управляемое удостоверение службы (например, для Azure Data Lake Storage 2-го поколения источников)
- Управляемое удостоверение, назначаемое пользователем
- Субъект-служба
- Проверка подлинности SQL (например, для локальных или Azure SQL источников)
- Ключ учетной записи или обычная проверка подлинности (например, для источников SAP S/4HANA)
Дополнительные сведения см. в руководстве по управлению учетными данными.
Примечание.
Если для учетной записи хранения включен брандмауэр, при настройке проверки необходимо использовать метод проверки подлинности управляемого удостоверения. При настройке новых учетных данных имя учетных данных может содержать только буквы, цифры, символы подчеркивания и дефисы.
Среда выполнения интеграции
- Дополнительные сведения см. в статье Рекомендации по архитектуре сети.
- Если удалена локальная среда выполнения интеграции (SHIR), все текущие проверки, которые на ней основаны, завершаются ошибкой.
- При использовании SHIR убедитесь, что памяти достаточно для проверяемого источника данных. Например, если вы используете SHIR для сканирования источника SAP, вы видите сообщение "Ошибка нехватки памяти":
- Убедитесь, что на компьютере SHIR достаточно памяти. Рекомендуемый объем — 128 ГБ.
- В параметре сканирования задайте максимальное доступное значение памяти, например 100.
- Дополнительные сведения см. в разделе Предварительные требования в статье Сканирование и управление SAP ECC Microsoft Purview.
Проверка области
- При настройке область для сканирования выберите только те ресурсы, которые относятся к уровню детализации или родительскому уровню. Это гарантирует оптимальную стоимость сканирования и эффективность производительности. Все будущие ресурсы под определенным родительским элементом автоматически выбираются, если родитель полностью или частично проверяется.
- Некоторые примеры для некоторых источников данных:
- Для базы данных Azure SQL или Data Lake Storage 2-го поколения можно область проверку на определенные части источника данных. Выберите в списке соответствующие элементы, такие как папки, вложенные папки, коллекции или схемы.
- Для источников Oracle, Hive Metastore Database и Teradata можно указать конкретный список схем для экспорта с помощью значений, разделенных точкой с запятой, или шаблонов имен схем.
- Для запроса Google Big можно указать определенный список наборов данных для экспорта с помощью значений, разделенных точкой с запятой.
- При создании проверки для всей учетной записи AWS можно выбрать определенные сегменты для сканирования. При создании сканирования для определенного контейнера AWS S3 можно выбрать определенные папки для сканирования.
- Для Erwin можно область сканирование, предоставив разделенный точкой с запятой список строк указателя модели Erwin.
- Для Cassandra можно указать определенный список пространств ключей, экспортируемых с помощью значений, разделенных точкой с запятой, или шаблонов имен пространств ключей.
- Для Looker можно область сканирование, указав разделенный точкой с запятой список проектов Looker.
- Для клиента Power BI можно только указать, следует ли включать или исключать личную рабочую область.
- Как правило, используйте игнорирование шаблонов , где они поддерживаются на основе подстановочных знаков (например, для озер данных), чтобы исключить временные файлы, файлы конфигурации, системные таблицы RDBMS, резервные копии или таблицы STG.
- При сканировании документов или неструктурированных данных избегайте сканирования огромного количества таких документов. Сканирование обрабатывает первые 20 МБ таких документов и может привести к большей продолжительности сканирования.
Набор правил сканирования
- При выборе набора правил проверки обязательно настройте соответствующий системный или пользовательский набор правил проверки, созданный ранее. — Вы можете создавать пользовательские типы файлов и заполнять соответствующие сведения. В настоящее время Microsoft Purview поддерживает только один символ в пользовательском разделителях. Если в фактических данных используются пользовательские разделители, такие как ~, необходимо создать новый набор правил сканирования.
Тип и расписание сканирования
- Вы можете настроить процесс сканирования для выполнения полной или добавочной проверки.
- Запустите сканирование в нерабочие или нерабочие часы, чтобы избежать перегрузки обработки в источнике.
- Начальная проверка является полной, и каждая последующая проверка является добавочной. Последующие проверки можно запланировать как периодические добавочные проверки. Дополнительные сведения о поддерживаемых параметрах расписания.
- Частота проверок должна соответствовать расписанию управления изменениями источника данных или бизнес-требованиям. Например, вы можете:
- Если структура источника может изменяться еженедельно, частота сканирования должна быть синхронизирована. Изменения включают новые ресурсы или поля в ресурсе, которые добавляются, изменяются или удаляются.
- Если метки классификации или конфиденциальности должны обновляться еженедельно, возможно, по нормативным причинам, частота сканирования должна быть еженедельной. — Если файлы секционирования добавляются каждую неделю в исходном озере данных, можно запланировать ежемесячные проверки. Вам не нужно планировать еженедельные проверки, так как метаданные не изменяются. Это предложение предполагает, что новых сценариев классификации нет.
- Максимальная продолжительность выполнения сканирования составляет семь дней, возможно, из-за проблем с памятью. Этот период времени исключает процесс приема. Если ход выполнения не обновляется через семь дней, проверка помечается как сбой. Процесс приема (в каталог) в настоящее время не имеет таких ограничений.
Отмена проверок
- В настоящее время можно отменить или приостановить сканирование только в том случае, если состояние сканирования переходит в состояние "Выполняется" с "В очереди" после запуска сканирования.
- Отмена отдельного дочернего сканирования не поддерживается.
Примечания
- При удалении поля, столбца, таблицы или файла из исходной системы после выполнения проверки Microsoft Purview отображает удаление только после следующей запланированной полной или добавочной проверки.
- Вы можете удалить ресурс из каталога Microsoft Purview, выбрав Удалить под именем ресурса. Это действие не удаляет объект в источнике. При выполнении полной проверки в том же источнике сканирование повторно возвращает объект в каталоге. При выполнении добавочной проверки удаленный ресурс не будет выбран, если объект не будет изменен в источнике. Например, если столбец добавлен или удален из таблицы.
- Чтобы понять поведение последующих проверок после ручного редактирования ресурса данных или базовой схемы с помощью классического портала управления Microsoft Purview, см. сведения о классическом ресурсе каталога.
- Дополнительные сведения см. в статье Просмотр, изменение и удаление ресурсов.