Общие сведения о наборах ресурсов
Эта статья поможет понять, как Microsoft Purview использует наборы ресурсов для сопоставления ресурсов данных с логическими ресурсами.
Фоновые сведения
Системы обработки данных в большом масштабе обычно хранят одну таблицу в хранилище в виде нескольких файлов. В Каталог данных Microsoft Purview эта концепция представлена с помощью наборов ресурсов. Набор ресурсов — это один объект в каталоге, который представляет большое количество ресурсов в хранилище.
Например, предположим, что кластер Spark сохранил кадр данных в источнике данных Azure Data Lake Storage (ADLS) 2-го поколения. Хотя в Spark таблица выглядит как один логический ресурс, на диске, вероятно, есть тысячи файлов Parquet, каждый из которых представляет секцию общего содержимого dataframe. Данные Интернета вещей и данные веб-журнала имеют одинаковую проблему. Представьте, что у вас есть датчик, который выводит файлы журнала несколько раз в секунду. Это не займет много времени, пока вы не получите сотни тысяч файлов журналов с одного датчика.
Обнаружение наборов ресурсов в Microsoft Purview
Microsoft Purview поддерживает обнаружение наборов ресурсов в Хранилище BLOB-объектов Azure, ADLS 1-го поколения, ADLS 2-го поколения, Файлы Azure и Amazon S3.
Microsoft Purview автоматически обнаруживает наборы ресурсов при проверке. Эта функция просматривает все данные, которые подается при проверке, и сравнивает их с набором определенных шаблонов.
Например, предположим, что вы сканируете источник данных, URL-адрес которого имеет значение https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet
. Microsoft Purview просматривает сегменты пути и определяет, соответствуют ли они каким-либо встроенным шаблонам. Он содержит встроенные шаблоны для идентификаторов GUID, чисел, форматов дат, кодов локализации (например, en-us) и т. д. В этом случае числовой шаблон соответствует 23. Microsoft Purview предполагает, что этот файл является частью набора ресурсов с именем https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet
.
Или же для URL-адреса, например https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json
, Microsoft Purview соответствует шаблону локализации и шаблону номера, создавая набор ресурсов с именем https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
.
Используя эту стратегию, Microsoft Purview сопоставляет следующие ресурсы с тем же набором ресурсов: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Типы файлов, которые Microsoft Purview не будет определять как наборы ресурсов
Microsoft Purview намеренно не пытается классифицировать большинство типов файлов документов, таких как Word, Excel или PDF, как наборы ресурсов. Исключением является формат CSV, так как это общий формат секционированных файлов.
Как Microsoft Purview сканирует наборы ресурсов
Когда Microsoft Purview обнаруживает ресурсы, которые, по ее мнению, являются частью набора ресурсов, она переключается с полной проверки на пример сканирования. Пример сканирования открывает только подмножество файлов, которые, по его мнению, находятся в наборе ресурсов. Для каждого открываемого файла он использует свою схему и запускает классификаторы. Затем Microsoft Purview находит новейший ресурс среди открытых ресурсов и использует схему и классификации этого ресурса в записи для всего набора ресурсов в каталоге.
Расширенные наборы ресурсов
Microsoft Purview может настраивать и дополнительно обогащать ресурсы набора ресурсов с помощью возможности расширенных наборов ресурсов . Расширенные наборы ресурсов позволяют Microsoft Purview понимать базовые секции приема данных и создавать правила шаблонов набора ресурсов , которые настраивают группирование наборов ресурсов Microsoft Purview во время сканирования.
Если включены расширенные наборы ресурсов, Microsoft Purview запускает дополнительные агрегаты для вычисления следующих сведений о ресурсах набора ресурсов:
- Пример пути из файла, который содержит набор ресурсов.
- Количество секций, показывающее, сколько файлов составляют набор ресурсов.
- Общий размер всех файлов, составляющих набор ресурсов.
Эти свойства можно найти на странице сведений об активе набора ресурсов.
Включение расширенных наборов ресурсов
Расширенные наборы ресурсов отключены по умолчанию во всех новых экземплярах Microsoft Purview. Расширенные наборы ресурсов можно включить из сведений об учетной записи в центре управления. Только те пользователи, которые добавлены в роль куратора данных в корневой коллекции, могут управлять параметрами расширенных наборов ресурсов.
После включения расширенных наборов ресурсов дополнительные обогащения будут происходить во всех вновь похитленных ресурсах. Команда Microsoft Purview рекомендует подождать час перед сканированием новых данных озера данных после переключения функции.
Важно!
Включение расширенных наборов ресурсов повлияет на частоту обновления аналитических сведений о ресурсах и классификации. Если включены расширенные наборы ресурсов, аналитика ресурсов и классификации обновляется только два раза в день.
Встроенные шаблоны набора ресурсов
Microsoft Purview поддерживает следующие шаблоны набора ресурсов. Эти шаблоны могут отображаться как имя в каталоге или как часть имени файла.
Шаблоны на основе регулярных выражений
Имя шаблона | "Display Name" (Отображаемое имя); | Описание |
---|---|---|
GUID | {GUID} | Глобальный уникальный идентификатор, определенный в RFC 4122 |
Числовой | {N} | Одна или несколько цифр |
Форматы даты и времени | {Year} {Month} {Day} {N} | Мы поддерживаем различные форматы даты и времени, но все они представлены {Year}[разделитель]{Month}[разделитель]{Day} или рядом {N}s. |
4ByteHex | {HEX} | 4-значный шестнадцатеричный номер. |
Локализация | {LOC} | Тег языка, как определено в BCP 47, поддерживаются имена - и _ (например, en_ca и en-ca). |
Сложные шаблоны
Имя шаблона | "Display Name" (Отображаемое имя); | Описание |
---|---|---|
SparkPath | {SparkPartitions} | Идентификатор файла секции Spark |
Date(гггг/мм/дд)InPath | {Year}/{Month}/{Day} | Шаблон "Год/месяц/день", охватывающий несколько папок |
Отображение наборов ресурсов в Каталог данных Microsoft Purview
Когда Microsoft Purview сопоставляет группу ресурсов с набором ресурсов, она пытается извлечь наиболее полезные сведения для использования в качестве отображаемого имени в каталоге. Некоторые примеры применяемого соглашения об именовании по умолчанию:
Пример 1
Полное имя: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
Отображаемое имя: "имя выходных данных Spark"
Пример 2
Полное имя: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
Отображаемое имя: "мои секционированные данные"
Пример 3
Полное имя: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
Отображаемое имя: "data"
Настройка группирования наборов ресурсов с помощью правил шаблонов
При проверке учетной записи хранения Microsoft Purview использует набор определенных шаблонов, чтобы определить, является ли группа ресурсов набором ресурсов. В некоторых случаях группирование наборов ресурсов Microsoft Purview может не точно отражать ваше пространство данных. К этим проблемам относятся:
- Неправильное пометка ресурса в качестве набора ресурсов
- Помещение ресурса в неправильный набор ресурсов
- Неправильное пометка ресурса как не являющегося набором ресурсов
Чтобы настроить или переопределить, как Microsoft Purview определяет, какие ресурсы группируются как наборы ресурсов и как они отображаются в каталоге, можно определить правила шаблонов в центре управления. Пошаговые инструкции и синтаксис см. в статье Правила шаблонов набора ресурсов.
Известные ограничения наборов ресурсов
- По умолчанию ресурсы набора ресурсов удаляются только при проверке, если включены расширенные наборы ресурсов . Если эта возможность отключена, ресурсы набора ресурсов можно удалить только вручную или с помощью API.
Дальнейшие действия
Чтобы приступить к работе с Microsoft Purview, см. краткое руководство. Создание учетной записи Microsoft Purview.