Создание правил шаблонов набора ресурсов
Системы обработки данных в большом масштабе обычно хранят одну таблицу в хранилище в виде нескольких файлов. Эта концепция представлена в Microsoft Purview с помощью наборов ресурсов. Набор ресурсов — это один объект в каталоге данных, который представляет большое количество ресурсов в хранилище. Дополнительные сведения см. в статье Общие сведения о наборах ресурсов.
При проверке учетной записи хранения Microsoft Purview использует набор определенных шаблонов, чтобы определить, является ли группа ресурсов набором ресурсов. В некоторых случаях группирование наборов ресурсов Microsoft Purview может не точно отражать ваше пространство данных. Правила шаблонов набора ресурсов позволяют настраивать или переопределять, как Microsoft Purview определяет, какие ресурсы группируются как наборы ресурсов и как они отображаются в каталоге.
Правила шаблонов в настоящее время поддерживаются в следующих типах источников:
- Azure Data Lake Storage 2-го поколения
- Хранилище BLOB-объектов Azure
- Файлы Azure
- Amazon S3
Для создания правил шаблонов набора ресурсов необходимо включить расширенный набор ресурсов. Дополнительные сведения см. в статье Общие сведения о расширенных наборах ресурсов.
Создание правила шаблона набора ресурсов
Выполните следующие действия, чтобы создать новое правило шаблона набора ресурсов:
Перейдите к карте данных. Выберите Правила шаблонов в меню под заголовком Управление источниками. Выберите + Создать , чтобы создать новый набор правил.
Введите область правила шаблона набора ресурсов. Выберите тип учетной записи хранения и имя учетной записи хранения, для которой вы хотите создать набор правил. Каждый набор правил применяется относительно пути к папке, область указан в поле Путь к папке.
Чтобы ввести правило для область конфигурации, выберите + Создать правило.
Введите следующие поля, чтобы создать правило:
Имя правила: Имя правила конфигурации. Это поле не влияет на ресурсы, к которому применяется правило.
Полное имя: Полный путь, использующий сочетание текста, динамических заменяющих элементов и статических заменяющих элементов для сопоставления ресурсов с правилом конфигурации. Этот путь относится к область правила конфигурации. Подробные инструкции по указанию полных имен см. в разделе синтаксиса ниже.
Отображаемое имя: Отображаемое имя ресурса. Это поле не является обязательным. Используйте обычный текст и статические заменяющие элементы, чтобы настроить отображение ресурса в каталоге. Более подробные инструкции см. в разделе синтаксиса ниже.
Не группировать как набор ресурсов: Если этот параметр включен, соответствующий ресурс не будет сгруппирован в набор ресурсов.
Сохраните правило, нажав кнопку Добавить.
Примечание.
После создания правила шаблона все новые проверки будут применять его во время приема. Существующие ресурсы в каталоге данных будут обновляться в фоновом режиме, который может занять до нескольких часов.
Синтаксис правила шаблона
При создании правил шаблонов набора ресурсов используйте следующий синтаксис, чтобы указать, к каким ресурсам применяются правила.
Динамические заменяющие (одиночные скобки)
В качестве динамических заменяющих элементов в правилах шаблона используются одиночные скобки. Укажите динамическую заменятель в полном имени, используя формат {<replacerName:<replacerType>}
. Если они совпадают, динамические заменяющие используются в качестве условия группировки, указывающее, что ресурсы должны быть представлены в виде набора ресурсов. Если ресурсы группируются в набор ресурсов, полный путь набора ресурсов будет содержать {replacerName}
место, где был указан заменяющий элемент.
Например, если два ресурса folder1/file-1.csv
совпадают folder2/file-2.csv
с правилом {folder:string}/file-{NUM:int}.csv
, набор ресурсов будет одной сущностью {folder}/file-{NUM}.csv
.
Особый случай: динамические заменяющие средства, если они не группироваться в набор ресурсов
Если параметр Не группировать как набор ресурсов включен для правила шаблона, имя заменяющего элемента является необязательным полем.
{:<replacerType>}
является допустимым синтаксисом. Например, file-{:int}.csv
будет успешно соответствовать для file-1.csv
и file-2.csv
и создать два разных ресурса вместо набора ресурсов.
Статические заменяющие элементы (двойные скобки)
Двойные скобки используются в качестве статических заменяющих элементов в полном имени правила шаблона. Укажите статический замещающий объект в полном имени, используя формат {{<replacerName>:<replacerType>}}
. При совпадении каждый набор уникальных статических значений заменяющего будет создавать различные группы наборов ресурсов.
Например, если два ресурса folder1/file-1.csv
совпадают folder2/file-2.csv
с правилом {{folder:string}}/file-{NUM:int}.csv
, будут созданы folder1/file-{NUM}.csv
два набора ресурсов и folder2/file-{NUM}.csv
.
Статические заменяющие элементы можно использовать для указания отображаемого имени ресурса, соответствующего правилу шаблона. При использовании {{<replacerName>}}
в отображаемом имени правила будет использоваться совпадающее значение в имени ресурса.
Доступные типы замены
Ниже приведены доступные типы, которые можно использовать в статических и динамических заменяющих.
Тип | Структура |
---|---|
string | Ряд из одного или нескольких символов Юникода, включая разделители, такие как пробелы. |
int | Ряд из 1 или более 0–9 символов ASCII, он может иметь 0 префиксов (например, 0001). |
guid | Ряд из 32 или 8-4-4-4-12 строковое представление UUID, как определено в RFC 4122. |
date | Ряд из 6 или 8 символов ASCII 0–9 с необязательными разделителями: ггггммдд, гггг-мм-дд, ггммдд, гг-мм-дд, указанные в RFC 3339. |
time | Серия из 4 или 6 символов ASCII 0–9 с дополнительными разделителями: HHmm, HH:mm, HHmmss, HH:mm:ss, указанным в RFC 3339. |
Timestamp | Серия из 12 или 14 символов ASCII 0-9 с необязательными разделителями: гггг-мм-ддTHH:мм, ггггммддхм, гггг-мм-ддTHH:мм:сс, гггг-мм:сс, yyymmddHHmmss, указанных в RFC 3339. |
логический | Может содержать "true" или "false", без учета регистра. |
число | Ряд из 0 или более 0–9 символов ASCII, он может быть 0 с префиксом (например, 0001), за которым при необходимости следует точка "." и ряд из 1 или более 0-9 символов ASCII. Он может быть постфиксирован 0 (например, .100). |
Шестигранный | Ряд из одного или нескольких символов ASCII из набора 0-1 и A-F, значение может быть префиксом 0. |
языковые стандарты | Строка, соответствующая синтаксису, указанному в RFC 5646. |
Порядок применения правил шаблона набора ресурсов
Ниже приведен порядок операций для применения правил шаблонов:
Более конкретные области получат приоритет, если ресурс соответствует двум правилам. Например, правила в область
container/folder
будут применяться перед правилами в областьcontainer
.Порядок правил в пределах определенного область. Это можно изменить в пользовательском интерфейсе.
Если ресурс не соответствует какому-либо указанному правилу, применяется эвристика набора ресурсов по умолчанию.
Примеры
Пример 1
Извлечение данных SAP в полную и разностную нагрузку
Входные данные
Файлы:
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt
Правило шаблона
Области:https://myazureblob.blob.core.windows.net/bar/
Отображаемое имя: "Внешний клиент"
Полное имя:customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt
Набор ресурсов: true
Выходные данные
Один ресурс набора ресурсов
Отображаемое имя: Внешний клиент
Полное имя:https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt
Пример 2
Данные Интернета вещей в формате avro
Входные данные
Файлы:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Правила шаблонов
Области:https://myazureblob.blob.core.windows.net/bar/
Правило 1
Отображаемое имя: 'machine-89'
Полное имя:raw/machinename-89/{date:date}/{time:time}-{id:int}.avro
Набор ресурсов: true
Правило 2
Отображаемое имя: 'machine-90'
Полное имя:raw/machinename-90/{date:date}/{time:time}-{id:int}.avro
Набор ресурсов: true
Выходные данные
Два набора ресурсов
Набор ресурсов 1
Отображаемое имя: machine-89
Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro
Набор ресурсов 2
Отображаемое имя: machine-90
Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro
Пример 3
Данные Интернета вещей в формате avro
Входные данные
Файлы:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Правило шаблона
Области:https://myazureblob.blob.core.windows.net/bar/
Отображаемое имя: "Machine-{{machineid}}"
Полное имя:raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro
Набор ресурсов: true
Выходные данные
Набор ресурсов 1
Отображаемое имя: machine-89
Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro
Набор ресурсов 2
Отображаемое имя: machine-90
Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro
Пример 4
Не группировать в наборы ресурсов
Входные данные
Файлы:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Правило шаблона
Области:https://myazureblob.blob.core.windows.net/bar/
Отображаемое имя:Machine-{{machineid}}
Полное имя:raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro
Набор ресурсов: false
Выходные данные
Четыре отдельных актива
Ресурс 1
Отображаемое имя: machine-89
Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
Ресурс 2
Отображаемое имя: machine-89
Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
Ресурс 3
Отображаемое имя: machine-89
Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
Ресурс 4
Отображаемое имя: machine-90
Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Дальнейшие действия
Начните с регистрации и сканирования учетной записи хранения Azure Data Lake 2-го поколения.