Поделиться через


Создание правил шаблонов набора ресурсов

Системы обработки данных в большом масштабе обычно хранят одну таблицу в хранилище в виде нескольких файлов. Эта концепция представлена в Microsoft Purview с помощью наборов ресурсов. Набор ресурсов — это один объект в каталоге данных, который представляет большое количество ресурсов в хранилище. Дополнительные сведения см. в статье Общие сведения о наборах ресурсов.

При проверке учетной записи хранения Microsoft Purview использует набор определенных шаблонов, чтобы определить, является ли группа ресурсов набором ресурсов. В некоторых случаях группирование наборов ресурсов Microsoft Purview может не точно отражать ваше пространство данных. Правила шаблонов набора ресурсов позволяют настраивать или переопределять, как Microsoft Purview определяет, какие ресурсы группируются как наборы ресурсов и как они отображаются в каталоге.

Правила шаблонов в настоящее время поддерживаются в следующих типах источников:

  • Azure Data Lake Storage 2-го поколения
  • Хранилище BLOB-объектов Azure
  • Файлы Azure
  • Amazon S3

Для создания правил шаблонов набора ресурсов необходимо включить расширенный набор ресурсов. Дополнительные сведения см. в статье Общие сведения о расширенных наборах ресурсов.

Создание правила шаблона набора ресурсов

Выполните следующие действия, чтобы создать новое правило шаблона набора ресурсов:

  1. Перейдите к карте данных. Выберите Правила шаблонов в меню под заголовком Управление источниками. Выберите + Создать , чтобы создать новый набор правил.

    Создание правила шаблона набора ресурсов

  2. Введите область правила шаблона набора ресурсов. Выберите тип учетной записи хранения и имя учетной записи хранения, для которой вы хотите создать набор правил. Каждый набор правил применяется относительно пути к папке, область указан в поле Путь к папке.

    Создание конфигураций правил шаблона набора ресурсов

  3. Чтобы ввести правило для область конфигурации, выберите + Создать правило.

  4. Введите следующие поля, чтобы создать правило:

    1. Имя правила: Имя правила конфигурации. Это поле не влияет на ресурсы, к которому применяется правило.

    2. Полное имя: Полный путь, использующий сочетание текста, динамических заменяющих элементов и статических заменяющих элементов для сопоставления ресурсов с правилом конфигурации. Этот путь относится к область правила конфигурации. Подробные инструкции по указанию полных имен см. в разделе синтаксиса ниже.

    3. Отображаемое имя: Отображаемое имя ресурса. Это поле не является обязательным. Используйте обычный текст и статические заменяющие элементы, чтобы настроить отображение ресурса в каталоге. Более подробные инструкции см. в разделе синтаксиса ниже.

    4. Не группировать как набор ресурсов: Если этот параметр включен, соответствующий ресурс не будет сгруппирован в набор ресурсов.

      Создайте новое правило конфигурации.

  5. Сохраните правило, нажав кнопку Добавить.

Примечание.

После создания правила шаблона все новые проверки будут применять его во время приема. Существующие ресурсы в каталоге данных будут обновляться в фоновом режиме, который может занять до нескольких часов.

Синтаксис правила шаблона

При создании правил шаблонов набора ресурсов используйте следующий синтаксис, чтобы указать, к каким ресурсам применяются правила.

Динамические заменяющие (одиночные скобки)

В качестве динамических заменяющих элементов в правилах шаблона используются одиночные скобки. Укажите динамическую заменятель в полном имени, используя формат {<replacerName:<replacerType>}. Если они совпадают, динамические заменяющие используются в качестве условия группировки, указывающее, что ресурсы должны быть представлены в виде набора ресурсов. Если ресурсы группируются в набор ресурсов, полный путь набора ресурсов будет содержать {replacerName} место, где был указан заменяющий элемент.

Например, если два ресурса folder1/file-1.csv совпадают folder2/file-2.csv с правилом {folder:string}/file-{NUM:int}.csv, набор ресурсов будет одной сущностью {folder}/file-{NUM}.csv.

Особый случай: динамические заменяющие средства, если они не группироваться в набор ресурсов

Если параметр Не группировать как набор ресурсов включен для правила шаблона, имя заменяющего элемента является необязательным полем. {:<replacerType>} является допустимым синтаксисом. Например, file-{:int}.csv будет успешно соответствовать для file-1.csv и file-2.csv и создать два разных ресурса вместо набора ресурсов.

Статические заменяющие элементы (двойные скобки)

Двойные скобки используются в качестве статических заменяющих элементов в полном имени правила шаблона. Укажите статический замещающий объект в полном имени, используя формат {{<replacerName>:<replacerType>}}. При совпадении каждый набор уникальных статических значений заменяющего будет создавать различные группы наборов ресурсов.

Например, если два ресурса folder1/file-1.csv совпадают folder2/file-2.csv с правилом {{folder:string}}/file-{NUM:int}.csv, будут созданы folder1/file-{NUM}.csv два набора ресурсов и folder2/file-{NUM}.csv.

Статические заменяющие элементы можно использовать для указания отображаемого имени ресурса, соответствующего правилу шаблона. При использовании {{<replacerName>}} в отображаемом имени правила будет использоваться совпадающее значение в имени ресурса.

Доступные типы замены

Ниже приведены доступные типы, которые можно использовать в статических и динамических заменяющих.

Тип Структура
string Ряд из одного или нескольких символов Юникода, включая разделители, такие как пробелы.
int Ряд из 1 или более 0–9 символов ASCII, он может иметь 0 префиксов (например, 0001).
guid Ряд из 32 или 8-4-4-4-12 строковое представление UUID, как определено в RFC 4122.
date Ряд из 6 или 8 символов ASCII 0–9 с необязательными разделителями: ггггммдд, гггг-мм-дд, ггммдд, гг-мм-дд, указанные в RFC 3339.
time Серия из 4 или 6 символов ASCII 0–9 с дополнительными разделителями: HHmm, HH:mm, HHmmss, HH:mm:ss, указанным в RFC 3339.
Timestamp Серия из 12 или 14 символов ASCII 0-9 с необязательными разделителями: гггг-мм-ддTHH:мм, ггггммддхм, гггг-мм-ддTHH:мм:сс, гггг-мм:сс, yyymmddHHmmss, указанных в RFC 3339.
логический Может содержать "true" или "false", без учета регистра.
число Ряд из 0 или более 0–9 символов ASCII, он может быть 0 с префиксом (например, 0001), за которым при необходимости следует точка "." и ряд из 1 или более 0-9 символов ASCII. Он может быть постфиксирован 0 (например, .100).
Шестигранный Ряд из одного или нескольких символов ASCII из набора 0-1 и A-F, значение может быть префиксом 0.
языковые стандарты Строка, соответствующая синтаксису, указанному в RFC 5646.

Порядок применения правил шаблона набора ресурсов

Ниже приведен порядок операций для применения правил шаблонов:

  1. Более конкретные области получат приоритет, если ресурс соответствует двум правилам. Например, правила в область container/folder будут применяться перед правилами в область container.

  2. Порядок правил в пределах определенного область. Это можно изменить в пользовательском интерфейсе.

  3. Если ресурс не соответствует какому-либо указанному правилу, применяется эвристика набора ресурсов по умолчанию.

Примеры

Пример 1

Извлечение данных SAP в полную и разностную нагрузку

Входные данные

Файлы:

  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt

Правило шаблона

Области:https://myazureblob.blob.core.windows.net/bar/

Отображаемое имя: "Внешний клиент"

Полное имя:customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt

Набор ресурсов: true

Выходные данные

Один ресурс набора ресурсов

Отображаемое имя: Внешний клиент

Полное имя:https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt

Пример 2

Данные Интернета вещей в формате avro

Входные данные

Файлы:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Правила шаблонов

Области:https://myazureblob.blob.core.windows.net/bar/

Правило 1

Отображаемое имя: 'machine-89'

Полное имя:raw/machinename-89/{date:date}/{time:time}-{id:int}.avro

Набор ресурсов: true

Правило 2

Отображаемое имя: 'machine-90'

Полное имя:raw/machinename-90/{date:date}/{time:time}-{id:int}.avro

Набор ресурсов: true

Выходные данные

Два набора ресурсов

Набор ресурсов 1

Отображаемое имя: machine-89

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Набор ресурсов 2

Отображаемое имя: machine-90

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Пример 3

Данные Интернета вещей в формате avro

Входные данные

Файлы:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Правило шаблона

Области:https://myazureblob.blob.core.windows.net/bar/

Отображаемое имя: "Machine-{{machineid}}"

Полное имя:raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro

Набор ресурсов: true

Выходные данные

Набор ресурсов 1

Отображаемое имя: machine-89

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Набор ресурсов 2

Отображаемое имя: machine-90

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Пример 4

Не группировать в наборы ресурсов

Входные данные

Файлы:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Правило шаблона

Области:https://myazureblob.blob.core.windows.net/bar/

Отображаемое имя:Machine-{{machineid}}

Полное имя:raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro

Набор ресурсов: false

Выходные данные

Четыре отдельных актива

Ресурс 1

Отображаемое имя: machine-89

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro

Ресурс 2

Отображаемое имя: machine-89

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro

Ресурс 3

Отображаемое имя: machine-89

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro

Ресурс 4

Отображаемое имя: machine-90

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Дальнейшие действия

Начните с регистрации и сканирования учетной записи хранения Azure Data Lake 2-го поколения.