Поделиться через


Создание правил шаблонов набора ресурсов

Системы обработки данных в большом масштабе обычно хранят одну таблицу в хранилище в виде нескольких файлов. Эта концепция представлена в Microsoft Purview с помощью наборов ресурсов. Набор ресурсов — это один объект в Единый каталог Microsoft Purview, который представляет большое количество ресурсов в хранилище. Дополнительные сведения см. в статье Общие сведения о наборах ресурсов.

При проверке учетной записи хранения Microsoft Purview использует набор определенных шаблонов, чтобы определить, является ли группа ресурсов набором ресурсов. В некоторых случаях группировка наборов ресурсов может не точно отражать ваше пространство данных. Правила шаблонов набора ресурсов позволяют настраивать или переопределять, как Microsoft Purview определяет, какие ресурсы группируются как наборы ресурсов и как они отображаются в каталоге.

Правила шаблонов в настоящее время поддерживаются в следующих типах источников:

  • Azure Data Lake Storage 2-го поколения
  • Хранилище BLOB-объектов Azure
  • Файлы Azure
  • Amazon S3

Для создания правил шаблонов набора ресурсов необходимо включить расширенный набор ресурсов. Дополнительные сведения см. в статье Общие сведения о расширенных наборах ресурсов.

Создание правила шаблона набора ресурсов

Выполните следующие действия, чтобы создать новое правило шаблона набора ресурсов:

  1. Перейдите в раздел Карта данных и выберите Управление источниками, выберите Правила шаблонов, а затем — Создать , чтобы создать новый набор правил.

  2. Введите область правила шаблона набора ресурсов. Выберите тип учетной записи хранения и имя учетной записи хранения, для которой вы хотите создать набор правил. Каждый набор правил применяется относительно пути к папке, область указан в поле Путь к папке.

    Создание конфигураций правил шаблона набора ресурсов

  3. Чтобы ввести правило для область конфигурации, выберите + Создать правило.

  4. Введите следующие поля, чтобы создать правило:

    1. Имя правила: Имя правила конфигурации. Это поле не влияет на ресурсы, к которому применяется правило.

    2. Полное имя: Полный путь, использующий сочетание текста, динамических заменяющих элементов и статических заменяющих элементов для сопоставления ресурсов с правилом конфигурации. Этот путь относится к область правила конфигурации. Подробные инструкции по указанию полных имен см. в разделе синтаксиса ниже.

    3. Отображаемое имя: Отображаемое имя ресурса. Это поле не является обязательным. Используйте обычный текст и статические заменяющие элементы, чтобы настроить отображение ресурса в каталоге. Более подробные инструкции см. в разделе синтаксиса ниже.

    4. Не группировать как набор ресурсов: Если этот параметр включен, соответствующий ресурс не будет сгруппирован в набор ресурсов.

      Создайте новое правило конфигурации.

  5. Сохраните правило, нажав кнопку Добавить.

Примечание.

После создания правила шаблона все новые проверки будут применять его во время приема. Существующие ресурсы в Единый каталог будут обновляться в фоновом режиме, который может занять до нескольких часов.

Синтаксис правила шаблона

При создании правил шаблонов набора ресурсов используйте следующий синтаксис, чтобы указать, к каким ресурсам применяются правила.

Динамические заменяющие (одиночные скобки)

В качестве динамических заменяющих элементов в правилах шаблона используются одиночные скобки. Укажите динамическую заменятель в полном имени, используя формат {<replacerName>:<replacerType>}. Если они совпадают, динамические заменяющие используются в качестве условия группировки, указывающее, что ресурсы должны быть представлены в виде набора ресурсов. Если ресурсы группируются в набор ресурсов, полный путь набора ресурсов будет содержать {replacerName} место, где был указан заменяющий элемент.

Например, если два ресурса folder1/file-1.csv совпадают folder2/file-2.csv с правилом {folder:string}/file-{NUM:int}.csv, набор ресурсов будет одной сущностью {folder}/file-{NUM}.csv.

Особый случай: динамические заменяющие средства, если они не группироваться в набор ресурсов

Если параметр Не группировать как набор ресурсов включен для правила шаблона, имя заменяющего элемента является необязательным полем. {:<replacerType>} является допустимым синтаксисом. Например, file-{:int}.csv будет успешно соответствовать для file-1.csv и file-2.csv и создать два разных ресурса вместо набора ресурсов.

Статические заменяющие элементы (двойные скобки)

Двойные скобки используются в качестве статических заменяющих элементов в полном имени правила шаблона. Укажите статический замещающий объект в полном имени, используя формат {{<replacerName>:<replacerType>}}. При совпадении каждый набор уникальных статических значений замены создает различные группы наборов ресурсов.

Например, если два ресурса folder1/file-1.csv совпадают folder2/file-2.csv с правилом {{folder:string}}/file-{NUM:int}.csv, будут созданы folder1/file-{NUM}.csv два набора ресурсов и folder2/file-{NUM}.csv.

Статические заменяющие элементы можно использовать для указания отображаемого имени ресурса, соответствующего правилу шаблона. При использовании {{<replacerName>}} в отображаемом имени правила используется совпадающее значение в имени ресурса.

Доступные типы замены

Ниже приведены доступные типы, которые можно использовать в статических и динамических заменяющих.

Тип Структура
string Ряд из одного или нескольких символов Юникода, включая разделители, такие как пробелы.
int Ряд из 1 или более 0–9 символов ASCII, он может иметь 0 префиксов (например, 0001).
guid Ряд из 32 или 8-4-4-4-12 строковое представление UUID, как определено в RFC 4122.
date Ряд из 6 или 8 символов ASCII 0–9 с необязательными разделителями: ггггммдд, гггг-мм-дд, ггммдд, гг-мм-дд, указанные в RFC 3339.
time Серия из 4 или 6 символов ASCII 0–9 с дополнительными разделителями: HHmm, HH:mm, HHmmss, HH:mm:ss, указанным в RFC 3339.
метка времени Серия из 12 или 14 символов ASCII 0-9 с необязательными разделителями: гггг-мм-ддTHH:мм, ггггммддхм, гггг-мм-ддTHH:мм:сс, гггг-мм:сс, yyymmddHHmmss, указанных в RFC 3339.
логический Может содержать "true" или "false", без учета регистра.
число Ряд из 0 или более 0–9 символов ASCII, он может быть 0 с префиксом (например, 0001), за которым при необходимости следует точка "." и ряд из 1 или более 0-9 символов ASCII. Он может быть постфиксирован 0 (например, .100).
зачаровывать Ряд из одного или нескольких символов ASCII из набора 0-1 и A-F, значение может быть префиксом 0.
языковые стандарты Строка, соответствующая синтаксису, указанному в RFC 5646.

Порядок применения правил шаблона набора ресурсов

Ниже приведен порядок операций для применения правил шаблонов:

  1. Более конкретные области берут приоритет, если ресурс соответствует двум правилам. Например, правила в область container/folder будут применяться перед правилами в область container.

  2. Порядок правил в пределах определенного область. Это можно изменить в пользовательском интерфейсе.

  3. Если ресурс не соответствует какому-либо указанному правилу, применяется эвристика набора ресурсов по умолчанию.

Примеры

Пример 1

Извлечение данных SAP в полную и разностную нагрузку

Входные данные

Файлы:

  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt

Правило шаблона

Размах:https://myazureblob.blob.core.windows.net/bar/

Отображаемое имя: "Внешний клиент"

Полное имя:customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt

Набор ресурсов: true

Выходные данные

Один ресурс набора ресурсов

Отображаемое имя: Внешний клиент

Полное имя:https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt

Пример 2

Данные Интернета вещей в формате avro

Входные данные

Файлы:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Правила шаблонов

Размах:https://myazureblob.blob.core.windows.net/bar/

Правило 1

Отображаемое имя: 'machine-89'

Полное имя:raw/machinename-89/{date:date}/{time:time}-{id:int}.avro

Набор ресурсов: true

Правило 2

Отображаемое имя: 'machine-90'

Полное имя:raw/machinename-90/{date:date}/{time:time}-{id:int}.avro

Набор ресурсов: true

Выходные данные

Два набора ресурсов

Набор ресурсов 1

Отображаемое имя: machine-89

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Набор ресурсов 2

Отображаемое имя: machine-90

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Пример 3

Данные Интернета вещей в формате avro

Входные данные

Файлы:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Правило шаблона

Размах:https://myazureblob.blob.core.windows.net/bar/

Отображаемое имя: "Machine-{{machineid}}"

Полное имя:raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro

Набор ресурсов: true

Выходные данные

Набор ресурсов 1

Отображаемое имя: machine-89

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Набор ресурсов 2

Отображаемое имя: machine-90

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Пример 4

Не группировать в наборы ресурсов

Входные данные

Файлы:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Правило шаблона

Размах:https://myazureblob.blob.core.windows.net/bar/

Отображаемое имя:Machine-{{machineid}}

Полное имя:raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro

Набор ресурсов: false

Выходные данные

Четыре отдельных актива

Ресурс 1

Отображаемое имя: machine-89

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro

Ресурс 2

Отображаемое имя: machine-89

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro

Ресурс 3

Отображаемое имя: machine-89

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro

Ресурс 4

Отображаемое имя: machine-90

Полное имя:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Дальнейшие действия

Начните с регистрации и сканирования учетной записи хранения Azure Data Lake 2-го поколения.