Основные понятия приема синтаксического анализатора CSV

CSV-файл (значения с разделителями-запятыми) — это текстовый файл с разделителями-запятыми, используемый для сохранения данных в структурированном формате таблицы.

DAG анализатора CSV позволяет клиенту загружать данные в экземпляр Microsoft Azure Data Manager для энергии на основе пользовательской схемы, то есть схемы, которая не соответствует хорошо известной схеме OSDU® (WKS). Перед загрузкой данных клиенты должны создать и зарегистрировать пользовательскую схему с помощью службы схемы.

DaG синтаксического анализа CSV реализует подход ELT (Извлечение нагрузки и преобразования) к загрузке данных, то есть данные сначала извлекаются из исходной системы в формате CSV и загружаются в экземпляр Azure Data Manager для энергетики. Затем его можно преобразовать в хорошо известную схему OSDU® с помощью службы сопоставления.

Что делает прием CSV?

Dag синтаксического анализа CSV позволяет клиентам загружать данные CSV в экземпляр Microsoft Azure Data Manager для энергетики. Он анализирует каждую строку CSV-файла и создает запись метаданных хранилища. Он выполняется schema validation для обеспечения соответствия данных CSV зарегистрированной пользовательской схеме. Он автоматически выполняет type coercion столбцы на основе определения типа данных схемы. Он создает unique id для каждой строки записи CSV путем объединения источника, типа сущности и строки в кодировке Base64, сформированной путем объединения естественных ключей в данных. Она выполняется unit conversion путем преобразования объявленного кадра ссылочных сведений в соответствующую сохраняемую ссылку с помощью службы unit. Он выполняется CRS conversion для пространственных столбцов на основе сведений о кадре ссылок (FoR), присутствующих в схеме. Он создает relationships метаданные, объявленные в исходной схеме. Наконец, она persists записывает метаданные с помощью службы служба хранилища.

Компоненты приема синтаксического анализа CSV

Рабочий процесс АНАЛИЗА CSV-файла DAG состоит из следующих служб:

  • Файловая служба упрощает управление файлами в экземпляре Azure Data Manager для энергетики. Он позволяет пользователю безопасно отправлять, обнаруживать и загружать файлы с платформы данных.
  • Служба схем упрощает управление схемами в экземпляре Azure Data Manager для энергетики. Он позволяет пользователю создавать, запрашивать и искать схемы на платформе данных.
  • служба служба хранилища упрощает хранение сведений метаданных для сущностей домена, которые передаются на платформу данных. Она также вызывает события изменения записей хранилища, которые позволяют подчиненным службам выполнять операции с записями метаданных приема.
  • Служба единиц упрощает управление и преобразование единиц
  • Служба рабочих процессов упрощает управление рабочими процессами в экземпляре Azure Data Manager для энергетики. Это служба-оболочка на вершине подсистемы оркестрации Airflow.

Схема компонентов приема CSV

Снимок экрана: схема компонентов приема CSV.

Рабочий процесс приема синтаксического анализа CSV

Для выполнения рабочего процесса DAG синтаксического анализа CSV пользователь должен иметь действительный маркер авторизации и соответствующий доступ к следующим службам: поиск, служба хранилища, схема, файловая служба, право, юридический и рабочий процесс.

На приведенной ниже схеме рабочего процесса показан рабочий процесс DAG синтаксического анализа CSV: Снимок экрана: схема последовательности приема CSV-файлов.

Чтобы выполнить рабочий процесс DAG анализатора CSV, пользователь должен сначала создать и зарегистрировать схему с помощью службы рабочего процесса. После создания схемы пользователь использует службу файлов для отправки CSV-файла в экземпляры Microsoft Azure Data Manager для энергетики, а также создает запись хранения универсального типа файла. Затем служба файлов предоставляет пользователю идентификатор файла, который используется при активации рабочего процесса синтаксического анализа CSV с помощью службы рабочего процесса. Служба рабочего процесса предоставляет идентификатор выполнения, который пользователь может использовать для отслеживания состояния выполнения рабочего процесса синтаксического анализа CSV.

OSDU® — это товарный знак Open Group.

Следующие шаги

Перейдите к руководству по синтаксическому анализу CSV и узнайте, как выполнять прием средства синтаксического анализа CSV