Conceitos de ingestão do analisador CSV

Um arquivo CSV (valores separados por vírgula) é um arquivo de texto delimitado por vírgulas que é usado para salvar dados em um formato estruturado de tabela.

Um DAG do analisador CSV permite que um cliente carregue dados na instância do Microsoft Azure Data Manager for Energy com base em um esquema personalizado, ou seja, um esquema que não corresponde ao OSDU™ Well Known Schema (WKS). Os clientes devem criar e registrar o esquema personalizado usando o serviço Esquema antes de carregar os dados.

Um DAG do analisador CSV implementa uma abordagem ELT (Extract Load and Transform) para o carregamento de dados, ou seja, os dados são extraídos primeiro do sistema de origem em um formato CSV e são carregados na instância do Azure Data Manager for Energy. Ele poderia então ser transformado para o OSDU™ Well Known Schema usando um serviço de mapeamento.

O que faz a ingestão de CSV?

Um DAG do analisador CSV permite que os clientes carreguem os dados CSV na instância do Microsoft Azure Data Manager for Energy. Ele analisa cada linha de um arquivo CSV e cria um registro de metadados de armazenamento. Ele executa schema validation para garantir que os dados CSV estejam em conformidade com o esquema personalizado registrado. Ele é executado type coercion automaticamente nas colunas com base na definição de tipo de dados do esquema. Ele gera unique id para cada linha do registro CSV combinando fonte, tipo de entidade e uma cadeia de caracteres codificada em Base64 formada pela concatenação de chave(s) natural(is) nos dados. Ele funciona unit conversion convertendo informações declaradas do quadro de referência em referência persistente apropriada usando o serviço da Unidade. Ele funciona CRS conversion para colunas espacialmente conscientes com base nas informações do Frame of Reference (FoR) presentes no esquema. Ele cria relationships metadados conforme declarado no esquema de origem. Finalmente, ele persists o registro de metadados usando o serviço de armazenamento.

Componentes de ingestão do analisador CSV

O fluxo de trabalho do CSV Parser DAG é composto pelos seguintes serviços:

  • O serviço de arquivo facilita o gerenciamento de arquivos na instância do Azure Data Manager for Energy. Ele permite que o usuário faça upload, descoberta e download seguros de arquivos da plataforma de dados.
  • O serviço de esquema facilita o gerenciamento de esquemas na instância do Azure Data Manager for Energy. Ele permite que o usuário crie, busque e pesquise esquemas na plataforma de dados.
  • O Serviço de Armazenamento facilita o armazenamento de informações de metadados para entidades de domínio ingeridas na plataforma de dados. Ele também gera eventos de alteração de registro de armazenamento que permitem que serviços downstream executem operações em registros de metadados ingeridos.
  • Serviço de Unidade facilita a gestão e conversão de unidades
  • O serviço de fluxo de trabalho facilita o gerenciamento de fluxos de trabalho na instância do Azure Data Manager for Energy. É um serviço de invólucro no topo do motor de orquestração Airflow.

Diagrama de componentes de ingestão CSV

Screenshot of the CSV ingestion components diagram.

Fluxo de trabalho de ingestão do analisador CSV

Para executar o fluxo de trabalho do CSV Parser DAG, o usuário deve ter um token de autorização válido e acesso apropriado aos seguintes serviços: Pesquisa, Armazenamento, Esquema, Serviço de Arquivo, Direito, Legal e Fluxo de Trabalho.

O diagrama de fluxo de trabalho abaixo ilustra o fluxo de trabalho do CSV Parser DAG: Screenshot of the CSV ingestion sequence diagram.

Para executar o fluxo de trabalho do CSV Parser DAG, o usuário deve primeiro criar e registrar o esquema usando o serviço de fluxo de trabalho. Depois que o esquema é criado, o usuário usa o serviço Arquivo para carregar o arquivo CSV para as instâncias do Microsoft Azure Data Manager for Energy e também cria o registro de armazenamento do tipo genérico do arquivo. Em seguida, o serviço de arquivo fornece uma ID de arquivo para o usuário, que é usada ao acionar o fluxo de trabalho do Analisador CSV usando o serviço Fluxo de trabalho. O serviço de fluxo de trabalho fornece uma ID de execução, que o usuário pode usar para controlar o status da execução do fluxo de trabalho do analisador CSV.

OSDU™ é uma marca comercial do The Open Group.

Próximos passos

Avance para o tutorial do analisador CSV e saiba como executar uma ingestão do analisador CSV