Partilhar via


Conceitos de ingestão de parser CSV

Um ficheiro CSV (valores separados por vírgulas) é um ficheiro de texto delimitado por vírgulas que é usado para guardar dados num formato estruturado em tabelas.

Um DAG CSV Parser permite a um cliente carregar dados na instância Microsoft Azure Data Manager for Energy com base num esquema personalizado, ou seja, um esquema que não corresponde ao OSDU® Well Known Schema (WKS). Os clientes devem criar e registar o esquema personalizado usando o serviço Schema antes de carregar os dados.

Um DAG CSV Parser implementa uma abordagem ELT (Extrair, Carregar e Transformar) para o carregamento de dados, ou seja, os dados são primeiro extraídos do sistema de origem em formato CSV e carregados na instância Azure Data Manager for Energy. Poderia então ser transformado no OSDU® Well Known Schema usando um serviço de mapeamento.

O que faz a ingestão de CSV?

Um DAG CSV Parser permite aos clientes carregar os dados CSV na instância Microsoft Azure Data Manager for Energy. Analisa cada linha de um ficheiro CSV e cria um registo de metadados de armazenamento. Funciona schema validation para garantir que os dados CSV cumprem o esquema personalizado registado. Executa type coercion automaticamente nas colunas com base na definição do tipo de dado do esquema. Gera unique id para cada linha do registo CSV combinando fonte, tipo de entidade e uma cadeia codificada em Base64 formada pela concatenação de chaves naturais nos dados. Funciona unit conversion convertendo a informação declarada do quadro de referência em referência persistente apropriada usando o serviço unitário. Realiza CRS conversion para colunas sensíveis ao espaço com base na informação de Referência (FoR) presente no esquema. Cria os relationships metadados conforme declarado no esquema de origem. Finalmente, é persists o registo de metadados usando o serviço de Armazenamento.

Componentes de ingestão do parser CSV

O fluxo de trabalho CSV Parser DAG é composto pelos seguintes serviços:

  • O serviço de ficheiros facilita a gestão de ficheiros na instância Azure Data Manager for Energy. Permite ao utilizador carregar, descobrir e descarregar ficheiros de forma segura a partir da plataforma de dados.
  • O serviço de esquemas facilita a gestão dos esquemas na instância Azure Data Manager for Energy. Permite ao utilizador criar, buscar e procurar esquemas na plataforma de dados.
  • O Serviço de Armazenamento facilita o armazenamento de informação de metadados para entidades de domínio ingeridas na plataforma de dados. Também gera eventos de alteração de registos de armazenamento que permitem que serviços posteriores realizem operações sobre registos de metadados ingeridos.
  • O Serviço de Unidade facilita a gestão e conversão das unidades
  • O serviço de workflow facilita a gestão dos fluxos de trabalho na instância Azure Data Manager for Energy. É um serviço de encapsulamento sobre o motor de orquestração Airflow.

Diagrama dos componentes de ingestão do CSV

Captura de ecrã do diagrama dos componentes de ingestão do CSV.

Fluxo de trabalho de ingestão do parser CSV

Para executar o fluxo de trabalho CSV Parser DAG, o utilizador deve ter um token de autorização válido e acesso adequado aos seguintes serviços: Pesquisa, Armazenamento, Esquema, Serviço de Ficheiros, Direitos, Jurídico e Fluxo de Trabalho.

O diagrama do fluxo de trabalho abaixo ilustra o fluxo de trabalho DAG do CSV Parser: captura de ecrã do diagrama da sequência de ingestão CSV.

Para executar o fluxo de trabalho CSV Parser DAG, o utilizador deve primeiro criar e registar o esquema usando o serviço de workflow. Uma vez criado o esquema, o utilizador utiliza o serviço de ficheiros para carregar o ficheiro CSV para o Microsoft Azure Data Manager para instâncias de Energia, e também cria o registo de armazenamento do tipo genérico do ficheiro. O serviço de ficheiros fornece então um ID de ficheiro ao utilizador, que é usado ao ativar o fluxo de trabalho CSV Parser usando o serviço Workflow. O serviço Workflow fornece um ID de execução, que o utilizador pode usar para acompanhar o estado da execução do workflow do CSV Parser.

OSDU® é uma marca comercial do The Open Group.

Passos seguintes

Avance para o tutorial do parser CSV e aprenda como realizar a ingestão do parser CSV