Concetti relativi all'inserimento del parser CSV

Un file CSV (valori delimitati da virgole) è un file di testo delimitato da virgole usato per salvare i dati in un formato strutturato di tabella.

Un daG del parser CSV consente a un cliente di caricare i dati in Microsoft Azure Data Manager per l'istanza di Energy in base a uno schema personalizzato, ovvero uno schema che non corrisponde allo schema noto osDU®. I clienti devono creare e registrare lo schema personalizzato usando il servizio Schema prima di caricare i dati.

Un daG del parser CSV implementa un approccio ELT (Extract Load and Transform) al caricamento dei dati, ovvero i dati vengono prima estratti dal sistema di origine in un formato CSV e vengono caricati nell'istanza di Azure Data Manager per l'energia. Potrebbe quindi essere trasformato nello schema noto OSDU® usando un servizio di mapping.

Che cosa fa l'inserimento CSV?

Un daG parser CSV consente ai clienti di caricare i dati CSV nell'istanza di Microsoft Azure Data Manager per l'energia. Analizza ogni riga di un file CSV e crea un record di metadati di archiviazione. Viene eseguito schema validation per garantire che i dati CSV siano conformi allo schema personalizzato registrato. Viene eseguita type coercion automaticamente sulle colonne in base alla definizione del tipo di dati dello schema. unique id Genera per ogni riga del record CSV combinando l'origine, il tipo di entità e una stringa con codifica Base64 formata dalla concatenazione di chiavi naturali nei dati. unit conversion Esegue convertendo il frame dichiarato di informazioni di riferimento in riferimenti persistenti appropriati usando il servizio unità. Viene eseguita CRS conversion per le colonne con riconoscimento spaziale in base alle informazioni Frame of Reference (FoR) presenti nello schema. relationships Crea metadati come dichiarati nello schema di origine. Infine, il persists record di metadati usando il servizio Archiviazione.

Componenti di inserimento parser CSV

Il flusso di lavoro DAG del parser CSV è costituito dai servizi seguenti:

  • Il servizio file facilita la gestione dei file nell'istanza di Azure Data Manager per l'energia. Consente all'utente di caricare, individuare e scaricare file in modo sicuro dalla piattaforma dati.
  • Il servizio schema facilita la gestione degli schemi nell'istanza di Azure Data Manager per l'energia. Consente all'utente di creare, recuperare e cercare schemi nella piattaforma dati.
  • Archiviazione Servizio facilita l'archiviazione delle informazioni sui metadati per le entità di dominio inserite nella piattaforma dati. Genera anche eventi di modifica dei record di archiviazione che consentono ai servizi downstream di eseguire operazioni sui record di metadati inseriti.
  • Unit Service facilita la gestione e la conversione delle unità
  • Il servizio flusso di lavoro facilita la gestione dei flussi di lavoro nell'istanza di Azure Data Manager per l'energia. Si tratta di un servizio wrapper sopra il motore di orchestrazione Airflow.

Diagramma dei componenti di inserimento CSV

Screenshot del diagramma dei componenti di inserimento CSV.

Flusso di lavoro di inserimento del parser CSV

Per eseguire il flusso di lavoro DAG del parser CSV, l'utente deve avere un token di autorizzazione valido e l'accesso appropriato ai servizi seguenti: Ricerca, Archiviazione, Schema, Servizio file, Entitlement, Legale e Flusso di lavoro.

Il diagramma del flusso di lavoro seguente illustra il flusso di lavoro del parser CSV DAG: Screenshot del diagramma sequenza di inserimento CSV.

Per eseguire il flusso di lavoro DAG del parser CSV, l'utente deve prima creare e registrare lo schema usando il servizio flusso di lavoro. Dopo aver creato lo schema, l'utente usa il servizio file per caricare il file CSV nelle istanze di Microsoft Azure Data Manager per l'energia e crea anche il record di archiviazione di tipo generico. Il servizio file fornisce quindi un ID file all'utente, che viene usato durante l'attivazione del flusso di lavoro parser CSV usando il servizio Flusso di lavoro. Il servizio Flusso di lavoro fornisce un ID esecuzione che l'utente può usare per tenere traccia dello stato dell'esecuzione del flusso di lavoro parser CSV.

OSDU® è un marchio di The Open Group.

Passaggi successivi

Passare all'esercitazione del parser CSV e apprendere come eseguire un inserimento di parser CSV