Concetti di inserimento basati su manifesto

L'inserimento di file basato su manifesto offre agli utenti finali e ai sistemi un meccanismo affidabile per il caricamento dei metadati sui set di dati in Azure Data Manager per l'istanza di Energy. Questi metadati vengono indicizzati dal sistema e consentono all'utente finale di eseguire ricerche nei set di dati.

L'inserimento di file basato su manifesto è un inserimento opaco che non analizza o comprende il contenuto del file. Crea un record di metadati basato sul manifesto e rende il record ricercabile.

Che cos'è un manifesto?

Un manifesto è un documento JSON con una struttura pre-determinata per l'acquisizione di entità definite come "kind", ovvero registrate come schemi con le definizioni del servizio Schema - Schema noto (WKS).

È possibile trovare un documento JSON del manifesto di esempio qui.

Lo schema del manifesto include contenitori per i tipi di gruppo OSDU® seguenti:

  • ReferenceData (zero o più): set di valori consentiti da utilizzare da altri campi dati (master o transazioni). Gli esempi includono Unità di misura (piedi), Valuta e così via.
  • MasterData (zero o più): singola origine di dati aziendali di base usati in più sistemi, applicazioni e/o processi. Gli esempi includono Wells e Wellbores
  • WorkProduct (WP) (uno - deve essere presente se si carica WorkProductComponents): un limite di sessione o una raccolta (progetto, studio) include un set di entità che devono essere elaborate insieme. Ad esempio, è possibile eseguire l'inserimento di una o più raccolte di log.
  • WorkProductComponents (WPC) (zero o più - deve essere presente se si caricano set di dati): un'unità tipizzata, più piccola e indipendentemente utilizzabile del contenuto dei dati aziendali trasferita come parte di un prodotto work (una raccolta di elementi inseriti insieme). Ogni componente del prodotto di lavoro (WPC) usa in genere dati di riferimento, appartiene ad alcuni dati master e mantiene un riferimento ai set di dati. Esempio: log, errori, documenti
  • Set di dati (zero o più : devono essere presenti se si caricano record WorkProduct e WorkProductComponent): ogni componente del prodotto di lavoro (WPC) è costituito da uno o più contenitori di dati noti come set di dati.

I dati del manifesto vengono caricati in una sequenza specifica:

  1. Matrice 'ReferenceData' (se popolata).
  2. Matrice 'MasterData' (se popolata).
  3. La struttura 'Data' viene elaborata per ultima (se popolata). All'interno della proprietà "Data", l'elaborazione viene eseguita nell'ordine seguente:
    1. matrice 'Datasets'
    2. matrice 'WorkProductComponents'
    3. 'WorkProduct'.

Tutte le matrici vengono ordinate. in caso di interdipendenze, gli elementi dipendenti devono essere posizionati dietro le destinazioni di relazione, ad esempio un record well master-data deve essere inserito nella matrice 'MasterData' prima dei relativi Wellbores.

Flusso di lavoro di inserimento di file basato su manifesto

L'istanza di Azure Data Manager per l'energia include il supporto predefinito per il flusso di lavoro di inserimento di file basato su manifesto. Osdu_ingest Il DAG del flusso di aria è preconfigurato nell'istanza.

Componenti del flusso di lavoro di inserimento di file basati su manifesto

Il flusso di lavoro di inserimento di file basato su manifesto è costituito dai componenti seguenti:

  • Servizio flusso di lavoro: servizio wrapper in esecuzione sul motore del flusso di lavoro Airflow.
  • Motore airflow: motore di orchestrazione del flusso di lavoro che esegue flussi di lavoro registrati come DAG (grafici Aciclici diretti). Airflow è il motore del flusso di lavoro scelto dalla community OSDU® per orchestrare ed eseguire flussi di lavoro di inserimento. Il flusso di aria non è esposto direttamente, ma è possibile accedervi tramite il servizio flusso di lavoro.
  • Archiviazione Servizio: servizio usato per salvare i record di metadati del manifesto nella piattaforma dati.
  • Servizio schema: servizio che gestisce gli schemi definiti da OSDU® nella piattaforma dati. Durante l'inserimento di file basati su manifesto viene fatto riferimento agli schemi.
  • Servizio Entitlements: servizio che gestisce i gruppi di accesso. Questo servizio viene usato durante l'inserimento per la verifica delle autorizzazioni di inserimento. Questo servizio viene usato anche durante il recupero del record di metadati per la convalida delle scritture di "lettura".
  • Servizio legale: servizio che convalida la conformità tramite tag legali.
  • Il servizio di ricerca viene usato per eseguire il controllo dell'integrità referenziale durante il processo di inserimento del manifesto.

Prerequisiti

Prima di eseguire il flusso di lavoro di inserimento di file basato su manifesto, i clienti devono assicurarsi che gli account utente che eseguono il flusso di lavoro abbiano accesso ai servizi di base (ricerca, Archiviazione, schema, entitlement e legale) e al servizio flusso di lavoro (vedere Ruoli entitlement per informazioni dettagliate). Nell'ambito del provisioning dell'istanza di Azure Data Manager per l'energia, gli schemi standard OSDU® e i dati di riferimento associati vengono precaricati. I clienti devono assicurarsi che l'account utente usato per inserire i manifesti sia incluso negli ACL appropriati per proprietari e visualizzatori. I clienti devono assicurarsi che i manifesti siano configurati con tag legali corretti, ACL di proprietari e visualizzatori, dati di riferimento e così via.

Sequenza del flusso di lavoro

La figura seguente fornisce il flusso di lavoro di inserimento di file basato su manifesto: Screenshot della sequenza di inserimento del manifesto.

Un utente invia un manifesto all'oggetto Workflow Service usando il nome del flusso di lavoro di inserimento del manifesto ("Osdu_ingest"). Se la richiesta è corretta e l'utente è autorizzato a eseguire il flusso di lavoro, il servizio flusso di lavoro carica il manifesto e avvia il flusso di lavoro di inserimento del manifesto.

Il servizio flusso di lavoro esegue una serie di manifesti come la struttura del manifesto syntax validation e la convalida degli attributi in base allo schema definito e verifica la presenza di attributi dello schema obbligatori. Il sistema esegue referential integrity validation quindi tra Work Product Components e Datasets. Ad esempio, se i dati padre a cui si fa riferimento esistono.

Al termine delle convalide, il sistema elabora il contenuto nella risorsa di archiviazione scrivendo ogni entità valida nella piattaforma dati usando l'API del servizio Archiviazione.

OSDU® è un marchio di The Open Group.

Passaggi successivi