Koncepty příjmu dat založené na manifestu

Příjem souborů založený na manifestu poskytuje koncovým uživatelům a systémům robustní mechanismus načítání metadat o datových sadách v Azure Data Manageru pro energetické instance. Tato metadata je indexována systémem a umožňuje koncovému uživateli prohledávat datové sady.

Příjem souborů založený na manifestu je neprůhlený příjem dat, který neanalybuje nebo nerozumí obsahu souboru. Vytvoří záznam metadat založený na manifestu a vytvoří záznam prohledávatelný.

Co je manifest?

Manifest je dokument JSON, který má předem určenou strukturu pro zachytávání entit definovaných jako "druh", tedy jako schémata ve službě Schema – dobře známé definice schématu (WKS).

Tady najdete ukázkový dokument JSON manifestu.

Schéma manifestu obsahuje kontejnery pro následující typy skupin OSDU:®

  • ReferenceData (nula nebo více) – sada povolených hodnot, které se mají použít v jiných datových polích (hlavní nebo transakční). Mezi příklady patří měrná jednotka (stopy), měna atd.
  • MasterData (nula nebo více) – jeden zdroj základních obchodních dat používaných ve více systémech, aplikacích a/nebo procesu. Mezi příklady patří Wells a Wellbores.
  • WorkProduct (WP) (jeden – musí být k dispozici při načítání WorkProductComponents) – Hranice relace nebo kolekce (projekt, studie) zahrnuje sadu entit, které je potřeba zpracovat společně. Jako příklad můžete přijmout příjem jedné nebo více kolekcí protokolů.
  • WorkProductComponents (WPC) (nula nebo více – musí být k dispozici při načítání datových sad) – Typ, nejmenší, nezávisle použitelná jednotka obsahu obchodních dat přenášená jako součást pracovního produktu (kolekce věcí přijatých dohromady). Každá součást pracovního produktu (WPC) obvykle používá referenční data, patří k některým hlavním datům a udržuje odkaz na datové sady. Příklad: Protokoly, chyby, dokumenty
  • Datové sady (nula nebo více datových sad ) musí být k dispozici, pokud se načítají záznamy WorkProduct a WorkProductComponent – Každá součást pracovního produktu (WPC) se skládá z jednoho nebo více datových kontejnerů označovaných jako datové sady.

Data manifestu se načtou v určité sekvenci:

  1. Pole ReferenceData (pokud je vyplněno).
  2. Pole MasterData (pokud je vyplněno).
  3. Struktura Data je zpracována jako poslední (pokud je vyplněna). Uvnitř vlastnosti Data se zpracování provádí v následujícím pořadí:
    1. pole Datové sady
    2. Pole WorkProductComponents
    3. "WorkProduct".

Všechna pole jsou seřazená. pokud existují vzájemné závislosti, závislé položky musí být umístěny za cíli vztahu, například záznam hlavního datového well musí být umístěn v poli MasterData před jeho Wellbores.

Pracovní postup příjmu souborů založený na manifestu

Azure Data Manager pro energetické instance má okamžitě připravenou podporu pracovního postupu příjmu souborů založených na manifestu. Osdu_ingest DaG airflow je ve vaší instanci předem nakonfigurovaný.

Komponenty pracovního postupu příjmu souborů založené na manifestu

Pracovní postup příjmu souborů založený na manifestu se skládá z následujících komponent:

  • Služba pracovního postupu – služba obálky spuštěná nad motorem pracovního postupu Airflow.
  • Motor Airflow – orchestrační modul pracovního postupu, který spouští pracovní postupy zaregistrované jako DAG (řízené acyklické grafy). Airflow je zvolený modul pracovního postupu komunitou OSDU® pro orchestraci a spouštění pracovních postupů příjmu dat. Airflow není přímo vystavený, místo toho se k jeho funkcím přistupuje prostřednictvím služby pracovního postupu.
  • Služba úložiště – služba, která se používá k uložení záznamů metadat manifestu do datové platformy.
  • Schema Service – služba, která spravuje schémata definovaná OSDU® v datové platformě. Schémata se odkazují během příjmu souborů založených na manifestu.
  • Služba nároků – služba, která spravuje přístupové skupiny. Tato služba se používá během příjmu dat k ověření oprávnění pro příjem dat. Tato služba se také používá při načítání záznamů metadat k ověření zápisů pro čtení.
  • Právní služba – služba, která ověřuje dodržování předpisů prostřednictvím právních značek.
  • Vyhledávací služba se používá k provádění kontroly referenční integrity během procesu příjmu manifestu.

Požadavky

Před spuštěním pracovního postupu příjmu souborů založených na manifestu musí zákazníci zajistit, aby uživatelské účty, na kterých běží pracovní postup, měly přístup ke základním službám (vyhledávání, úložiště, schéma, nárok a právní) a službě pracovního postupu (podrobnosti najdete v části Role oprávnění). V rámci zřizování instancí energie se předem načtou standardní schémata OSDU® a související referenční data. Zákazníci musí zajistit, aby uživatelský účet použitý k ingestování manifestů byl součástí příslušných vlastníků a seznamů ACL pro diváky. Zákazníci musí zajistit, aby manifesty byly nakonfigurovány se správnými právními značkami, seznamy ACL vlastníků a diváků, referenčními daty atd.

Pořadí pracovních postupů

Následující obrázek obsahuje pracovní postup příjmu souborů založený na manifestu: Snímek obrazovky se sekvencí příjmu manifestu

Uživatel odešle manifest pomocí názvu pracovního postupu příjmu Workflow Service manifestu ("Osdu_ingest"). Pokud je požadavek správný a uživatel má oprávnění ke spuštění pracovního postupu, služba pracovního postupu načte manifest a zahájí pracovní postup příjmu manifestu.

Služba pracovního postupu provádí řadu manifestů, jako je struktura manifestu syntax validation a ověřování atributů podle definovaného schématu, a kontroluje povinné atributy schématu. Systém pak provádí referential integrity validation mezi součástmi pracovních produktů a datovými sadami. Například zda odkazovaná nadřazená data existují.

Po úspěšném ověření systém zpracuje obsah do úložiště zápisem každé platné entity do datové platformy pomocí rozhraní API služby Storage.

OSDU® je ochranná známka the Open Group.

Další kroky