Manifestbaserade inmatningsbegrepp
Manifestbaserad filinmatning ger slutanvändare och system en robust mekanism för att läsa in metadata om datauppsättningar i Azure Data Manager för Energy-instansen. Dessa metadata indexeras av systemet och gör det möjligt för slutanvändaren att söka i datauppsättningarna.
Manifestbaserad filinmatning är en ogenomskinlig inmatning som inte parsar eller förstår filinnehållet. Den skapar en metadatapost baserat på manifestet och gör posten sökbar.
Vad är ett manifest?
Ett manifest är ett JSON-dokument som har en fördefinierad struktur för att samla in entiteter som definierats som "typ", dvs. registrerade som scheman med definitionerna schematjänst – välkänt schema (WKS).
Du hittar ett exempel på ett json-dokument för manifest här.
Manifestschemat innehåller containrar för följande OSDU-grupptyper®:
- ReferenceData (noll eller mer) – En uppsättning tillåtna värden som ska användas av andra datafält (huvud- eller transaktionsdata). Exempel är måttenhet (fot), valuta osv.
- MasterData (noll eller mer) – en enda källa till grundläggande affärsdata som används i flera system, program och/eller processer. Exempel är Wells och Wellbores
- WorkProduct (WP) (en – måste finnas om WorkProductComponents läses in) – En sessionsgräns eller samling (projekt, studie) omfattar en uppsättning entiteter som måste bearbetas tillsammans. Du kan till exempel ta inmatningen av en eller flera loggsamlingar.
- WorkProductComponents (WPC) (noll eller mer – måste finnas vid inläsning av datauppsättningar) – en typinskriven, minsta, oberoende användbar enhet med affärsdatainnehåll som överförs som en del av en arbetsprodukt (en samling saker som matas in tillsammans). Varje arbetsproduktkomponent (WPC) använder vanligtvis referensdata, tillhör vissa huvuddata och underhåller en referens till datauppsättningar. Exempel: Brunnsloggar, fel, dokument
- Datauppsättningar (noll eller fler – måste finnas om du läser in WorkProduct- och WorkProductComponent-poster) – Varje arbetsproduktkomponent (WPC) består av en eller flera datacontainrar som kallas datauppsättningar.
Manifestdata läses in i en viss sekvens:
- Matrisen "ReferenceData" (om den är ifylld).
- Matrisen MasterData (om den är ifylld).
- Datastrukturen bearbetas senast (om den fylls i). I egenskapen Data utförs bearbetningen i följande ordning:
- matrisen "Datauppsättningar"
- matrisen "WorkProductComponents"
- "WorkProduct".
Alla matriser sorteras. Om det skulle finnas beroenden måste de beroende objekten placeras bakom sina relationsmål, till exempel måste en huvuddata well-post placeras i matrisen MasterData före dess Wellbores.
Manifestbaserat arbetsflöde för filinmatning
Azure Data Manager for Energy-instansen har out-of-the-box-stöd för manifestbaserad filinmatningsarbetsflöde. Osdu_ingest
Airflow DAG är förkonfigurerad i din instans.
Arbetsflödeskomponenter för manifestbaserad filinmatning
Arbetsflödet för manifestbaserad filinmatning består av följande komponenter:
- Arbetsflödestjänst – en omslutningstjänst som körs ovanpå airflow-arbetsflödesmotorn.
- Luftflödesmotor – en arbetsflödesorkestreringsmotor som kör arbetsflöden som registrerats som DAG:er (riktade acykliska grafer). Airflow är den valda arbetsflödesmotorn av OSDU-communityn ® för att orkestrera och köra inmatningsarbetsflöden. Airflow exponeras inte direkt, utan dess funktioner nås via arbetsflödestjänsten.
- Storage Service – en tjänst som används för att spara manifestmetadataposter i dataplattformen.
- Schematjänst – en tjänst som hanterar OSDU-definierade® scheman på dataplattformen. Scheman refereras under den manifestbaserade filinmatningen.
- Berättigandetjänst – en tjänst som hanterar åtkomstgrupper. Den här tjänsten används under inmatningen för verifiering av inmatningsbehörigheter. Den här tjänsten används också vid hämtning av metadataposter för validering av "läs"-skrivningar.
- Juridisk tjänst – en tjänst som validerar efterlevnad via juridiska taggar.
- Söktjänsten används för att utföra referensintegritetskontroll under manifestinmatningsprocessen.
Förutsättningar
Innan du kör arbetsflödet för manifestbaserad filinmatning måste kunderna se till att användarkontona som kör arbetsflödet har åtkomst till kärntjänsterna (Sök, Lagring, Schema, Berättigande och Juridisk) och Arbetsflödestjänst (se Berättiganderoller för mer information). Som en del av Azure Data Manager for Energy-instansetablering förinstalleras OSDU-standardscheman® och tillhörande referensdata. Kunder måste se till att det användarkonto som används för att mata in manifesten ingår i lämpliga ägare och visnings-ACL:er. Kunder måste se till att manifest har konfigurerats med rätt juridiska taggar, ägare och visnings-ACL:er, referensdata osv.
Arbetsflödessekvens
Följande bild visar arbetsflödet för manifestbaserad filinmatning:
En användare skickar ett manifest till Workflow Service
med hjälp av arbetsflödesnamnet för manifestinmatning ("Osdu_ingest"). Om begäran är korrekt och användaren har behörighet att köra arbetsflödet läser arbetsflödestjänsten in manifestet och initierar arbetsflödet för manifestinmatning.
Arbetsflödestjänsten kör en serie manifest syntax validation
som manifeststruktur och attributverifiering enligt det definierade schemat och söker efter obligatoriska schemaattribut. Systemet utför referential integrity validation
sedan mellan Work Product Components och Datasets. Till exempel om de refererade överordnade data finns.
När valideringarna har slutförts bearbetar systemet innehållet till lagring genom att skriva varje giltig entitet till dataplattformen med hjälp av Storage Service-API:et.
OSDU® är ett varumärke som tillhör The Open Group.