Konzepte der manifestbasierten Erfassung

Die manifestbasierte Dateierfassung bietet Endbenutzern und Systemen einen robusten Mechanismus zum Laden von Metadaten über Datasets in eine Azure Data Manager for Energy-Instanz. Diese Metadaten werden vom System indiziert und ermöglichen dem Endbenutzer, die Datasets zu durchsuchen.

Die manifestbasierte Dateierfassung ist eine undurchsichtige Erfassung, die den Dateiinhalt nicht analysiert oder versteht. Sie erstellt einen Metadaten-Datensatz basierend auf dem Manifest und macht den Datensatz durchsuchbar.

Was ist ein Manifest?

Ein Manifest ist ein JSON-Dokument, das eine vorgegebene Struktur für die Erfassung von Entitäten aufweist, die als „kind“ definiert sind, das heißt, die als Schemas mit dem Schemadienst registriert sind – WKS-Definitionen (Well-Known Schema).

Beispiele für JSON-Manifestdokumente finden Sie hier.

Das Manifestschema enthält Container für die folgenden OSDU®-Gruppentypen:

  • ReferenceData (0 oder mehr): Ein Satz zulässiger Werte, die von anderen Datenfeldern (Master oder Transaktion) verwendet werden sollen. Beispiele sind Unit of Measure (feet), Currency usw.
  • MasterData (0 oder mehr): Eine einzelne Quelle für grundlegende Geschäftsdaten, die system-, anwendungs- und/oder prozessübergreifend verwendet werden. Beispiele sind Wells und Wellbores.
  • WorkProduct (WP) (1, muss beim Laden von WorkProductComponents vorhanden sein): Eine Sitzungsgrenze oder Sammlung (Projekt, Studie) umfasst eine Reihe von Entitäten, die gemeinsam verarbeitet werden müssen. Ein Beispiel ist die Erfassung einer oder mehrerer Protokollsammlungen.
  • WorkProductComponents (WPC) (0 oder mehr, muss beim Laden von Datasets vorhanden sein): Die typisierte, kleinste, unabhängig nutzbare Einheit von Geschäftsdateninhalten, die als Teil eines Arbeitsprodukts übertragen wird (eine Sammlung von Elementen, die gemeinsam erfasst werden). Jede Arbeitsproduktkomponente (Work Product Component, WPC) verwendet typischerweise Referenzdaten, gehört zu bestimmten Masterdaten und verwaltet einen Verweis auf Datasets. Beispiel: Well Logs, Faults, Documents
  • Datasets (0 oder mehr, muss beim Laden von WorkProduct- und WorkProductComponent-Datasets vorhanden sein): Jede Arbeitsproduktkomponente (WPC) besteht aus einem oder mehreren Datencontainern, den sogenannten Datasets.

Die Manifestdaten werden in einer bestimmten Sequenz geladen:

  1. Das Array „ReferenceData“ (sofern ausgefüllt).
  2. Das Array „MasterData“ (sofern ausgefüllt).
  3. Die Struktur „Daten“ wird zuletzt verarbeitet (falls ausgefüllt). Innerhalb der Eigenschaft „Daten“ erfolgt die Verarbeitung in der folgenden Reihenfolge:
    1. das Array „Datasets“
    2. das Array „WorkProductComponents“
    3. das „WorkProduct“.

Alle Arrays werden sortiert. sollte es Abhängigkeiten geben, müssen die abhängigen Elemente hinter ihren Beziehungszielen platziert werden, z. B. muss ein Masterdaten-Well-Datensatz vor dem Wellbores-Array im Array „MasterData“ platziert werden.

Workflow für die manifestbasierte Dateierfassung

Azure Data Manager for Energy-Instanz verfügt über sofort einsatzbereite Unterstützung für manifestbasierten Dateierfassungsworkflow. Osdu_ingest Airflow DAG ist in Ihrer Instanz vorkonfiguriert.

Workflowkomponenten für die manifestbasierte Dateierfassung

Der Workflow für die manifestbasierte Dateierfassung besteht aus den folgenden Komponenten:

  • Workflowdienst – ein Wrapper-Dienst, der zusätzlich zum Airflow-Workflowmodul ausgeführt wird.
  • Airflow-Modul – ein Workflow-Orchestrierungsmodul, das Workflows ausführt, die als DAGs (Directed Acyclic Graphs; gerichtete azyklische Graphen) registriert sind. Airflow ist die von der OSDU®-Community eingesetzte Workflow-Engine zur Orchestrierung und Ausführung von Erfassungsworkflows. Airflow ist nicht direkt zugänglich, stattdessen erfolgt der Zugriff auf die Airflow-Funktionen über den Workflowdienst.
  • Speicherdienst: ein Speicherdienst, der verwendet wird, um die Manifest-Metadateneinträge in der Datenplattform zu speichern.
  • Schemadienst – ein Dienst, der OSDU®-definierte Schemas in der Datenplattform verwaltet. Schemas werden während der manifestbasierten Dateierfassung referenziert.
  • Berechtigungsdienst: ein Dienst, der Zugriffsgruppen verwaltet. Dieser Dienst wird während der Erfassung zur Überprüfung der Erfassungsberechtigungen herangezogen. Darüber hinaus wird er während des Abrufs von Datensätzen mit Metadaten zur Validierung von „gelesenen“ Schreibvorgängen verwendet.
  • Rechtsdienst – ein Dienst, der die Compliance durch rechtliche Tags überprüft.
  • Suchdienst : Wird verwendet, um die referenzielle Integrität während des Manifesterfassungsprozesses zu prüfen.

Voraussetzungen

Vor dem Ausführen des Workflows für die manifestbasierte Dateierfassung müssen Kunden sicherstellen, dass die Benutzerkonten, die den Workflow ausführen, Zugriff auf die Kerndienste (Suche, Speicher, Schema, Berechtigung, Recht) und den Workflowdienst haben (Weitere Informationen finden Sie unter Berechtigungsrollen). Im Rahmen der Bereitstellung von Azure Data Manager for Energy-Instanzen werden die OSDU®-Standardschemas und die zugehörigen Referenzdaten vorab geladen. Kunden müssen sicherstellen, dass das Benutzerkonto, das zum Erfassen der Manifeste verwendet wird, in den entsprechenden Besitzer- und Viewer-ACLs enthalten ist. Kunden müssen sicherstellen, dass Manifeste mit korrekten rechtlichen Tags, Besitzer- und Viewer-ACLs, Referenzdaten usw. konfiguriert sind.

Workflowsequenz

Die folgende Abbildung zeigt den Workflow für die manifestbasierte Dateierfassung: Screenshot: Abfolge der Manifesterfassung

Ein Benutzer sendet ein Manifest mithilfe des Workflownamens der Manifesterfassung („Osdu_ingest“) an den Workflow Service. Wenn die Anforderung ordnungsgemäß ist und der Benutzer zum Ausführen des Workflows autorisiert ist, lädt der Workflowdienst das Manifest und initiiert den Workflow zur Manifesterfassung.

Der Workflowdienst führt eine Reihe von syntax validation für Manifeste wie Manifeststruktur und Attributüberprüfung gemäß dem definierten Schema aus und sucht nach obligatorischen Schemaattributen. Das System führt dann referential integrity validation zwischen Arbeitsproduktkomponenten und Datasets aus. Es gibt beispielsweise an, ob die referenzierten übergeordneten Daten vorhanden sind.

Sobald die Überprüfungen erfolgreich sind, verarbeitet das System den Inhalt im Speicher, indem jede gültige Entität mithilfe der Speicherdienst-API in die Datenplattform geschrieben wird.

OSDU® ist eine Marke von The Open Group.

Nächste Schritte