Pojęcia dotyczące pozyskiwania opartego na manifeście
Pozyskiwanie plików opartych na manifeście zapewnia użytkownikom końcowym i systemom niezawodny mechanizm ładowania metadanych dotyczących zestawów danych w usłudze Azure Data Manager dla wystąpienia energy. Te metadane są indeksowane przez system i umożliwiają użytkownikowi końcowemu wyszukiwanie zestawów danych.
Pozyskiwanie plików oparte na manifeście to nieprzezroczyste pozyskiwanie, które nie analizuje ani nie rozumie zawartości pliku. Tworzy rekord metadanych na podstawie manifestu i umożliwia wyszukiwanie rekordu.
Co to jest manifest?
Manifest to dokument JSON, który ma wstępnie zdefiniowaną strukturę przechwytywania jednostek zdefiniowanych jako "rodzaj", czyli zarejestrowany jako schematy w usłudze Schemat — dobrze znane definicje schematu (WKS).
Przykładowy dokument json manifestu można znaleźć tutaj.
Schemat manifestu zawiera kontenery dla następujących typów grup OSDU:®
- ReferenceData (zero lub więcej) — zestaw dopuszczalnych wartości, które mają być używane przez inne pola danych (główne lub transakcyjne). Przykłady obejmują jednostkę miary (stopy), walutę itp.
- MasterData (zero lub więcej) — jedno źródło podstawowych danych biznesowych używanych w wielu systemach, aplikacjach i/lub procesie. Przykłady obejmują Wells i Wellbores
- WorkProduct (WP) (jeden — musi być obecny, jeśli ładowanie WorkProductComponents) — granica sesji lub kolekcja (projekt, badanie) obejmuje zestaw jednostek, które muszą być przetwarzane razem. Na przykład można pobrać pozyskiwanie co najmniej jednej kolekcji dzienników.
- WorkProductComponents (WPC) (zero lub więcej — musi być obecny w przypadku ładowania zestawów danych) — typizowane, najmniejsze, niezależnie użyteczne jednostki zawartości danych biznesowych przesyłane w ramach produktu roboczego (kolekcja elementów pozyskanych razem). Każdy składnik produktu roboczego (WPC) zwykle używa danych referencyjnych, należy do niektórych danych głównych i utrzymuje odwołanie do zestawów danych. Przykład: dzienniki, błędy, dokumenty
- Zestawy danych (zero lub więcej — muszą być obecne w przypadku ładowania rekordów WorkProduct i WorkProductComponent) — każdy składnik produktu roboczego (WPC) składa się z co najmniej jednego kontenera danych znanego jako zestawy danych.
Dane manifestu są ładowane w określonej sekwencji:
- Tablica "ReferenceData" (jeśli została wypełniona).
- Tablica "MasterData" (jeśli została wypełniona).
- Struktura "Dane" jest przetwarzana ostatnio (jeśli została wypełniona). Wewnątrz właściwości "Dane" przetwarzanie odbywa się w następującej kolejności:
- tablica "Zestawy danych"
- tablica "WorkProductComponents"
- "WorkProduct".
Wszystkie tablice są uporządkowane. jeśli istnieją współzależności, elementy zależne muszą zostać umieszczone za ich celami relacji, na przykład rekord źródła danych głównych musi zostać umieszczony w tablicy "MasterData" przed jej źródłami.
Przepływ pracy pozyskiwania plików oparty na manifeście
Wystąpienie usługi Azure Data Manager for Energy ma wbudowaną obsługę przepływu pracy pozyskiwania plików opartego na manifeście. Osdu_ingest
Grupa DAG przepływu powietrza jest wstępnie skonfigurowana w twoim wystąpieniu.
Składniki przepływu pracy pozyskiwania plików oparte na manifeście
Przepływ pracy pozyskiwania plików oparty na manifeście składa się z następujących składników:
- Usługa przepływu pracy — usługa otoki uruchomiona u góry aparatu przepływu pracy Airflow.
- Aparat przepływu powietrza — aparat aranżacji przepływu pracy, który wykonuje przepływy pracy zarejestrowane jako grupy DAG (skierowane grafy Acykliczne). Przepływ powietrza jest wybranym aparatem przepływu pracy przez społeczność OSDU® do organizowania i uruchamiania przepływów pracy pozyskiwania. Przepływ powietrza nie jest bezpośrednio uwidaczniany, a jego funkcje są dostępne za pośrednictwem usługi przepływu pracy.
- Usługa Storage — usługa używana do zapisywania rekordów metadanych manifestu na platformie danych.
- Usługa schematu — usługa , która zarządza zdefiniowanymi schematami OSDU® na platformie danych. Schematy są przywoływane podczas pozyskiwania plików opartych na manifeście.
- Usługa Upoważnienia — usługa, która zarządza grupami dostępu. Ta usługa jest używana podczas pozyskiwania do weryfikacji uprawnień pozyskiwania. Ta usługa jest również używana podczas pobierania rekordów metadanych w celu weryfikacji zapisów "odczytu".
- Usługa prawna — usługa , która weryfikuje zgodność za pomocą tagów prawnych.
- Usługa wyszukiwania służy do przeprowadzania sprawdzania integralności referencyjnej podczas procesu pozyskiwania manifestu.
Wymagania wstępne
Przed uruchomieniem przepływu pracy pozyskiwania plików opartego na manifeście klienci muszą upewnić się, że konta użytkowników z uruchomionym przepływem pracy mają dostęp do podstawowych usług (wyszukiwanie, przechowywanie, schemat, upoważnienie i legalne) i usługę przepływu pracy (zobacz Role uprawnień, aby uzyskać szczegółowe informacje). W ramach aprowizacji wystąpienia usługi Azure Data Manager for Energy standardowe schematy OSDU® i skojarzone dane referencyjne są wstępnie ładowane. Klienci muszą upewnić się, że konto użytkownika używane do pozyskiwania manifestów jest uwzględniane w odpowiednich właścicielach i listach ACL osób przeglądających. Klienci muszą upewnić się, że manifesty są skonfigurowane przy użyciu prawidłowych tagów prawnych, właścicieli i osób przeglądających listy ACL, danych referencyjnych itp.
Sekwencja przepływu pracy
Poniższa ilustracja przedstawia przepływ pracy pozyskiwania plików oparty na manifeście:
Użytkownik przesyła manifest do Workflow Service
nazwy przepływu pracy pozyskiwania manifestu ("Osdu_ingest"). Jeśli żądanie jest prawidłowe, a użytkownik jest autoryzowany do uruchamiania przepływu pracy, usługa przepływu pracy ładuje manifest i inicjuje przepływ pracy pozyskiwania manifestu.
Usługa przepływu pracy wykonuje serię manifestów, takich jak struktura manifestu syntax validation
i walidacja atrybutów zgodnie ze zdefiniowanym schematem i sprawdza obowiązkowe atrybuty schematu. Następnie system wykonuje między referential integrity validation
składnikami produktu roboczego i zestawami danych. Na przykład, czy istnieją przywołyne dane nadrzędne.
Po pomyślnym zakończeniu walidacji system przetwarza zawartość do magazynu, zapisując każdą prawidłową jednostkę na platformie danych przy użyciu interfejsu API usługi Storage.
OSDU® jest znakiem towarowym grupy Open.