매니페스트 기반 수집 개념

매니페스트 기반 파일 수집은 최종 사용자와 시스템에 Azure Data Manager for Energy 인스턴스에서 메타데이터를 로드하기 위한 강력한 메커니즘을 제공합니다. 이 메타데이터는 시스템에서 인덱싱되며 최종 사용자가 데이터 세트를 검색할 수 있도록 합니다.

매니페스트 기반 파일 수집은 파일 콘텐츠를 구문 분석하거나 이해하지 못하는 불투명 수집입니다. 매니페스트를 기준으로 메타데이터 레코드를 만들고 레코드를 검색 가능하게 만듭니다.

매니페스트란?

매니페스트는 'kind'로 정의된 엔터티를 캡처하기 위한 미리 결정된 구조가 있는 JSON 문서입니다. 즉, 스키마 서비스 - WKS(잘 알려진 스키마) 정의에 스키마로 등록됩니다.

예제 매니페스트 json 문서는 여기에서 찾을 수 있습니다.

매니페스트 스키마에는 다음 OSDU® 그룹 유형에 대한 컨테이너가 있습니다.

  • ReferenceData(0개 이상) - 다른(마스터 또는 트랜잭션) 데이터 필드에서 사용하도록 허용되는 값 집합입니다. 예를 들면 측정 단위(피트), 통화 등이 있습니다.
  • MasterData(0개 이상) - 여러 시스템, 애플리케이션 및/또는 프로세스에서 사용되는 기본 비즈니스 데이터의 단일 원본입니다. 예를 들면 WellsWellbores가 있습니다.
  • WorkProduct(WP)(하나 - WorkProductComponents를 로드하는 경우 반드시 있어야 함) - 세션 경계 또는 컬렉션(프로젝트, 연구)은 함께 처리해야 하는 항목 집합을 포함합니다. 예를 들어, 하나 이상의 로그 컬렉션을 수집할 수 있습니다.
  • WPC(WorkProductComponents)(0개 이상 - 데이터 세트를 로드하는 경우 반드시 있어야 함) - 작업 제품(함께 수집된 항목 컬렉션)의 일부로 전송된 형식이 지정되고 독립적으로 사용 가능한 비즈니스 데이터 콘텐츠 단위입니다. 각 WPC(Work Product Component)는 일반적으로 참조 데이터를 사용하고 일부 마스터 데이터에 속하며 데이터 세트에 대한 참조를 유지합니다. 예: 웰 로그, 결함, 문서
  • 데이터 세트(0개 이상 - WorkProduct 및 WorkProductComponent 레코드를 로드하는 경우 있어야 함) - 각 WPC(Work Product Component)는 데이터 세트로 알려진 하나 이상의 데이터 컨테이너로 구성됩니다.

매니페스트 데이터는 다음과 같은 특정 시퀀스로 로드됩니다.

  1. 'ReferenceData' 배열(채워진 경우)
  2. 'MasterData' 배열(채워진 경우)
  3. 'Data' 구조체가 마지막으로 처리됩니다(채워진 경우). 'Data' 속성 내에서 처리는 다음 순서로 수행됩니다.
    1. 'Datasets' 배열
    2. 'WorkProductComponents' 배열
    3. 'WorkProduct'.

모든 배열이 정렬됩니다. 상호 종속성이 있는 경우 종속 항목을 관계 대상 뒤에 배치해야 합니다. 예를 들어 master-data Well 레코드는 Wellbores 앞의 'MasterData' 배열에 배치되어야 합니다.

매니페스트 기반 파일 수집 워크플로

Azure Data Manager for Energy 인스턴스는 매니페스트 기반 파일 수집 워크플로를 기본적으로 지원합니다. Osdu_ingest Airflow DAG는 인스턴스에 미리 구성됩니다.

매니페스트 기반 파일 수집 워크플로 구성 요소

매니페스트 기반 파일 수집 워크플로는 다음 구성 요소로 이루어집니다.

  • 워크플로 서비스 - Airflow 워크플로 엔진 위에서 실행되는 래퍼 서비스입니다.
  • Airflow 엔진 - DAG(Directed Acyclic Graphs)로 등록된 워크플로를 실행하는 워크플로 오케스트레이션 엔진입니다. Airflow는 수집 워크플로를 조정하고 실행하기 위해 OSDU® 커뮤니티에서 선택한 워크플로 엔진입니다. Airflow는 클라이언트에 직접 노출되지 않으며, 대신 워크플로 서비스를 통해 해당 기능에 액세스합니다.
  • 스토리지 서비스 - 매니페스트 메타데이터 레코드를 데이터 플랫폼에 저장하는 데 사용되는 서비스입니다.
  • 스키마 서비스 - 데이터 플랫폼에서 OSDU® 정의 스키마를 관리하는 서비스입니다. 스키마는 매니페스트 기반 파일 수집 중에 참조됩니다.
  • 자격 서비스 - 액세스 그룹을 관리하는 서비스입니다. 이 서비스는 수집 권한 확인을 위해 수집 중에 사용됩니다. 이 서비스는 "읽기" 쓰기의 유효성 검사를 위해 메타데이터 레코드 검색 중에도 사용됩니다.
  • 법률 서비스 - 법률 태그를 통해 규정 준수의 유효성을 검사하는 서비스입니다.
  • 검색 서비스는 매니페스트 수집 프로세스 중에 참조 무결성 검사를 수행하는 데 사용됩니다.

필수 구성 요소

고객은 매니페스트 기반 파일 수집 워크플로를 실행하기 전에 워크플로를 실행하는 사용자 계정이 코어 서비스(검색, 스토리지, 스키마, 자격 및 법률) 및 워크플로 서비스에 액세스할 수 있는지 확인해야 합니다(자세한 내용은 자격 역할 참조). Azure Data Manager for Energy 인스턴스 프로비저닝의 일부로 OSDU® 표준 스키마 및 관련 참조 데이터가 미리 로드됩니다. 고객은 매니페스트를 수집하는 데 사용되는 사용자 계정이 적절한 소유자 및 보기 권한자 ACL에 포함되어 있는지 확인해야 합니다. 고객은 매니페스트가 올바른 법률 태그, 소유자 및 보기 권한자 ACL, 참조 데이터 등으로 구성되어 있는지 확인해야 합니다.

워크플로 시퀀스

다음 그림은 매니페스트 기반 파일 수집 워크플로를 제공합니다. 매니페스트 수집 시퀀스의 스크린샷.

사용자가 매니페스트 수집 워크플로 이름("Osdu_ingest")을 사용하여 매니페스트를 Workflow Service에 제출합니다. 요청이 적절하고 사용자에게 워크플로를 실행할 권한이 있는 경우 워크플로 서비스는 매니페스트를 로드하고 매니페스트 수집 워크플로를 시작합니다.

워크플로 서비스는 정의된 스키마와 필수 스키마 특성에 대한 검사에 따라 매니페스트 구조 및 특성 유효성 검사와 같은 일련의 매니페스트 syntax validation을 실행합니다. 그런 다음, 시스템은 작업 제품 구성 요소와 데이터 세트 간에 referential integrity validation을 수행합니다. 예를 들어 참조된 부모 데이터가 있는지 여부를 확인합니다.

유효성 검사가 성공하면 시스템은 스토리지 서비스 API를 사용하여 각각의 유효한 엔터티를 데이터 플랫폼에 기록하여 콘텐츠를 스토리지로 처리합니다.

OSDU®는 The Open Group의 상표입니다.

다음 단계