CSV 파서 수집 개념

CSV(쉼표로 구분된 값) 파일은 테이블 구조화된 형식으로 데이터를 저장하는 데 사용되는 쉼표로 구분된 텍스트 파일입니다.

CSV 파서 DAG를 사용하면 고객이 OSDU® WKS(잘 알려진 스키마)와 일치하지 않는 스키마인 사용자 지정 스키마를 기반으로 Microsoft Azure Data Manager for Energy 인스턴스에 데이터를 로드할 수 있습니다. 고객은 데이터를 로드하기 전에 스키마 서비스를 사용하여 사용자 지정 스키마를 만들고 등록해야 합니다.

CSV 파서 DAG는 데이터 로딩을 위해 ELT(로드 추출 및 변환) 접근 방식을 구현합니다. 즉, 데이터가 먼저 CSV 형식으로 원본 시스템에서 추출되고 Azure Data Manager for Energy 인스턴스에 로드됩니다. 그런 다음 매핑 서비스를 사용하여 OSDU® 잘 알려진 스키마로 변환할 수 있습니다.

CSV 수집은 무엇을 수행하나요?

CSV 파서 DAG를 사용하면 고객이 CSV 데이터를 Microsoft Azure Data Manager for Energy 인스턴스로 로드할 수 있습니다. CSV 파일의 각 행을 구문 분석하고 스토리지 메타데이터 레코드를 만듭니다. CSV 데이터가 등록된 사용자 지정 스키마를 준수하는지 확인하기 위해 schema validation이 수행됩니다. 스키마 데이터 형식 정의에 따라 열에서 자동으로 type coercion이 수행됩니다. 원본, 엔터티 형식 및 데이터에 자연 키를 연결하여 형성된 Base64 인코딩 문자열을 결합하여 CSV 레코드의 각 행에 대해 unique id를 생성합니다. 단위 서비스를 사용하여 선언된 참조 프레임 정보를 지속 가능한 적절한 참조로 변환하여 unit conversion을 수행합니다. 스키마에 있는 FoR(참조 프레임) 정보를 기반으로 공간 인식 열에 대해 CRS conversion을 수행합니다. 원본 스키마에 선언된 대로 relationships 메타데이터를 만듭니다. 마지막으로 Storage 서비스를 사용하여 메타데이터 레코드를 persists합니다.

CSV 파서 수집 구성 요소

CSV 파서 DAG 워크플로는 다음 서비스로 구성됩니다.

  • 파일 서비스는 Azure Data Manager for Energy 인스턴스의 파일 관리를 용이하게 합니다. 사용자는 이 서비스를 통해 데이터 플랫폼에서 파일을 안전하게 업로드, 검색 및 다운로드할 수 있습니다.
  • 스키마 서비스는 Azure Data Manager for Energy 인스턴스의 스키마 관리를 용이하게 합니다. 사용자는 이 서비스를 통해 데이터 플랫폼에서 스키마를 만들고, 가져오고, 검색할 수 있습니다.
  • 스토리지 서비스는 데이터 플랫폼에 수집된 도메인 엔터티에 대한 메타데이터 정보 저장을 용이하게 합니다. 또한 다운스트림 서비스가 수집된 메타데이터 레코드에 대한 작업을 수행할 수 있도록 하는 스토리지 레코드 변경 이벤트를 발생시킵니다.
  • 단위 서비스는 단위를 쉽게 관리하고 변환할 수 있도록 합니다.
  • 워크플로 서비스는 Azure Data Manager for Energy 인스턴스의 워크플로 관리를 용이하게 합니다. Airflow 오케스트레이션 엔진 위에 있는 래퍼 서비스입니다.

CSV 수집 구성 요소 다이어그램

CSV 수집 구성 요소 다이어그램의 스크린샷.

CSV 파서 수집 워크플로

CSV 파서 DAG 워크플로를 실행하려면 사용자에게 유효한 권한 부여 토큰과 검색, 스토리지, 스키마, 파일 서비스, 권한, 법률 및 워크플로 서비스에 대한 적절한 액세스 권한이 있어야 합니다.

아래 워크플로 다이어그램은 CSV 파서 DAG 워크플로를 보여 줍니다. CSV 수집 시퀀스 다이어그램의 스크린샷.

CSV 파서 DAG 워크플로를 실행하려면 먼저 사용자가 워크플로 서비스를 사용하여 스키마를 만들고 등록해야 합니다. 스키마가 만들어지면 사용자는 파일 서비스를 사용하여 CSV 파일을 Microsoft Azure Data Manager for Energy 인스턴스에 업로드하고 제네릭 파일 형식의 스토리지 레코드도 만듭니다. 그런 다음, 파일 서비스는 워크플로 서비스를 사용하여 CSV 파서 워크플로를 트리거하는 동안 사용되는 파일 ID를 사용자에게 제공합니다. 워크플로 서비스는 사용자가 CSV 파서 워크플로의 실행 상태를 추적하는 데 사용할 수 있는 실행 ID를 제공합니다.

OSDU®는 The Open Group의 상표입니다.

다음 단계

CSV 파서 자습서로 이동하여 CSV 파서 수집을 수행하는 방법을 알아봅니다.