Microsoft Purview의 데이터 계보

이 문서에서는 Microsoft Purview 데이터 카탈로그 데이터 계보에 대한 개요를 제공합니다. 또한 데이터 시스템이 카탈로그와 통합하여 데이터의 계보를 캡처하는 방법을 자세히 설명합니다. Microsoft Purview는 organization 데이터 자산의 여러 부분과 다음을 비롯한 다양한 준비 수준에서 데이터에 대한 계보를 캡처할 수 있습니다.

  • 다양한 플랫폼에서 준비된 원시 데이터
  • 변환 및 준비된 데이터
  • 시각화 플랫폼에서 사용하는 데이터

사용 사례

데이터 계보는 데이터의 원본에 걸쳐 있고 시간이 지남에 따라 데이터 자산 간에 이동하는 수명 주기로 광범위하게 이해됩니다. 데이터 파이프라인의 문제 해결, 근본 원인 추적 및 디버깅과 같은 다양한 종류의 이전 버전 시나리오에 사용됩니다. 계보는 데이터 품질 분석, 규정 준수 및 영향 분석이라고도 하는 "what if" 시나리오에도 사용됩니다. 계보는 데이터가 변환된 방법을 포함하여 원본에서 대상으로 이동하는 데이터를 표시하기 위해 시각적으로 표시됩니다. 대부분의 엔터프라이즈 데이터 환경의 복잡성을 감안할 때 이러한 보기는 주변 장치 데이터 요소를 일부 통합하거나 마스킹하지 않고는 이해하기 어려울 수 있습니다.

Microsoft Purview 데이터 카탈로그 계보 환경

Microsoft Purview 데이터 카탈로그 다른 데이터 처리, 스토리지 및 분석 시스템과 연결하여 계보 정보를 추출합니다. 정보는 카탈로그의 일반 시나리오별 계보 환경을 나타내기 위해 결합됩니다.

Blob 저장소에서 Power BI로 복사된 데이터를 보여 주는 엔드 엔드 계보 dashboard

데이터 자산에는 데이터 추출, 변환(ETL/ELT 시스템), 분석 및 시각화 시스템을 수행하는 시스템이 포함될 수 있습니다. 각 시스템은 시스템 경계 내에서 데이터의 상태와 품질을 설명하는 풍부한 정적 및 운영 메타데이터를 캡처합니다. 데이터 카탈로그의 계보 목표는 가능한 가장 낮은 조직에서 각 데이터 시스템에서 이동, 변환 및 운영 메타데이터를 추출하는 것입니다.

다음 예제는 여러 시스템에서 이동하는 데이터의 일반적인 사용 사례입니다. 여기서 Data Catalog 계보를 위해 각 시스템에 연결합니다.

  • Data Factory는 온-프레미스/원시 영역에서 클라우드의 랜딩 존으로 데이터를 복사합니다.
  • Synapse, Databricks와 같은 데이터 처리 시스템은 Notebook을 사용하여 랜딩 존에서 큐레이팅된 영역으로 데이터를 처리하고 변환합니다.
  • 최적의 쿼리 성능 및 집계를 위해 분석 모델로 데이터를 추가로 처리합니다.
  • 데이터 시각화 시스템은 데이터 세트를 사용하고 메타 모델을 통해 처리하여 BI 대시보드, ML 실험 등을 만듭니다.

계보 세분성

다음 섹션에서는 Microsoft Purview에서 계보 정보를 수집하는 세분성에 대해 자세히 설명합니다. 이 세분성은 Microsoft Purview에서 지원되는 데이터 시스템에 따라 달라질 수 있습니다.

엔터티 수준 계보: 원본 > 프로세스 > 대상

  • 계보는 그래프로 표현되며, 일반적으로 컴퓨팅 시스템에서 호출하는 프로세스에 의해 연결된 데이터 스토리지 시스템의 원본 및 대상 엔터티를 포함합니다.
  • 데이터 시스템은 데이터 카탈로그에 연결하여 기본 데이터 시스템의 물리적 개체(예: SQL 저장 프로시저, Notebook 등)를 참조하는 고유한 개체를 생성하고 보고합니다.
  • 소유권과 같은 다른 메타데이터를 사용하는 높은 충실도 계보는 원본 & 대상 엔터티에 대해 사람이 읽을 수 있는 형식으로 계보를 표시하도록 캡처됩니다. 예: 파티션 또는 파일 수준 대신 하이브 테이블 수준의 계보입니다.

열 또는 특성 수준 계보

대상 엔터티에서 특성을 만들거나 파생하는 데 사용되는 원본 엔터티의 특성을 식별합니다. 원본 특성의 이름은 대상에서 유지되거나 이름을 바꿀 수 있습니다. ADF와 같은 시스템은 온-프레미스 환경에서 클라우드로 일대일 복사본을 수행할 수 있습니다. 예: Table1/ColumnA -> Table2/ColumnA

프로세스 실행 상태

근본 원인 분석 및 데이터 품질 시나리오를 지원하기 위해 데이터 처리 시스템에서 작업의 실행 상태 캡처합니다. 이 요구 사항은 다른 데이터 처리 시스템의 모니터링 기능을 대체하는 것과는 아무 상관이 없으며, 이를 대체하는 것이 목표도 아닙니다.

요약

계보는 품질, 신뢰 및 감사 시나리오를 지원하는 Microsoft Purview 데이터 카탈로그 중요한 기능입니다. 데이터 카탈로그의 목표는 환경 내의 모든 데이터 시스템이 자연스럽게 계보를 연결하고 보고할 수 있는 강력한 프레임워크를 구축하는 것입니다. 메타데이터를 사용할 수 있게 되면 데이터 카탈로그는 데이터 시스템에서 제공하는 메타데이터를 결합하여 데이터 거버넌스 사용 사례를 구동할 수 있습니다.

다음 단계