Microsoft Purview 데이터 카탈로그 계보 사용자 가이드
이 문서에서는 Microsoft Purview 데이터 카탈로그 데이터 계보 기능에 대한 개요를 제공합니다.
배경
Microsoft Purview의 플랫폼 기능 중 하나는 데이터 프로세스에서 만든 데이터 세트 간의 계보를 표시하는 기능입니다. Data Factory, Data Share 및 Power BI와 같은 시스템은 이동하면서 데이터의 계보를 캡처합니다. 사용자 지정 계보 보고는 Atlas 후크 및 REST API를 통해도 지원됩니다.
계보 컬렉션
엔터프라이즈 데이터 시스템에서 Microsoft Purview에서 수집된 메타데이터는 엔드-엔드 데이터 계보를 표시하기 위해 연결됩니다. Microsoft Purview에 계보를 수집하는 데이터 시스템은 다음 세 가지 유형으로 광범위하게 분류됩니다.
각 시스템은 다른 수준의 계보 scope 지원합니다. 아래 섹션 또는 시스템의 개별 계보 문서를 확인하여 현재 사용 가능한 계보의 scope 확인합니다.
알려진 제한
- 프로세스 작업의 원본으로 사용되는 데이터베이스 뷰(Azure Data Factory, Synapse Pipelines, Azure SQL Database, Azure Data Share)는 현재 Microsoft Purview에서 데이터베이스 테이블 개체로 캡처됩니다. 데이터베이스도 검사하는 경우 보기 자산은 Microsoft Purview에서 별도로 검색됩니다. 이 시나리오에서는 이름이 같은 두 자산이 Microsoft Purview에서 캡처됩니다. 하나는 데이터 계보가 있는 테이블이고 다른 자산은 보기로 캡처됩니다.
- 저장 프로시저에 drop 또는 create 문이 포함된 경우 현재 계보에서 캡처되지 않습니다.
데이터 처리 시스템
데이터 통합 및 ETL 도구는 실행 시 Microsoft Purview에 계보를 푸시할 수 있습니다. Data Factory, Data Share, Synapse, Azure Databricks 등의 도구는 이 데이터 처리 시스템 범주에 속합니다. 데이터 처리 시스템은 데이터 세트를 다른 데이터베이스 및 스토리지 솔루션의 원본으로 참조하여 대상 데이터 세트를 만듭니다. 계보를 위해 현재 Microsoft Purview와 통합된 데이터 처리 시스템 목록은 아래 표에 나와 있습니다.
데이터 처리 시스템 | 지원되는 scope |
---|---|
공기 흐름 | Airflow 계보 |
Azure Data Share | 공유 스냅샷 |
Azure Data Factory |
복사 작업 데이터 흐름 작업 SSIS 패키지 작업 실행 |
Azure SQL 데이터베이스(미리 보기) | 저장 프로시저 실행에 대한 계보 추출 |
Azure Synapse Analytics |
복사 작업 데이터 흐름 작업 |
데이터 스토리지 시스템
Oracle, Teradata 및 SAP와 같은 스토리지 솔루션을 & 데이터베이스에는 스크립팅 언어를 사용하여 데이터를 변환하는 쿼리 엔진이 있습니다. 뷰/저장 프로시저/등에서 데이터 계보 정보는 Microsoft Purview로 수집되고 다른 시스템의 계보와 연결됩니다. 계보는 Microsoft Purview 데이터 검사를 통해 다음 데이터 원본에 대해 지원됩니다. 각 문서에서 지원되는 계보 시나리오에 대해 자세히 알아봅니다.
범주 | 데이터 원본 |
---|---|
Azure | Azure Databricks |
Database | Cassandra |
Db2 | |
Google BigQuery | |
Hive Metastore Database | |
MySQL | |
Oracle | |
PostgreSQL | |
Snowflake | |
Teradata | |
서비스 및 앱 | Erwin |
Looker | |
SAP ECC | |
SAP S/4HANA |
데이터 분석 및 보고 시스템
Azure Machine Learning 및 Power BI와 같은 데이터 분석 및 보고 시스템은 Microsoft Purview에 계보를 보고합니다. 이러한 시스템은 스토리지 시스템의 데이터 세트를 사용하고 메타 모델을 통해 처리하여 BI 대시보드, ML 실험 등을 만듭니다.
데이터 분석 & 보고 시스템 | 지원되는 scope |
---|---|
Power BI | 데이터 세트, 데이터 흐름, 보고서 & 대시보드 |
계보 시작
Microsoft Purview의 계보에는 데이터 세트 및 프로세스가 포함됩니다. 데이터 세트를 노드라고도 하지만 프로세스는 에지라고도 할 수 있습니다.
데이터 세트(노드): 프로세스에 대한 입력으로 제공되는 데이터 세트(구조화되거나 구조화되지 않은)입니다. 예를 들어 SQL 테이블, Azure Blob 및 파일(예: .csv 및 .xml)은 모두 데이터 세트로 간주됩니다. Microsoft Purview의 계보 섹션에서 데이터 세트는 사각형 상자로 표시됩니다.
프로세스(Edge): 데이터 세트에서 수행되는 작업 또는 변환을 프로세스라고 합니다. 예를 들어 ADF 복사 작업, Data Share 스냅샷 등이 있습니다. Microsoft Purview의 계보 섹션에서 프로세스는 둥근 모서리 상자로 표시됩니다.
Microsoft Purview에서 자산에 대한 계보 정보에 액세스하려면 다음 단계를 수행합니다.
다음을 통해 Microsoft Purview 거버넌스 포털을 엽니다.
- Microsoft Purview 계정을 직접 https://web.purview.azure.com 탐색하고 선택합니다.
- Azure Portal 열고 Microsoft Purview 계정을 검색하고 선택합니다. Microsoft Purview 거버넌스 포털 단추를 선택합니다.
Microsoft Purview 거버넌스 포털 홈페이지에서 데이터 세트 이름 또는 프로세스 이름(예: ADF 복사 또는 Data Flow 활동)을 검색합니다. 그런 다음 Enter 키를 누릅니다.
검색 결과에서 자산을 선택하고 계보 탭을 선택합니다.
자산 수준 계보
Microsoft Purview는 데이터 세트 및 프로세스에 대한 자산 수준 계보를 지원합니다. 자산 수준 계보를 보려면 카탈로그에 있는 현재 자산의 계보 탭으로 이동합니다. 현재 데이터 세트 자산 노드를 선택합니다. 기본적으로 데이터에 속하는 열 목록이 왼쪽 창에 표시됩니다.
수동 계보
Microsoft Purview의 데이터 계보는 온-프레미스, 다중 클라우드 및 SaaS 환경의 많은 자산에 대해 자동화 됩니다. 자동화된 원본을 계속 추가하는 동안 수동 계보를 사용하면 코드를 사용하지 않고도 자동화가 아직 지원되지 않는 원본에 대한 계보 메타데이터를 문서화할 수 있습니다.
자산에 대한 수동 계보를 추가하려면 다음 단계를 수행합니다.
데이터 카탈로그에서 자산을 검색 하고 이를 선택하여 세부 정보를 봅니다.
편집을 선택하고 계보 탭으로 이동한 다음, 아래쪽 패널에서 수동 계보 추가를 선택합니다.
자산 계보를 구성하려면 다음을 수행합니다.
- 자산 드롭다운을 선택하여 제안된 목록에서 자산을 찾거나 자세히 보기를 선택하여 전체 카탈로그를 검색합니다. 연결하려는 자산을 선택합니다.
- 교환 아이콘을 선택하여 관계 방향을 생성(다운스트림 계보의 경우) 또는 소비(업스트림 계보의 경우)로 구성합니다.
- 계보를 삭제하려면 휴지통 아이콘을 선택합니다.
두 데이터 자산 간에 계보를 추가할 때 열 수준 계보를 추가로 구성할 수 있습니다. 행의 시작 부분에서 확장 아이콘을 선택하고 해당 드롭다운 목록에서 업스트림 및 다운스트림 열을 선택하여 열 매핑을 구성합니다. 더하기 아이콘을 선택하여 열 계보를 더 추가합니다. 휴지통 아이콘을 선택하여 기존 휴지통 아이콘을 삭제합니다.
수동 계보 추가 단추를 다시 선택하여 자산 수준 계보를 더 추가할 수 있습니다. 완료되면 저장 단추를 선택하여 계보를 저장하고 편집 모드를 종료합니다.
수동 계보의 알려진 제한 사항
- 현재 자산 선택기 환경을 사용하면 한 번에 하나의 자산만 선택할 수 있습니다.
- 열 수준 수동 계보는 현재 두 데이터 자산 간의 계보에 대해 지원되지만 프로세스 자산이 관련되어 있을 때는 지원되지 않습니다.
- 원본 및 대상 자산 모두에 필요한 데이터 큐레이션 액세스입니다.
- 이러한 자산 유형은 자동화된 계보를 지원하기 때문에 현재 수동 계보를 허용하지 않습니다.
- Azure Data Factory
- Synapse 파이프라인
- Power BI 데이터 세트
- Teradata 저장 프로시저
- 저장 프로시저 Azure SQL
데이터 세트 열 계보
데이터 세트의 열 수준 계보를 보려면 카탈로그에서 현재 자산의 계보 탭으로 이동하여 아래 단계를 수행합니다.
계보 탭에 있으면 왼쪽 창에서 데이터 계보에 표시할 각 열 옆에 있는 검사 상자를 선택합니다.
왼쪽 창 또는 계보 캔버스의 데이터 세트에서 선택한 열을 마우스로 가리키면 열 매핑이 표시됩니다. 모든 열 인스턴스가 강조 표시됩니다.
열 수가 왼쪽 창에 표시할 수 있는 열 수보다 큰 경우 필터 옵션을 사용하여 이름으로 특정 열을 선택합니다. 또는 마우스를 사용하여 목록을 스크롤할 수 있습니다.
계보 캔버스에 더 많은 노드와 에지가 포함된 경우 필터를 사용하여 데이터 자산을 선택하거나 이름으로 노드를 처리합니다. 또는 마우스를 사용하여 계보 창을 탐색할 수 있습니다.
왼쪽 창의 토글을 사용하여 계보 캔버스의 데이터 세트 목록을 강조 표시합니다. 토글을 해제하면 선택한 열 중 하나 이상이 포함된 자산이 표시됩니다. 토글을 켜면 모든 열이 포함된 데이터 세트만 표시됩니다.
열 계보 처리
데이터 카탈로그에서 복사 작업과 같은 데이터 프로세스를 볼 수도 있습니다. 예를 들어 이 계보 흐름에서 복사 작업을 선택합니다.
복사 작업이 확장되고 자산으로 전환 단추를 선택하면 프로세스 자체에 대한 자세한 정보가 제공됩니다.
데이터 프로세스는 하나 이상의 입력 데이터 세트를 사용하여 하나 이상의 출력을 생성할 수 있습니다. Microsoft Purview에서는 프로세스 노드에 열 수준 계보를 사용할 수 있습니다.
열 패널의 드롭다운에서 입력 데이터 세트와 출력 데이터 세트 간에 전환합니다.
하나 이상의 테이블에서 열을 선택하여 입력 데이터 세트에서 해당 출력 데이터 세트로 흐르는 계보를 확인합니다.
계보에서 자산 찾아보기
계보 보기에서 해당 메타데이터를 보려면 자산의 자산으로 전환을 선택합니다. 이렇게 하면 계보 보기에서 카탈로그의 다른 자산을 검색할 수 있습니다.
계보 캔버스는 인기 있는 데이터 세트에 복잡해질 수 있습니다. 혼란을 방지하기 위해 기본 보기는 포커스에 있는 자산에 대한 5가지 수준의 계보만 표시합니다. 계보 캔버스에서 거품을 선택하여 나머지 계보를 확장할 수 있습니다. 데이터 소비자는 관심 없는 캔버스의 자산을 숨길 수도 있습니다. 혼란을 더 줄이려면 계보 캔버스 맨 위에 있는 추가 계보 토글을 끕니다. 이 작업은 계보 캔버스의 모든 거품을 숨깁니다.
계보 캔버스의 스마트 단추를 사용하여 계보를 최적의 보기로 표시합니다.
- 전체 화면
- 크기에 맞게 확대/축소
- 확대/축소
- 자동 맞춤
- 확대/축소 미리 보기
- 그리고 더 많은 옵션:
- 현재 자산 가운데에 배치
- 기본 보기로 다시 설정
수동으로 또는 REST API를 사용하여 사용자 지정 계보 빌드
Microsoft Purview의 중요한 플랫폼 기능 중 하나는 데이터 프로세스에서 만든 데이터 세트 간의 계보를 표시하는 기능입니다. Data Factory, Data Share 및 Power BI와 같은 시스템은 이동하면서 데이터의 계보를 캡처합니다. 특정 상황에서 Purview에서 자동으로 생성된 계보는 실제 시각화 및/또는 엔터프라이즈 보고 목적으로 불완전하거나 누락됩니다. 이러한 시나리오에서는 Microsoft Purview 포털 또는 Apache Atlas 후크 및 REST API를 통해 사용자 지정 계보 항목을 수동으로 만들 수 있습니다. REST API를 사용하여 사용자 지정 계보를 보고하거나 빌드할 때의 또 다른 주요 이점은 수동 계보에서 노출되는 기능의 제한을 극복하거나 완화하는 것입니다.
사용자 지정 계보를 수동으로 빌드하려면 Microsoft Purview의 수동 계보 항목 사용자 가이드를 따를 수 있습니다.
REST API를 사용하여 Microsoft Purview에서 사용자 지정 계보를 빌드하려면 다음 사용자 가이드인 Microsoft Purview - REST API를 사용하여 사용자 지정 계보 빌드를 따릅니다.
팁
경우에 따라 REST API는 포털을 통해 계보 항목을 수동으로 빌드하는 것보다 더 많은 입력 및 사용자 지정 옵션을 제공할 수 있습니다.