Azure Data Factory 및 Microsoft Purview를 연결하는 방법

이 문서에서는 데이터 계보를 추적하고 데이터 원본을 수집하기 위해 microsoft Purview 계정과 Azure Data Factory 계정을 연결하는 데 필요한 단계를 설명합니다. 또한 이 문서는 활동 검사 scope 지원되는 계보 패턴의 세부 정보도 가져옵니다.

Microsoft Purview에 Azure Data Factory 연결하는 경우 지원되는 Azure Data Factory 활동이 실행될 때마다 활동의 원본 데이터, 출력 데이터 및 활동에 대한 메타데이터가 Microsoft Purview 데이터 맵 자동으로 수집됩니다.

데이터 원본이 이미 검사되어 데이터 맵에 있는 경우 수집 프로세스는 Azure Data Factory 계보 정보를 기존 원본에 추가합니다. 원본 또는 출력이 데이터 맵에 없고 Azure Data Factory 계보에서 지원되는 경우 Microsoft Purview는 Azure Data Factory 메타데이터를 루트 컬렉션 아래의 데이터 맵에 자동으로 추가합니다.

이는 사용자가 Azure Data Factory 사용하여 정보를 이동하고 변환할 때 데이터 자산을 모니터링하는 훌륭한 방법이 될 수 있습니다.

기존 Data Factory 연결 보기

여러 Azure Data Factories는 단일 Microsoft Purview에 연결하여 계보 정보를 푸시할 수 있습니다. 현재 제한을 사용하면 Microsoft Purview 관리 센터에서 한 번에 최대 10개의 Data Factory 계정을 연결할 수 있습니다. Microsoft Purview 계정에 연결된 Data Factory 계정 목록을 표시하려면 다음을 수행합니다.

  1. 왼쪽 탐색 창에서 관리를 선택합니다.

  2. 계보 연결에서 Data Factory를 선택합니다.

  3. Data Factory 연결 목록이 나타납니다.

    데이터 팩터리 연결 목록을 보여 주는 스크린샷

  4. 연결 상태에 대한 다양한 값을 확인합니다.

    • 연결됨: 데이터 팩터리는 Microsoft Purview 계정에 연결됩니다.
    • 연결 끊김: 데이터 팩터리는 카탈로그에 액세스할 수 있지만 다른 카탈로그에 연결됩니다. 따라서 데이터 계보는 카탈로그에 자동으로 보고되지 않습니다.
    • CannotAccess: 현재 사용자는 데이터 팩터리에 액세스할 수 없으므로 연결 상태 알 수 없습니다.

참고

Data Factory 연결을 보려면 다음 역할이 할당되어야 합니다. 관리 그룹의 역할 상속은 지원되지 않습니다. 루트 컬렉션에 대한 컬렉션 관리자 역할입니다.

새 Data Factory 연결 만들기

참고

Data Factory 연결을 추가하거나 제거하려면 다음 역할을 할당해야 합니다. 관리 그룹의 역할 상속은 지원되지 않습니다. 루트 컬렉션에 대한 컬렉션 관리자 역할입니다.

또한 사용자가 데이터 팩터리의 "소유자" 또는 "기여자"여야 합니다.

데이터 팩터리에 시스템 할당 관리 ID를 사용하도록 설정해야 합니다.

아래 단계에 따라 기존 데이터 팩터리를 Microsoft Purview 계정에 연결합니다. ADF에서 Microsoft Purview 계정에 Data Factory를 연결할 수도 있습니다.

  1. 왼쪽 탐색 창에서 관리를 선택합니다.

  2. 계보 연결에서 Data Factory를 선택합니다.

  3. Data Factory 연결 페이지에서 새로 만들기를 선택합니다.

  4. 목록에서 Data Factory 계정을 선택하고 확인을 선택합니다. 구독 이름으로 필터링하여 목록을 제한할 수도 있습니다.

    데이터 팩터리가 현재 Microsoft Purview 계정에 이미 연결되어 있거나 데이터 팩터리에 관리 ID가 없는 경우 일부 Data Factory 인스턴스를 사용하지 않도록 설정할 수 있습니다.

    선택한 데이터 팩터리 중 다른 Microsoft Purview 계정에 이미 연결된 경우 경고 메시지가 표시됩니다. 확인을 선택하면 다른 Microsoft Purview 계정과의 Data Factory 연결이 끊어집니다. 다른 확인은 필요하지 않습니다.

    Azure Data Factory 연결을 끊는 경고를 보여 주는 스크린샷

참고

최대 10개의 Azure Data Factory 계정을 한 번에 추가할 수 있습니다. 10개 이상의 데이터 팩터리 계정을 추가하려면 여러 일괄 처리로 추가합니다.

인증 작동 방식

데이터 팩터리의 관리 ID는 데이터 팩터리에서 Microsoft Purview로 계보 푸시 작업을 인증하는 데 사용됩니다. 데이터 팩터리를 UI의 Microsoft Purview에 연결하면 역할 할당이 자동으로 추가됩니다.

Microsoft Purview 루트 컬렉션에서 데이터 팩터리의 관리 ID 데이터 큐레이터 역할을 부여합니다. Microsoft Purview의 액세스 제어역할 추가 및 컬렉션을 통한 액세스 제한에 대해 자세히 알아봅니다.

Data Factory 연결 제거

데이터 팩터리 연결을 제거하려면 다음을 수행합니다.

  1. Data Factory 연결 페이지에서 하나 이상의 데이터 팩터리 연결 옆에 있는 제거 단추를 선택합니다.

  2. 팝업에서 확인을 선택하여 선택한 데이터 팩터리 연결을 삭제합니다.

    연결을 제거하기 위해 데이터 팩터리를 선택하는 방법을 보여 주는 스크린샷

Microsoft Purview 거버넌스 포털에서 Data Factory 링크를 모니터링할 수 있습니다.

지원되는 Azure Data Factory 활동

Microsoft Purview는 다음 Azure Data Factory 활동에서 런타임 계보를 캡처합니다.

중요

원본 또는 대상이 지원되지 않는 데이터 스토리지 시스템을 사용하는 경우 Microsoft Purview는 계보를 삭제합니다.

Data Factory와 Microsoft Purview 간의 통합은 다음 섹션에 설명된 대로 Data Factory에서 지원하는 데이터 시스템의 하위 집합만 지원합니다.

복사 작업 지원

데이터 저장소 않음
Azure Blob 저장소
Azure Cognitive Search
NoSQL용 Azure Cosmos DB *
Azure Cosmos DB for MongoDB *
Azure Data Explorer *
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Database for MariaDB *
Azure Database for MySQL *
Azure Database for PostgreSQL *
Azure Files
Azure SQL 데이터베이스 *
Azure SQL Managed Instance *
Azure Synapse 분석 *
Azure Dedicated SQL 풀(이전의 SQL DW) *
Azure Table Storage
Amazon S3
하이브*
오라클*
SAP 테이블 (SAP ECC 또는 SAP S/4HANA에 연결할 때)
SQL Server *
Teradata*

* Microsoft Purview는 현재 계보 또는 검사에 대한 쿼리 또는 저장 프로시저를 지원하지 않습니다. 계보는 테이블 및 뷰 원본으로만 제한됩니다.

자체 호스팅 Integration Runtime 사용하는 경우 계보가 지원되는 최소 버전은 다음과 같습니다.

  • 모든 사용 사례: 버전 5.9.7885.3 이상
  • Oracle에서 데이터 복사: 버전 5.10 이상
  • COPY 명령 또는 PolyBase를 통해 Azure Synapse Analytics에 데이터 복사: 버전 5.10 이상

복사 작업 계보에 대한 제한 사항

현재 다음 복사 작업 기능을 사용하는 경우 계보는 아직 지원되지 않습니다.

  • 이진 형식을 사용하여 Azure Data Lake Storage Gen1에 데이터를 복사합니다.
  • 이진, 구분된 텍스트, Excel, JSON 및 XML 파일에 대한 압축 설정입니다.
  • Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server 및 SAP Table에 대한 원본 파티션 옵션입니다.
  • 파일당 최대 행을 설정하여 파일 기반 싱크에 데이터를 복사합니다.
  • 원본/싱크가 리소스 집합인 경우 열 수준 계보는 현재 복사 작업에서 지원되지 않습니다.

계보 외에도 데이터 자산 스키마(자산 -> 스키마 탭에 표시됨)는 다음 커넥터에 대해 보고됩니다.

  • Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 및 Amazon S3의 CSV 및 Parquet 파일
  • Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata

Data Flow 지원

데이터 저장소 지원
Azure Blob 저장소
NoSQL용 Azure Cosmos DB *
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Database for MySQL *
Azure Database for PostgreSQL *
Azure SQL 데이터베이스 *
Azure SQL Managed Instance *
Azure Synapse 분석 *
Azure Dedicated SQL 풀(이전의 SQL DW) *

* Microsoft Purview는 현재 계보 또는 검사에 대한 쿼리 또는 저장 프로시저를 지원하지 않습니다. 계보는 테이블 및 뷰 원본으로만 제한됩니다.

데이터 흐름 계보에 대한 제한 사항

  • 데이터 흐름 계보는 관련된 파일에 대한 가시성 없이 폴더 수준 리소스 집합 을 생성할 수 있습니다.
  • 원본/싱크가 리소스 집합인 경우 열 수준 계보는 현재 지원되지 않습니다.
  • 데이터 흐름 작업의 계보에 대해 Microsoft Purview는 관련된 원본 및 싱크만 표시할 수 있습니다. 데이터 흐름 변환에 대한 자세한 계보는 아직 지원되지 않습니다.

SSIS 패키지 지원 실행

지원되는 데이터 저장소를 참조하세요.

보안 Microsoft Purview 계정에 액세스

Microsoft Purview 계정이 방화벽으로 보호되는 경우 Data Factory가 Microsoft Purview 프라이빗 엔드포인트 를 통해 보안 Microsoft Purview 계정에 액세스 하도록 하는 방법을 알아봅니다.

Microsoft Purview에 Data Factory 계보 가져오기

종단 간 연습은 자습서: Microsoft Purview에 Data Factory 계보 데이터 푸시를 따릅니다.

지원되는 계보 패턴

Microsoft Purview에서 지원하는 몇 가지 계보 패턴이 있습니다. 생성된 계보 데이터는 Data Factory 활동에 사용되는 원본 및 싱크의 형식을 기반으로 합니다. Data Factory는 80개 이상의 원본 및 싱크를 지원하지만 Microsoft Purview는 지원되는 Azure Data Factory 활동에 나열된 하위 집합만 지원합니다.

계보 정보를 보내도록 Data Factory를 구성하려면 계보 시작을 참조하세요.

계보 보기에서 정보를 찾는 다른 방법에는 다음이 포함됩니다.

  • 계보 탭에서 셰이프를 마우스로 가리키면 도구 설명의 자산에 대한 추가 정보를 미리 볼 수 있습니다.
  • 노드 또는 에지를 선택하여 노드가 속한 자산 유형을 확인하거나 자산을 전환합니다.
  • 데이터 세트의 열은 계보 탭의 왼쪽에 표시됩니다. 열 수준 계보에 대한 자세한 내용은 데이터 세트 열 계보를 참조하세요.

1:1 작업에 대한 데이터 계보

데이터 계보를 캡처하는 가장 일반적인 패턴은 단일 입력 데이터 세트에서 단일 출력 데이터 세트로 데이터를 이동하는 것입니다.

이 패턴의 예는 다음과 같습니다.

  • 1 원본/입력: 고객 (SQL 테이블)
  • 싱크/출력 1개: Customer1.csv (Azure Blob)
  • 1 프로세스: CopyCustomerInfo1#Customer1.csv (Data Factory 복사 작업)

1대 1 Data Factory 복사 작업의 계보를 보여 주는 스크린샷

계보 및 와일드카드 지원이 1:1인 데이터 이동

계보를 캡처하는 또 다른 일반적인 시나리오는 와일드카드를 사용하여 단일 입력 데이터 세트에서 단일 출력 데이터 세트로 파일을 복사하는 것입니다. 와일드카드를 사용하면 복사 작업이 파일 이름의 공통 부분을 사용하여 복사할 여러 파일과 일치할 수 있습니다. Microsoft Purview는 해당 복사 작업에서 복사한 각 개별 파일에 대한 파일 수준 계보를 캡처합니다.

이 패턴의 예는 다음과 같습니다.

  • 원본/입력: CustomerCall*.csv (ADLS Gen2 경로)
  • 싱크/출력: CustomerCall*.csv (Azure Blob 파일)
  • 1 프로세스: CopyGen2ToBlob#CustomerCall.csv (Data Factory 복사 작업)

와일드카드가 지원되는 1대 1 복사 작업에 대한 계보를 보여 주는 스크린샷

n:1 계보를 사용하여 데이터 이동

Data Flow 작업을 사용하여 병합, 조인 등과 같은 데이터 작업을 수행할 수 있습니다. 둘 이상의 원본 데이터 세트를 사용하여 대상 데이터 세트를 생성할 수 있습니다. 이 예제에서 Microsoft Purview는 개별 입력 파일의 파일 수준 계보를 Data Flow 작업의 일부인 SQL 테이블에 캡처합니다.

이 패턴의 예는 다음과 같습니다.

  • 소스/입력 2개: Customer.csv, Sales.parquet (ADLS Gen2 경로)
  • 싱크/출력 1개: 회사 데이터(Azure SQL 테이블)
  • 1 프로세스: DataFlowBlobsToSQL(Data Factory Data Flow 작업)

n에서 하나의 AD F Data Flow 작업에 대한 계보를 보여 주는 스크린샷.

리소스 집합에 대한 계보

리소스 집합은 기본 스토리지의 많은 파티션 파일을 나타내는 카탈로그의 논리적 개체입니다. 자세한 내용은 리소스 집합 이해를 참조하세요. Microsoft Purview는 Azure Data Factory 계보를 캡처할 때 개별 파티션 파일을 정규화하고 단일 논리 개체를 만드는 규칙을 적용합니다.

다음 예제에서는 Azure Data Lake Gen2 리소스 집합이 Azure Blob에서 생성됩니다.

  • 원본/입력 1개: Employee_management.csv (Azure Blob)
  • 싱크/출력 1개: Employee_management.csv (Azure Data Lake Gen 2)
  • 1 프로세스: CopyBlobToAdlsGen2_RS(Data Factory 복사 작업)

리소스 집합의 계보를 보여 주는 스크린샷

다음 단계

자습서: Microsoft Purview에 Data Factory 계보 데이터 푸시

카탈로그 계보 사용자 가이드

계보를 위해 Azure Data Share 연결