Azure Data Factory 및 Azure Synapse Analytic의 변경 데이터 캡처

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

이 문서에서는 Azure Data Factory의 CDC(변경 데이터 캡처)에 대해 설명합니다.

자세한 내용은 Azure Data Factory 개요 또는 Azure Synapse 개요를 참조하세요.

개요

클라우드에서 데이터 통합 및 ETL 프로세스를 수행하는 경우 각 실행 시 항상 전체 데이터 세트를 쿼리하는 대신 파이프라인이 마지막으로 실행된 이후 변경된 원본 데이터만 읽을 때 작업이 더 효율적으로 수행되고 더 효과적일 수 있습니다. ADF는 마지막 실행에서만 델타 데이터를 쉽게 가져올 수 있는 다양한 방법을 제공합니다.

데이터 캡처 팩터리 리소스 변경

CDC를 사용하여 데이터 팩터리에서 시작하는 가장 쉽고 빠른 방법은 팩터리 수준 변경 데이터 캡처 리소스를 통해 시작하는 것입니다. 기본 파이프라인 디자이너에서 팩터리 리소스 아래의 새로 만들기를 클릭하여 새 변경 데이터 캡처를 만듭니다. CDC 팩터리 리소스는 원본 및 대상을 선택하고 선택적 변환을 적용한 다음 시작을 클릭하여 데이터 캡처를 시작할 수 있는 구성 연습 환경을 제공합니다. CDC 리소스를 사용하면 파이프라인 또는 데이터 흐름 작업을 디자인할 필요가 없습니다. 또한 데이터가 처리되는 동안 범용 데이터 흐름의 4개 코어에 대해서만 요금이 청구됩니다. ADF에서 절전 모드를 해제하고 변경된 데이터를 찾는 데 사용할 기본 대기 시간을 설정할 수 있습니다. 이것이 청구되는 유일한 시간입니다. 최상위 CDC 리소스는 프로세스를 지속적으로 실행하는 ADF 메서드이기도 합니다. ADF의 파이프라인은 일괄 처리에만 해당하지만 CDC 리소스는 지속적으로 실행할 수 있습니다.

매핑 데이터 흐름에서 네이티브 변경 데이터 캡처

삽입, 업데이트 및 삭제된 행을 포함하여 변경된 데이터는 원본 데이터베이스의 ADF 매핑 데이터 흐름에서 자동으로 검색되고 추출될 수 있습니다. 데이터베이스에서 네이티브 변경 데이터 캡처 기술을 사용하므로 변경 내용을 식별하기 위해 타임스탬프 또는 ID 열이 필요하지 않습니다. 매핑 데이터 흐름에서 원본 변환 및 싱크 변환 참조를 데이터베이스 데이터 세트에 연결하기만 하면 원본 데이터베이스에서 변경된 내용을 대상 데이터베이스에 자동으로 적용하여 두 테이블 간에 데이터를 쉽게 동기화할 수 있습니다. 또한 델타 데이터를 처리하기 위해 변환을 비즈니스 논리 사이에 추가할 수도 있습니다. 싱크 데이터 대상을 정의하면 ADF에서 행 작성기를 자동으로 검색할 수 있으므로 행 변경 변환 없이도 싱크에서 삽입, 업데이트, upsert 및 삭제 작업을 설정할 수 있습니다.

지원되는 커넥터

매핑 데이터 흐름에서 자동 증분 추출

새로 업데이트된 행 또는 업데이트된 파일은 원본 저장소의 ADF 매핑 데이터 흐름에서 자동으로 검색되고 추출될 수 있습니다. 데이터베이스에서 델타 데이터를 가져오려는 경우 변경 내용을 식별하기 위해 증분 열이 필요합니다. 스토리지 저장소에서만 새 파일 또는 업데이트된 파일을 로드하려는 경우 ADF 매핑 데이터 흐름은 파일의 마지막 수정 시간까지만 작동합니다.

지원되는 커넥터

파이프라인에서 고객이 관리하는 델타 데이터 추출

조회 작업을 사용하여 외부 제어 테이블에 저장된 워터마크 값을 가져오고, 복사 작업 또는 매핑 데이터 흐름 작업을 사용하여 타임스탬프 또는 ID 열에 대해 델타 데이터를 쿼리하고, 다음 실행을 위해 SP 작업을 사용하여 새 워터마크 값을 외부 제어 테이블에 다시 쓰는 등 모든 ADF 지원 데이터 저장소에 대한 사용자 고유의 델타 데이터 추출 파이프라인을 항상 빌드할 수 있습니다. 스토리지 저장소에서만 새 파일을 로드하려는 경우 파일을 대상으로 성공적으로 이동한 후 매번 삭제하거나 시간 분할된 폴더 또는 파일 이름 또는 마지막 수정 시간을 활용하여 새 파일을 식별할 수 있습니다.

좋은 연습 방법

데이터베이스에서 데이터 캡처 변경

  • 네이티브 변경 데이터 캡처는 변경 데이터를 가져오는 가장 간단한 방법으로 항상 권장됩니다. 또한 ADF가 추가 처리를 위해 변경 데이터를 추출할 때 원본 데이터베이스에 대한 부담이 훨씬 줄어듭니다.
  • 데이터베이스 저장소가 네이티브 변경 데이터 캡처를 지원하는 ADF 커넥터 목록에 속하지 않는 경우 변경 내용을 캡처하기 위해 증분 열만 입력해야 하는 자동 증분 추출 옵션을 선택하는 것이 좋습니다. ADF는 델타 로드를 위한 동적 쿼리 만들기 및 각 작업 실행에 대한 검사점 관리를 포함하여 나머지 작업을 처리합니다.
  • 파이프라인의 고객 관리형 델타 데이터 추출은 모든 ADF 지원 데이터베이스를 포함하며 모든 데이터베이스를 직접 제어할 수 있는 유연성을 제공합니다.

파일 기반 스토리지에서 파일 캡처 변경

  • Azure Blob Storage, Azure Data Lake Storage Gen2 또는 Azure Data Lake Storage Gen1에서 데이터를 로드하려는 경우 매핑 데이터 흐름을 사용하면 한 번의 클릭으로만 새 파일 또는 업데이트된 파일을 가져올 수 있습니다. 이는 매핑 데이터 흐름의 이러한 파일 기반 스토리지에서 델타 로드를 달성하는 가장 간단하고 권장되는 방법입니다.
  • 더 많은 모범 사례를 얻을 수 있습니다.

검사점

ADF 매핑 데이터 흐름에서 네이티브 변경 데이터 캡처 또는 자동 증분 추출 옵션을 사용하도록 설정하면 ADF에서 검사점을 관리하여 파이프라인이 마지막으로 실행된 이후에 각 작업 실행에서 변경된 원본 데이터만 자동으로 읽도록 지원합니다. 기본적으로 검사점은 파이프라인 및 작업 이름과 결합됩니다. 파이프라인 이름이나 작업 이름을 변경하면 검사점이 다시 설정되어 다음 실행에서 처음부터 시작하거나 지금부터 변경 내용을 가져올 수 있습니다. 파이프라인 이름 또는 작업 이름을 변경하지만 검사점을 계속 유지하여 마지막 실행에서 변경된 데이터를 자동으로 가져오려는 경우 데이터 흐름 작업에서 사용자 고유의 검사점 키를 사용하여 이를 달성하세요. 고유한 검사포인트 키의 명명 규칙은 연결된 서비스, 데이터 세트, 파이프라인 및 데이터 흐름과 동일합니다.

파이프라인을 디버그할 때 이 기능은 동일하게 작동합니다. 디버그 실행 중에 브라우저를 새로 고치면 검사점이 다시 설정됩니다. 디버그 실행의 파이프라인 결과에 만족하면 파이프라인을 게시하고 트리거할 수 있습니다. 게시된 파이프라인을 처음 트리거하는 순간 처음부터 자동으로 다시 시작하거나 지금부터 변경 내용을 가져옵니다.

모니터링 섹션에서는 항상 파이프라인을 다시 실행할 수 있습니다. 이렇게 하면 변경된 데이터가 선택한 파이프라인 실행의 이전 검사점에서 항상 캡처됩니다.

자습서

Azure Data Factory 및 Azure Synapse Analytics에서 변경 데이터 캡처를 시작하는 자습서는 다음과 같습니다.

템플릿

다음은 Azure Data Factory 및 Azure Synapse Analytics에서 변경 데이터 캡처를 사용하는 템플릿입니다.