원본 데이터 저장소에서 대상 데이터 저장소로 데이터 증분 로드

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

데이터 통합 솔루션에서 초기 전체 데이터 로드 후 증분 방식(또는 델타)으로 데이터를 로드하는 것은 널리 사용되는 시나리오입니다. 이 섹션의 자습서에서는 Azure Data Factory를 사용하여 증분 방식으로 데이터를 로드하는 다양한 방법을 보여줍니다.

워터마크를 사용하여 데이터베이스에서 델타 데이터 로드

이 경우 워터마크는 원본 데이터베이스에 정의합니다. 워터마크는 마지막으로 업데이트된 타임스탬프 또는 증분 키가 있는 열입니다. 델타 로딩 솔루션은 이전 워터마크와 새 워터마크 사이에 변경된 데이터를 로드합니다. 이 방식에 대한 워크플로는 다음 다이어그램과 같습니다.

Workflow for using a watermark

단계별 지침은 다음 자습서를 참조하세요.

템플릿에 대한 자세한 내용은 다음을 참조하세요.

변경 내용 추적 기술을 사용하여 SQL DB에서 델타 데이터 로드

변경 내용 추적 기술은 애플리케이션에 효율적인 변경 내용 추적 메커니즘을 제공하는 SQL Server 및 Azure SQL Database의 간단한 솔루션입니다. 이를 통해 애플리케이션에서 삽입되거나 업데이트되거나 삭제된 데이터를 쉽게 식별할 수 있습니다.

이 방식에 대한 워크플로는 다음 다이어그램과 같습니다.

Workflow for using Change Tracking

단계별 지침은 다음 자습서를 참조하세요.

LastModifiedDate를 사용하여 새 파일과 변경된 파일 로드

LastModifiedDate를 사용하여 새 파일과 변경된 파일만 대상 저장소에 복사할 수 있습니다. ADF는 원본 저장소의 모든 파일을 검색하고, LastModifiedDate별로 파일 필터를 적용하고, 마지막 시간 이후의 새 파일과 변경된 파일만 대상 저장소에 복사합니다. ADF에서 많은 양의 파일을 검색하도록 하고 몇 개의 파일만 대상에 복사하면 파일 검색 프로세스로 인해 시간이 오래 걸릴 수 있습니다.

단계별 지침은 다음 자습서를 참조하세요.

템플릿에 대한 자세한 내용은 다음을 참조하세요.

시간 분할 폴더 또는 파일 이름을 사용하여 새 파일만 로드합니다.

파일 또는 폴더가 timeslice 정보와 함께 파일 또는 폴더 이름(예: /yyyy/mm/dd/file.csv)의 일부로 이미 시간 분할된 새 파일만 복사할 수 있습니다. 이는 새 파일을 증분 로드 시 가장 높은 성능을 제공하는 방법입니다.

단계별 지침은 다음 자습서를 참조하세요.

다음 자습서를 진행합니다.