다음을 통해 공유


마지막으로 수줭된 날짜를 기준으로 새 파일 및 변경된 파일을 증분 복사

이 자습서에서는 Lakehouse에서 Lakehouse로 새 파일과 변경된 파일만 증분 방식으로 복사하는 데이터 파이프라인을 만듭니다. 마지막으로 수정한 필터를 사용하여 복사할 파일을 결정합니다.

여기에 나와 있는 단계를 완료하면 Data Factory가 원본 스토리지의 모든 파일을 검색하고, 마지막으로 수정된 필터를 기준으로 파일 필터를 적용하고, 새 파일이나 지난 번 이후로 업데이트된 파일만 대상 스토리지에 복사합니다.

필수 조건

  • Lakehouse. 레이크하우스를 대상 데이터 저장소로 사용합니다. 없는 경우 만드는 단계에 대한 Lakehouse 만들기를 참조하세요. 원본이라는 이름의 폴더와 대상이라는 이름의 폴더를 만듭니다.

증분 복사를 위한 데이터 파이프라인 구성

1단계: 파이프라인 만들기

  1. Power BI로 이동합니다.

  2. 화면 왼쪽 아래에서 Power BI 아이콘을 선택한 다음, Data Factory를 선택하여 Data Factory의 홈 페이지를 엽니다.

  3. Microsoft Fabric 작업 영역으로 이동합니다.

  4. 데이터 파이프라인을 선택한 다음 파이프라인 이름을 입력하여 새 파이프라인을 만듭니다.

    새로 만든 작업 영역의 새 데이터 파이프라인 버튼을 보여 주는 스크린샷.

    새 파이프라인을 만드는 이름을 보여주는 스크린샷.

2단계: 증분 복사에 대한 복사 작업 구성

  1. 캔버스에 복사 작업을 추가합니다.

  2. 원본 탭에서 Lakehouse를 연결로 선택하고 일을 루트 폴더로 선택합니다. 파일 경로에서 원본을 폴더로 선택합니다. 이진 파일파일 형식으로 지정합니다.

    원본 구성을 보여 주는 스크린샷.

  3. 대상 탭에서 연결로 Lakehouse를 선택하고 파일루트 폴더로 선택합니다. 파일 경로에서 대상을 폴더로 선택합니다. 이진 파일파일 형식으로 지정합니다.

    대상 구성을 보여 주는 스크린샷.

3단계: 증분 복사 시간 간격 설정

원본 폴더에서 5분마다 새 파일 또는 변경된 파일을 증분 방식으로 복사한다고 가정합니다.

  1. 상단 메뉴에서 예약 버튼을 선택합니다. 팝업 창에서 일정 실행을 켜고 반복에서 분 단위로 선택하고 간격을 5분으로 설정합니다. 그런 다음 시작 날짜 및 시간종료 날짜 및 시간을 지정하여 이 일정을 실행할 시간 범위를 확인합니다. 그런 다음 적용을 선택합니다.

    일정 버튼을 보여주는 스크린샷.

    예약 구성을 보여 주는 스크린샷.

  2. 복사 작업 원본으로 이동합니다. 고급마지막으로 수정한 필터에서 동적 콘텐츠 추가를 사용하여 시작 시간을 지정합니다. 열린 파이프라인식 작성기에 @formatDateTime(addMinutes(pipeline().TriggerTime, -5), 'yyyy-MM-dd HH:mm:ss')을(를) 입력합니다.

    마지막으로 수정한 필터 아래의 시작 시간을 보여 주는 스크린샷.

  3. 실행을 선택합니다. 이제 복사 작업은 지정된 종료 시간까지 다음 5분마다 원본에 추가되거나 변경된 새 파일을 대상 폴더에 복사할 수 있습니다.

  4. 다른 반복을 선택하면 다음 테이블에는 시작 시간에 지정해야 하는 다양한 동적 콘텐츠가 표시됩니다. 매일 및 매주를 선택하는 경우 해당 동적 콘텐츠를 사용하기 위해 한 번만 설정할 수 있습니다.

    반복 동적 콘텐츠
    분 단위 @formatDateTime(addMinutes(pipeline().TriggerTime, -<your set repeat minute>), 'yyyy-MM-dd HH:mm:ss')
    시간당 @formatDateTime(addHours(pipeline().TriggerTime, -<your set repeat hour>), 'yyyy-MM-ddTHH:mm:ss')
    매일 @formatDateTime(addDays(pipeline().TriggerTime, -1), 'yyyy-MM-ddTHH:mm:ss')
    매주 @formatDateTime(addDays(pipeline().TriggerTime, -7), 'yyyy-MM-ddTHH:mm:ss')

다음으로 Data Warehouse에서 Lakehouse로 데이터를 증분 방식으로 로드하는 방법에 대해 자세히 알아보세요.