복사 작업에서 Lakehouse 구성

이 문서에서는 데이터 파이프라인의 복사 작업을 사용하여 Fabric Lakehouse에서 데이터를 복사하는 방법을 간략하게 설명합니다. 기본적으로 데이터는 V-Order로 Lakehouse 테이블에 기록되며 자세한 내용은 Delta Lake 테이블 최적화 및 V-Order를 참조하세요.

지원되는 형식

Lakehouse는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.

지원되는 구성

복사 작업에서 각 탭의 구성에 대해 각각 다음 섹션으로 이동합니다.

일반

일반 탭 구성의 경우 일반으로 이동합니다.

Source

복사 작업의 원본 탭에서 Lakehouse에 대해 지원되는 속성은 다음과 같습니다.

원본 탭 및 속성 목록을 보여 주는 스크린샷.

다음 속성이 필요합니다.

  • 데이터 저장소 유형: 작업 영역을 선택합니다.

  • 작업 영역 데이터 저장소 형식: 데이터 저장소 형식 목록에서 Lakehouse를 선택합니다.

  • 레이크하우스: 작업 영역에서 기존 레이크하우스를 선택합니다. 없는 경우 새로 만들기를 선택하여 새 Lakehouse를 만듭니다. 동적 콘텐츠 추가를 사용하여 Lakehouse를 지정하는 경우 매개 변수를 추가하고 Lakehouse 개체 ID를 매개 변수 값으로 지정합니다. Lakehouse 개체 ID를 가져오려면 작업 영역에서 Lakehouse를 열고 ID는 URL의 뒤 /lakehouses/입니다.

    Lakehouse 개체 ID를 보여 주는 스크린샷

  • 루트 폴더: 레이크에서 관리되거나 관리되지 않는 영역의 가상 보기를 나타내는 테이블 또는 파일을 선택합니다. 자세한 내용은 Lakehouse 소개참조하세요.

    • 테이블을 선택하는 경우:
      • 테이블 이름: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 원본으로 지정합니다.
      • 고급에서 다음 필드를 지정할 수 있습니다.
        • 타임스탬프: 타임스탬프별로 이전 스냅샷 쿼리하도록 지정합니다.
        • 버전: 버전별로 이전 스냅샷 쿼리하도록 지정합니다.
        • 추가 열: 저장소 원본 파일의 상대 경로 또는 정적 값에 추가 데이터 열을 추가합니다. 식은 후자에 대해 지원됩니다.
    • 파일을 선택하는 경우:
      • 파일 경로 형식: 파일 경로, Wild카드 파일 경로 또는 파일 목록을 파일 경로 형식으로 선택할 수 있습니다. 다음 목록에서는 각 설정의 구성을 설명합니다.

        파일 경로를 보여 주는 스크린샷

        • 파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 채웁니다.

        • Wild카드 파일 경로: 지정된 Lakehouse 관리되지 않는 영역(파일 아래)에서 와일드카드 문자로 폴더 또는 파일 경로를 지정하여 원본 폴더 또는 파일을 필터링합니다. 허용되는 와일드카드는 *(문자 0자 이상 일치) 및 ?(문자 0자 또는 1자 일치)입니다. 폴더 또는 파일 이름에 wild카드 또는 이 이스케이프 문자가 있는 경우 이스케이프하는 데 사용합니다^.

          • Wild카드 폴더 경로: 지정된 컨테이너 아래의 폴더 경로입니다. wild카드 사용하여 폴더를 필터링하려면 이 설정을 건너뛰고 활동 원본 설정에서 해당 정보를 지정합니다.

          • Wild카드 파일 이름: 지정된 Lakehouse 관리되지 않는 영역(파일 아래) 및 폴더 경로 아래의 파일 이름입니다.

            wild카드 파일 경로를 보여 주는 스크린샷

        • 파일 목록: 지정된 파일 집합을 복사하도록 나타냅니다.

          • 폴더 경로: 복사할 파일이 포함된 폴더를 가리킵니다.
          • 파일 목록의 경로: 복사할 파일 목록이 포함된 텍스트 파일, 구성된 파일 경로의 상대 경로인 한 줄당 하나의 파일을 가리킵니다.

          파일 목록의 경로를 보여 주는 스크린샷

      • 재귀: 데이터를 하위 폴더에서 재귀적으로 읽는지 또는 지정된 폴더에서만 읽는지 여부를 나타냅니다. 사용하도록 설정하면 입력 폴더 및 해당 하위 폴더의 모든 파일이 재귀적으로 처리됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.

      • 파일 형식: 드롭다운 목록에서 파일 형식을 선택합니다. 설정 단추를 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정에 대한 자세한 내용은 지원되는 형식문서를 참조하세요.

      • 고급에서 다음 필드를 지정할 수 있습니다.

        • 마지막으로 수정한 날짜별로 필터링: 파일은 마지막으로 수정된 날짜를 기준으로 필터링됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
          • 시작 시간: 마지막으로 수정한 시간이 구성된 시간보다 크거나 같은 경우 파일이 선택됩니다.
          • 종료 시간: 마지막으로 수정한 시간이 구성된 시간보다 작은 경우 파일이 선택됩니다.
        • 파티션 검색 사용: 분할된 파일의 경우 파일 경로에서 파티션을 구문 분석하고 추가 원본 열로 추가할지 여부를 지정합니다.
          • 파티션 루트 경로: 파티션 검색을 사용하는 경우 분할된 폴더를 데이터 열로 읽기 위해 절대 루트 경로를 지정합니다.
        • 최대 동시 연결: 작업 실행 중에 데이터 저장소에 설정된 동시 연결의 상한을 나타냅니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.

대상

복사 작업의 대상 탭에서 Lakehouse에 대해 지원되는 속성은 다음과 같습니다.

대상 탭을 보여 주는 스크린샷.

다음 속성이 필요합니다.

  • 데이터 저장소 유형: 작업 영역을 선택합니다.

  • 작업 영역 데이터 저장소 형식: 데이터 저장소 형식 목록에서 Lakehouse를 선택합니다.

  • 레이크하우스: 작업 영역에서 기존 레이크하우스를 선택합니다. 없는 경우 새로 만들기를 선택하여 새 Lakehouse를 만듭니다. 동적 콘텐츠 추가를 사용하여 Lakehouse를 지정하는 경우 매개 변수를 추가하고 Lakehouse 개체 ID를 매개 변수 값으로 지정합니다. Lakehouse 개체 ID를 가져오려면 작업 영역에서 Lakehouse를 열고 ID는 URL의 뒤 /lakehouses/입니다.

    Lakehouse 개체 ID를 보여 주는 스크린샷

  • 루트 폴더: 레이크에서 관리되거나 관리되지 않는 영역의 가상 보기를 나타내는 테이블 또는 파일을 선택합니다. 자세한 내용은 Lakehouse 소개참조하세요.

    • 테이블을 선택하는 경우:

      • 테이블 이름: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 대상으로 지정합니다.

        테이블 이름을 보여 주는 스크린샷.

      • 고급에서 다음 필드를 지정할 수 있습니다.

        • 파일당 최대 행 수: Lakehouse에 데이터를 쓸 때 파일당 최대 행을 지정합니다.
        • 테이블 작업: 선택한 테이블에 대한 작업을 지정합니다.
          • 추가: 기존 테이블에 새 값을 추가합니다.
            • 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
              • 파티션 열 이름: 새 테이블에 데이터를 추가할 때 스키마 매핑의 대상 열에서 선택합니다. 이미 파티션이 있는 기존 테이블에 데이터를 추가하면 파티션 열이 자동으로 기존 테이블에서 파생됩니다. 지원되는 데이터 형식은 문자열, 정수, 부울 및 datetime입니다. 서식은 매핑 탭 아래의 형식 변환 설정을 적용합니다.
          • 덮어쓰기: 새 값을 사용하여 테이블의 기존 데이터 및 스키마를 덮어씁 수 있습니다. 이 작업을 선택하면 대상 테이블에서 파티션을 사용하도록 설정할 수 있습니다.
            • 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
              • 파티션 열 이름: 스키마 매핑의 대상 열에서 선택합니다. 지원되는 데이터 형식은 문자열, 정수, 부울 및 datetime입니다. 서식은 매핑 탭 아래의 형식 변환 설정을 적용합니다.
        • 최대 동시 연결: 작업 실행 중에 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.
    • 파일을 선택하는 경우:

      • 파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 채웁니다.

        대상의 파일 경로를 보여 주는 스크린샷

      • 파일 형식: 드롭다운 목록에서 파일 형식을 선택합니다. 설정 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정에 대한 자세한 내용은 지원되는 형식문서를 참조하세요.

      • 고급에서 다음 필드를 지정할 수 있습니다.

        • 복사 동작: 원본이 파일 기반 데이터 저장소의 파일인 경우 복사 동작을 정의합니다. 동적 콘텐츠 추가, 없음, 평면화 계층 구조 또는 계층 유지를 복사 동작으로 선택할 수 있습니다. 각 설정의 구성은 다음과 같습니다.

          • 동적 콘텐츠 추가: 속성 값에 대한 식을 지정하려면 동적 콘텐츠 추가를 선택합니다. 이 필드는 지원되는 시스템 변수, 활동 출력, 함수 및 사용자 지정 변수 또는 매개 변수에서 식을 작성할 수 있는 식 작성기를 엽니다. 식 언어에 대한 자세한 내용은 식 및 함수이동합니다.

          • 없음: 복사 동작을 사용하지 않려면 이 선택 항목을 선택합니다.

          • 평면화 계층 구조: 원본 폴더의 모든 파일은 대상 폴더의 첫 번째 수준에 있습니다. 대상 파일에는 자동으로 생성된 이름이 있습니다.

          • 계층 유지: 대상 폴더의 파일 계층 구조를 유지합니다. 원본 폴더에 대한 원본 파일의 상대 경로는 대상 폴더에 대한 대상 파일의 상대 경로와 동일합니다.

            복사 동작을 보여 주는 스크린샷

        • 최대 동시 연결: 작업 실행 중에 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.

        • 블록 크기(MB): Lakehouse에 데이터를 쓸 때 블록 크기를 MB 단위로 지정합니다. 허용되는 값은 4~100MB입니다.

        • 메타데이터: 대상 데이터 저장소로 복사할 때 사용자 지정 메타데이터를 설정합니다. metadata 배열의 각 개체는 추가 열을 나타냅니다. name은 메타데이터 키 이름을 정의하고 value는 해당 키의 데이터 값을 나타냅니다. 특성 유지 기능을 사용하는 경우 지정된 메타데이터는 원본 파일 메타데이터와 통합/덮어씁니다. 허용되는 데이터 값은 다음과 같습니다.

          • $$LASTMODIFIED: 예약된 변수는 원본 파일의 마지막으로 수정된 시간을 저장함을 나타냅니다. 이진 형식만 있는 파일 기반 원본에 적용합니다.

          • 정적 값

            메타데이터를 보여 주는 스크린샷.

매핑

매핑 탭 구성의 경우 Lakehouse 테이블을 대상 데이터 저장소로 적용하지 않으면 매핑으로 이동합니다.

매핑의 구성을 제외하고 Lakehouse 테이블을 대상 데이터 저장소로 적용하는 경우 대상 열의 형식을 편집할 수 있습니다. 스키마 가져오기를 선택한 후 대상에서 열 형식을 지정할 수 있습니다.

예를 들어 원본의 PersonID 열 형식은 int이며 대상 열에 매핑할 때 문자열 형식으로 변경할 수 있습니다.

대상 열 형식 매핑의 스크린샷

참고 항목

원본이 10진수 형식인 경우 현재 대상 형식 편집은 지원되지 않습니다.

이진 파일을 파일 형식으로 선택하는 경우 매핑이 지원되지 않습니다.

설정

설정 탭 구성의 경우 설정 이동합니다.

테이블 요약

다음 표에는 Lakehouse의 복사 활동에 대한 자세한 정보가 포함되어 있습니다.

원본 정보

속성 설명 Required JSON 스크립트 속성
데이터 저장소 유형 데이터 저장소 유형입니다. 작업 영역 /
작업 영역 데이터 저장소 유형 작업 영역 데이터 저장소 유형을 선택할 섹션입니다. 레이크하우스 type
레이크하우스 소스로 사용하는 레이크하우스입니다. <레이크하우스> workspaceId
artifactId
루트 폴더 루트 폴더의 형식입니다. * 테이블
* 파일
아니요 rootFolder:
테이블 또는 파일
테이블 이름 데이터를 읽을 테이블의 이름입니다. <테이블 이름> 루트 폴더에서 테이블을 선택할 때 예 테이블
(under typeProperties ->source ->typeProperties)
Timestamp 이전 스냅샷을 쿼리하기 위한 타임스탬프입니다. <timestamp> 아니요 timestampAsOf
버전 이전 스냅샷을 쿼리할 버전입니다. <version> 아니요 versionAsOf
추가 열 원본 파일의 상대 경로 또는 정적 값을 저장할 추가 데이터 열입니다. 식은 후자에 대해 지원됩니다. *이름
*값
아니요 additionalColumns:
*이름
*값
파일 경로 형식 사용하는 파일 경로의 형식입니다. * 파일 경로
* Wild카드 파일 경로
* 파일 목록
/
파일 경로 원본 데이터 저장소 아래의 폴더/파일로 경로에서 복사합니다. 파일 경로 형식에서 파일 경로를 선택할 때 적용합니다. <파일 경로> 파일 경로를 선택할 때 예 * folderPath
*파일
Wild카드 경로 원본 폴더를 필터링하도록 구성된 원본 데이터 저장소 아래에 와일드카드 문자가 있는 폴더 경로입니다. 파일 경로 형식에서 Wild카드 파일 경로를 선택할 때 적용합니다. <wild카드 경로> 예: Wild카드 파일 경로를 선택할 * wild카드FolderPath
* wild카드FileName
폴더 경로 복사할 파일이 포함된 폴더를 가리킵니다. 파일 경로 형식의 파일목록을 선택할 때 적용합니다. <폴더 경로> 아니요 folderPath
파일 목록의 경로 지정된 파일 집합을 복사하도록 지정합니다. 복사할 파일 목록이 포함된 텍스트 파일, 구성된 경로의 상대 경로인 한 줄당 하나의 파일을 가리킵니다. 파일 경로 형식의 파일목록을 선택할 때 적용합니다. <파일 목록 경로> 아니요 fileListPath
반복적 으로 입력 폴더와 해당 하위 폴더의 모든 파일을 재귀적으로 처리하거나 선택한 폴더에 있는 파일만 처리합니다. 단일 파일을 선택하면 이 설정을 사용할 수 없습니다. 선택 또는 선택 취소 아니요 재귀:
true 또는 false
파일 형식 사용하는 파일의 형식입니다. <파일 형식> 형식(아래 formatSettings):
DelimitedTextRead설정
마지막으로 수정한 기준 필터링 [시작 시간, 종료 시간) 범위에서 마지막으로 수정된 시간이 있는 파일은 추가 처리를 위해 필터링됩니다.

시간은 UTC 표준 시간대에 적용됩니다 yyyy-mm-ddThh:mm:ss.fffZ.

이 속성을 건너뛸 수 있습니다. 즉, 파일 특성 필터가 적용되지 않습니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
* 시작 시간
* 종료 시간
아니요 modifiedDatetimeStart
modifiedDatetimeEnd
파티션 검색 사용 파일 경로에서 파티션을 구문 분석하고 추가 원본 열로 추가할지 여부입니다. 선택되었거나 선택 취소됨 아니요 enablePartitionDiscovery:
true 또는 false(기본값)
파티션 루트 경로 분할된 폴더를 데이터 열로 읽는 절대 파티션 루트 경로입니다. <파티션 루트 경로> 아니요 partitionRootPath
최대 동시 연결 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값이 필요합니다. <최대 동시 연결> 아니요 maxConcurrentConnections

대상 정보

속성 설명 Required JSON 스크립트 속성
데이터 저장소 유형 데이터 저장소 유형입니다. 작업 영역 /
작업 영역 데이터 저장소 유형 작업 영역 데이터 저장소 유형을 선택할 섹션입니다. 레이크하우스 type
레이크하우스 대상으로 사용하는 레이크하우스입니다. <레이크하우스> workspaceId
artifactId
루트 폴더 루트 폴더의 형식입니다. * 테이블
* 파일
rootFolder:
테이블 또는 파일
테이블 이름 데이터를 쓰려는 테이블의 이름입니다. <테이블 이름> 루트 폴더에서 테이블을 선택할 때 예 테이블
(under typeProperties ->sink ->typeProperties)
파일당 최대 행 수 폴더에 데이터를 쓸 때 여러 파일에 쓰도록 선택하고 파일당 최대 행 수를 지정할 수 있습니다. <flie당 최대 행 수> 아니요 maxRowsPerFile
테이블 작업 기존 테이블에 새 값을 추가하거나 새 값을 사용하여 테이블의 기존 데이터 및 스키마를 덮어씁니다. * Append
* Overwrite
아니요 tableActionOption:
추가 또는 덮어쓰기
최대 동시 연결 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. <최대 동시 연결> 아니요 maxConcurrentConnections
파일 경로 대상 데이터 저장소 아래의 폴더/파일 경로에 데이터를 씁니다. <파일 경로> 아니요 * folderPath
*파일
파일 형식 사용하는 파일의 형식입니다. <파일 형식> 형식(아래 formatSettings):
DelimitedTextWrite설정
복사 동작 원본이 파일 기반 데이터 저장소의 파일일 때 정의된 복사 동작입니다. * 동적 콘텐츠 추가
* 없음
* 평면 계층 구조
* 계층 유지
아니요 copyBehavior:


* FlattenHierarchy
* PreserveHierarchy
블록 크기(MB) Lakehouse에 데이터를 쓰는 데 사용되는 블록 크기(MB)입니다. 허용되는 값은 4~100MB입니다. <블록 크기> 아니요 blockSizeInMB
메타데이터 대상으로 복사할 때 설정되는 사용자 지정 메타데이터입니다. * $$LASTMODIFIED
*식
* 정적 값
아니요 metadata