다음을 통해 공유


복사 작업에서 Lakehouse 구성

이 문서에서는 데이터 파이프라인에서 복사 활동을 사용하여 KQL Database에서 데이터를 복사하고 Fabric Lakehouse로 데이터를 복사하는 방법에 대해 설명합니다. 기본적으로 데이터는 V-Order로 Lakehouse 테이블에 기록되며 자세한 내용은 Delta Lake 테이블 최적화 및 V-Order를 참조하세요.

지원되는 형식

Lakehouse는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.

지원되는 구성

복사 작업 아래의 각 탭을 구성하려면 각각 다음 섹션으로 이동합니다.

일반

일반 탭을 구성하려면 일반으로 이동합니다.

원본

복사 작업의 원본 탭에서 Lakehouse에 대해 지원되는 속성은 다음과 같습니다.

원본 탭 및 속성 목록을 보여주는 스크린샷.

다음 속성은 필수입니다.

  • 연결: 연결 목록에서 Lakehouse 연결을 선택합니다. 연결이 없으면 연결 목록 맨 아래에서 자세히를 선택하여 새 Lakehouse 연결을 만듭니다. 동적 콘텐츠 사용을 적용하여 Lakehouse를 지정하는 경우 매개 변수를 추가하고 매개 변수 값으로 Lakehouse 개체 ID를 지정합니다. Lakehouse 개체 ID를 얻으려면 작업 영역에서 Lakehouse를 열고 URL의 /lakehouses/ 뒤에 ID를 입력합니다.

    Lakehouse 개체 ID 필드를 보여주는 스크린샷.

  • 루트 폴더: 레이크에서 관리되거나 관리되지 않는 영역의 가상 보기를 나타내는 테이블 또는 파일을 선택합니다. 자세한 내용은 Lakehouse 소개를 참조하세요.

    • 테이블을 선택한 경우:

      • 테이블 이름: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 원본으로 지정합니다. 또는 새로 만들기를 선택하여 새 테이블을 만들 수 있습니다.

        테이블 이름을 보여주는 스크린샷.

      • 테이블: 연결에 스키마가 있는 Lakehouse를 적용하는 경우 테이블 목록에서 스키마가 있는 기존 테이블을 선택하거나 스키마가 있는 테이블을 원본으로 지정합니다. 또는 새로 만들기를 선택하여 스키마를 사용하여 새 테이블을 만들 수 있습니다. 스키마 이름을 지정하지 않으면 서비스는 dbo를 기본 스키마로 사용합니다.

        스키마가 있는 테이블 이름을 보여주는 스크린샷.

      • 고급에서 다음 필드를 지정할 수 있습니다.

        • 타임스탬프: 타임스탬프별로 이전 스냅샷을 쿼리하도록 지정합니다.
        • 버전: 버전별로 이전 스냅샷을 쿼리하도록 지정합니다.
        • 추가 열: 데이터 열을 추가하여 원본 파일의 상대 경로 또는 정적 값을 저장하세요. 식은 정적 값에 대해 지원됩니다.

      리더 버전 1이 지원됩니다. 이 문서에서 지원되는 해당 Delta Lake 기능을 찾을 수 있습니다.

    • 파일을 선택한 경우:

      • 파일 경로 유형: 파일 경로 유형으로 파일 경로, 와일드카드 파일 경로 또는 파일 목록을 선택할 수 있습니다. 다음 목록에서는 각 설정의 구성에 대해 설명합니다.

        파일 경로를 보여주는 스크린샷.

        • 파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 채웁니다.

        • 와일드카드 파일 경로: 지정된 Lakehouse 관리되지 않는 영역(파일 아래)에서 와일드카드 문자를 사용하여 폴더 또는 파일 경로를 지정하여 원본 폴더 또는 파일을 필터링합니다. 허용되는 와일드카드는 *(문자 0자 이상 일치) 및 ?(문자 0자 또는 1자 일치)입니다. 폴더 또는 파일 이름에 와일드카드 또는 이 이스케이프 문자가 있는 경우 ^을(를) 사용하여 이스케이프합니다.

          • 와일드카드 폴더 경로: 지정된 컨테이너 아래에 있는 폴더의 경로입니다. 와일드카드를 사용하여 폴더를 필터링하려면 이 설정을 건너뛰고 작업 원본 설정에서 해당 정보를 지정하세요.

          • 와일드카드 파일 이름: 지정된 Lakehouse 관리되지 않는 영역(파일 아래) 및 폴더 경로 아래의 파일 이름입니다.

            와일드카드 파일 경로를 보여주는 스크린샷.

        • 파일 목록: 지정된 파일 집합을 복사하도록 지정합니다.

          • 폴더 경로: 복사할 파일이 포함된 폴더를 가리킵니다.
          • 파일 목록 경로: 복사할 파일 목록이 포함된 텍스트 파일을 한 줄에 한 파일씩, 구성된 파일 경로의 상대 경로인 텍스트 파일을 가리킵니다.

          파일 목록의 경로를 보여주는 스크린샷.

      • 재귀적: 데이터를 하위 폴더에서 재귀적으로 읽을지, 아니면 지정된 폴더에서만 읽을지를 나타냅니다. 사용하도록 설정하면 입력 폴더 및 해당 하위 폴더의 모든 파일이 재귀적으로 처리됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.

      • 파일 형식: 드롭다운 목록에서 파일 형식을 선택합니다. 설정 버튼을 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요.

      • 고급에서 다음 필드를 지정할 수 있습니다.

        • 마지막으로 수정한 날짜별로 필터링: 파일은 마지막으로 수정한 날짜를 기준으로 필터링됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
          • 시작 시간: 마지막으로 수정한 시간이 구성된 시간보다 크거나 같은 경우 파일이 선택됩니다.
          • 종료 시간: 마지막으로 수정한 시간이 구성된 시간보다 작은 경우 파일이 선택됩니다.
        • 파티션 검색 사용: 파티션이 있는 파일의 경우, 파일 경로에서 파티션을 구문 분석하여 추가 원본 열로 추가할지 여부를 지정합니다.
          • 파티션 루트 경로: 파티션 검색을 사용하는 경우 분할된 폴더를 데이터 열로 읽도록 절대 루트 경로를 지정합니다.
        • 최대 동시 연결: 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.

대상

복사 작업의 대상 탭에서 Lakehouse에 대해 지원되는 속성은 다음과 같습니다.

대상 탭 정보를 보여주는 스크린샷.

다음 속성은 필수입니다.

  • 연결: 연결 목록에서 Lakehouse 연결을 선택합니다. 연결이 없으면 연결 목록 맨 아래에서 자세히를 선택하여 새 Lakehouse 연결을 만듭니다. 동적 콘텐츠 사용을 적용하여 Lakehouse를 지정하는 경우 매개 변수를 추가하고 매개 변수 값으로 Lakehouse 개체 ID를 지정합니다. Lakehouse 개체 ID를 얻으려면 작업 영역에서 Lakehouse를 열고 URL의 /lakehouses/ 뒤에 ID를 입력합니다.

    Lakehouse 개체 ID 필드를 보여주는 스크린샷.

  • 루트 폴더: 레이크에서 관리되거나 관리되지 않는 영역의 가상 보기를 나타내는 테이블 또는 파일을 선택합니다. 자세한 내용은 Lakehouse 소개를 참조하세요.

    • 테이블을 선택한 경우:

      • 테이블 이름: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 대상으로 지정합니다. 또는 새로 만들기를 선택하여 새 테이블을 만들 수 있습니다.

        테이블 이름을 보여주는 스크린샷.

      • 테이블: 연결에 스키마가 있는 Lakehouse를 적용하는 경우 테이블 목록에서 스키마가 있는 기존 테이블을 선택하거나 스키마가 있는 테이블을 대상으로 지정합니다. 또는 새로 만들기를 선택하여 스키마를 사용하여 새 테이블을 만들 수 있습니다. 스키마 이름을 지정하지 않으면 서비스는 dbo를 기본 스키마로 사용합니다.

        스키마가 있는 테이블 이름을 보여주는 스크린샷.

      • 고급에서 다음 필드를 지정할 수 있습니다.

        • 테이블 작업: 선택한 테이블에 대한 작업을 지정합니다.

          • 추가: 기존 테이블에 새 값을 추가합니다.

            • 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
              • 파티션 열 이름: 새 테이블에 데이터를 추가할 때 스키마 매핑의 대상 열에서 선택합니다. 이미 파티션이 있는 기존 테이블에 데이터를 추가하면 파티션 열이 자동으로 기존 테이블에서 파생됩니다. 지원되는 데이터 유형은 문자열, 정수, 부울 및 날짜/시간입니다. 형식은 매핑 탭의 형식 변환 설정을 따릅니다.
          • 덮어쓰기: 새 값을 사용하여 테이블의 기존 데이터와 스키마를 덮어씁니다. 이 작업을 선택하면 대상 테이블에서 파티션을 사용하도록 설정할 수 있습니다.

            • 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
              • 파티션 열 이름: 스키마 매핑의 대상 열에서 선택합니다. 지원되는 데이터 유형은 문자열, 정수, 부울 및 날짜/시간입니다. 형식은 매핑 탭의 형식 변환 설정을 따릅니다.

            Delta Lake 시간 이동을 지원합니다. 덮어쓴 테이블에는 Lakehouse에서 액세스할 수 있는 이전 버전에 대한 델타 로그가 있습니다. 복사 작업 원본에서 버전을 지정하여 Lakehouse에서 이전 버전 테이블을 복사할 수도 있습니다.

        • 최대 동시 연결: 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.

      라이터 버전 2가 지원됩니다. 이 문서에서 지원되는 해당 Delta Lake 기능을 찾을 수 있습니다.

    • 파일을 선택한 경우:

      • 파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 채웁니다.

        대상의 파일 경로를 보여주는 스크린샷.

      • 파일 형식: 드롭다운 목록에서 파일 형식을 선택합니다. 설정을 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요.

      • 고급에서 다음 필드를 지정할 수 있습니다.

        • 복사 동작: 원본이 파일 기반 데이터 저장소의 파일인 경우의 복사 동작을 정의합니다. 계층 구조 평면화, 파일 병합, 계층 유지 또는 동적 콘텐츠 추가를 복사 동작으로 선택할 수 있습니다. 각 설정의 구성은 다음과 같습니다.

          • 계층 평탄화: 소스 폴더의 모든 파일이 대상 폴더의 최상위 레벨에 저장됩니다. 대상 파일에는 자동 생성된 이름이 있습니다.

          • 파일 병합: 원본 폴더의 모든 파일을 하나의 파일로 병합합니다. 파일 이름이 지정된 경우 병합되는 파일 이름은 지정된 이름입니다. 그렇지 않으면 자동 생성되는 파일 이름이 적용됩니다.

          • 계층 유지: 대상 폴더에서 파일의 계층 구조를 그대로 유지합니다. 원본 폴더의 원본 파일 상대 경로는 대상 폴더의 대상 파일 상대 경로와 동일합니다.

          • 동적 콘텐츠 추가: 속성 값에 대한 식을 지정하려면 동적 콘텐츠 추가를 선택합니다. 그러면 지원되는 시스템 변수, 작업 출력, 함수 및 사용자가 지정한 변수 또는 매개 변수에서 식을 빌드할 수 있는 식 작성기가 열립니다. 식 언어에 대한 자세한 내용은 식 및 함수로 이동합니다.

            복사 동작을 보여주는 스크린샷.

        • 최대 동시 연결: 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.

        • 블록 크기(MB): Lakehouse에 데이터를 쓸 때 블록 크기를 MB 단위로 지정합니다. 허용되는 값은 4~100MB입니다.

        • 메타데이터: 대상 데이터 저장소로 복사할 때 사용자 지정 메타데이터를 설정합니다. metadata 배열의 각 개체는 추가 열을 나타냅니다. name은 메타데이터 키 이름을 정의하고 value는 해당 키의 데이터 값을 나타냅니다. 특성 유지 기능을 사용하는 경우 지정된 메타데이터는 원본 파일 메타데이터와 통합/덮어씁니다. 허용되는 데이터 값은 다음과 같습니다.

          • $$LASTMODIFIED: 예약된 변수는 원본 파일의 마지막으로 수정된 시간을 저장함을 나타냅니다. 이진 형식만 사용하는 파일 기반 원본에 적용합니다.

          • 정적 값

            메타데이터를 보여주는 스크린샷

매핑

매핑 탭 구성의 경우 Lakehouse 테이블을 대상 데이터 저장소로 적용하지 않으면 매핑으로 이동합니다.

매핑의 구성을 제외하고 Lakehouse 테이블을 대상 데이터 저장소로 적용하는 경우 대상 열의 형식을 편집할 수 있습니다. 스키마 가져오기를 선택한 후 대상에서 열 형식을 지정할 수 있습니다.

예를 들어, 원본의 PersonID 열 형식은 int이며 대상 열에 매핑할 때 문자열 형식으로 변경할 수 있습니다.

대상 열 형식 매핑의 스크린샷

참고 항목

원본이 10진수 형식인 경우 현재 대상 형식 편집은 지원되지 않습니다.

이진 파일을 파일 형식으로 선택하는 경우 매핑이 지원되지 않습니다.

설정

설정 탭 구성의 경우 설정으로 이동합니다.

표 요약

다음 표에는 Lakehouse의 복사 활동에 대한 자세한 정보가 포함되어 있습니다.

원본 정보

이름 설명 필수 JSON 스크립트 속성
연결 연결을 선택하는 섹션입니다. < 레이크하우스 연결> workspaceId
artifactId
루트 폴더 루트 폴더의 형식입니다. 테이블
파일
아니요 rootFolder:
테이블 또는 파일
테이블 이름 데이터를 읽을 테이블의 이름입니다. <테이블 이름> 루트 폴더에서 테이블을 선택할 때 예 테이블
테이블 스키마가 있는 Lakehouse를 연결로 적용할 때 데이터를 읽으려는 스키마가 있는 테이블의 이름입니다. <스키마가 있는 테이블> 루트 폴더에서 테이블을 선택할 때 예 /
테이블의 경우
스키마 이름 스키마의 이름입니다. <스키마 이름>
(기본값은 dbo입니다.)
아니요 (source ->datasetSettings ->typeProperties)
스키마
테이블 이름 테이블의 이름입니다. <테이블 이름> 테이블
Timestamp 이전 스냅샷을 쿼리하기 위한 타임스탬프입니다. <timestamp> 아니요 timestampAsOf
버전 이전 스냅샷을 쿼리할 버전입니다. <version> 아니요 versionAsOf
추가 열 원본 파일의 상대 경로 또는 정적 값을 저장할 추가 데이터 열입니다. 식은 정적 값에 대해 지원됩니다. • 이름
• 값
아니요 additionalColumns:
• 이름
• 값
파일 경로 유형 사용하는 파일 경로의 형식입니다. 파일 경로
와일드카드 파일 경로
파일 목록
루트 폴더에서 파일을 선택할 때 예 /
파일 경로 원본 데이터 저장소 아래의 폴더/파일로 경로에서 복사합니다. <파일 경로> 파일 경로를 선택할 때 예 • folderPath
• fileName
와일드카드 경로 원본 폴더를 필터링하도록 구성된 원본 데이터 저장소 아래에 와일드카드 문자가 포함된 폴더 경로입니다. <와일드카드 경로> 와일드카드 파일 경로를 선택할 때 예 • wildcardFolderPath
• wildcardFileName
폴더 경로 복사할 파일이 포함된 폴더를 가리킵니다. <폴더 경로> 아니요 folderPath
파일 목록 경로 지정된 파일 집합을 복사하도록 지정합니다. 복사할 파일 목록이 포함된 텍스트 파일을 한 줄에 한 파일씩, 구성된 경로의 상대 경로인 텍스트 파일을 가리킵니다. <파일 목록 경로> 아니요 fileListPath
재귀적 입력 폴더와 해당 하위 폴더의 모든 파일을 재귀적으로 처리하거나 선택한 폴더에 있는 파일만 처리합니다. 단일 파일을 선택하면 이 설정을 사용할 수 없습니다. 선택 또는 선택 취소 아니요 재귀:
true 또는 false
파일 형식 원본 데이터의 파일 형식입니다. 다른 파일 형식의 정보에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요. / 루트 폴더에서 파일을 선택할 때 예 /
마지막으로 수정한 시간으로 필터링 마지막으로 수정된 시간이 [시작 시간, 종료 시간) 범위 내에 있는 파일은 추가 처리를 위해 필터링됩니다.

시간은 UTC 표준 시간대에 yyyy-mm-ddThh:mm:ss.fffZ 형식으로 적용됩니다.

이 속성을 건너뛸 수 있습니다. 즉, 파일 특성 필터가 적용되지 않습니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
시작 시간
종료 시간
아니요 modifiedDatetimeStart
modifiedDatetimeEnd
파티션 검색 사용 파일 경로에서 파티션을 구문 분석하여 추가 소스 열로 추가할지 여부를 나타냅니다. 선택되었거나 선택 취소됨 아니요 enablePartitionDiscovery:
true 또는 false(기본값)
파티션 루트 경로 파티션이 분할된 폴더를 데이터 열로 읽을 수 있는 절대 파티션 루트 경로입니다. < 파티션 루트 경로 > 아니요 partitionRootPath
최대 동시 연결 수 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 이 값은 동시 연결을 제한하려는 경우에만 필요합니다. <최대 동시 연결 수> 아니요 maxConcurrentConnections

대상 정보

이름 설명 필수 JSON 스크립트 속성
연결 연결을 선택하는 섹션입니다. < 레이크하우스 연결> workspaceId
artifactId
루트 폴더 루트 폴더의 형식입니다. 테이블
파일
rootFolder:
테이블 또는 파일
테이블 이름 데이터를 기록할 테이블의 이름입니다. <테이블 이름> 루트 폴더에서 테이블을 선택할 때 예 테이블
테이블 스키마를 연결로 사용하여 Lakehouse를 적용할 때 데이터를 쓰려는 스키마가 있는 테이블의 이름입니다. <스키마가 있는 테이블> 루트 폴더에서 테이블을 선택할 때 예 /
테이블의 경우
스키마 이름 스키마의 이름입니다. <스키마 이름>
(기본값은 dbo입니다.)
아니요 (sink ->datasetSettings ->typeProperties)
스키마
테이블 이름 테이블의 이름입니다. <테이블 이름> 테이블
테이블 작업 기존 테이블에 새 값을 추가하거나 새 값을 사용하여 테이블의 기존 데이터 및 스키마를 덮어씁니다. 추가
덮어쓰기
아니요 tableActionOption:
Append 또는 OverwriteSchema
파티션 사용 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다. 선택되었거나 선택 취소됨 아니요 partitionOption:
PartitionByKey 또는 없음
파티션 열 스키마 매핑의 대상 열입니다. < 파티션 열> 아니요 파티션 이름 목록
파일 경로 대상 데이터 저장소 아래의 폴더/파일 경로에 데이터를 씁니다. <파일 경로> 아니요 • folderPath
• fileName
파일 형식 대상 데이터의 파일 형식입니다. 다른 파일 형식의 정보에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요. / 루트 폴더에서 파일을 선택할 때 예 /
복사 동작 원본이 파일 기반 데이터 저장소의 파일인 경우 복사 동작을 정의합니다. 계층 구조 평면화
파일 병합
계층 구조 유지
동적 콘텐츠 추가
아니요 copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
최대 동시 연결 수 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. <최대 동시 연결 수> 아니요 maxConcurrentConnections
블록 크기(MB) Lakehouse에 데이터를 쓰는 데 사용되는 블록 크기(MB)입니다. 허용되는 값은 4~100MB입니다. <블록 크기> 아니요 blockSizeInMB
메타데이터 대상으로 복사할 때 설정되는 사용자 지정 메타데이터입니다. $$LASTMODIFIED
• 식
• 고정 값
아니요 metadata