복사 작업에서 Lakehouse 구성
이 문서에서는 데이터 파이프라인의 복사 작업을 사용하여 Fabric Lakehouse에서 데이터를 복사하는 방법을 간략하게 설명합니다. 기본적으로 데이터는 V-Order로 Lakehouse 테이블에 기록되며 자세한 내용은 Delta Lake 테이블 최적화 및 V-Order를 참조하세요.
지원되는 형식
Lakehouse는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.
- Avro 형식
- 이진 형식
- 구분된 텍스트 형식
- Excel 형식
- JSON 형식
- ORC 형식
- Parquet 형식
- XML 형식
지원되는 구성
복사 작업에서 각 탭의 구성에 대해 각각 다음 섹션으로 이동합니다.
일반
일반 탭 구성의 경우 일반으로 이동합니다.
Source
복사 작업의 원본 탭에서 Lakehouse에 대해 지원되는 속성은 다음과 같습니다.
다음 속성이 필요합니다.
데이터 저장소 유형: 작업 영역을 선택합니다.
작업 영역 데이터 저장소 형식: 데이터 저장소 형식 목록에서 Lakehouse를 선택합니다.
레이크하우스: 작업 영역에서 기존 레이크하우스를 선택합니다. 없는 경우 새로 만들기를 선택하여 새 Lakehouse를 만듭니다. 동적 콘텐츠 추가를 사용하여 Lakehouse를 지정하는 경우 매개 변수를 추가하고 Lakehouse 개체 ID를 매개 변수 값으로 지정합니다. Lakehouse 개체 ID를 가져오려면 작업 영역에서 Lakehouse를 열고 ID는 URL의 뒤
/lakehouses/
입니다.루트 폴더: 레이크에서 관리되거나 관리되지 않는 영역의 가상 보기를 나타내는 테이블 또는 파일을 선택합니다. 자세한 내용은 Lakehouse 소개를 참조하세요.
- 테이블을 선택하는 경우:
- 테이블 이름: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 원본으로 지정합니다.
- 고급에서 다음 필드를 지정할 수 있습니다.
- 타임스탬프: 타임스탬프별로 이전 스냅샷 쿼리하도록 지정합니다.
- 버전: 버전별로 이전 스냅샷 쿼리하도록 지정합니다.
- 추가 열: 저장소 원본 파일의 상대 경로 또는 정적 값에 추가 데이터 열을 추가합니다. 식은 후자에 대해 지원됩니다.
- 파일을 선택하는 경우:
파일 경로 형식: 파일 경로, Wild카드 파일 경로 또는 파일 목록을 파일 경로 형식으로 선택할 수 있습니다. 다음 목록에서는 각 설정의 구성을 설명합니다.
파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 채웁니다.
Wild카드 파일 경로: 지정된 Lakehouse 관리되지 않는 영역(파일 아래)에서 와일드카드 문자로 폴더 또는 파일 경로를 지정하여 원본 폴더 또는 파일을 필터링합니다. 허용되는 와일드카드는
*
(문자 0자 이상 일치) 및?
(문자 0자 또는 1자 일치)입니다. 폴더 또는 파일 이름에 wild카드 또는 이 이스케이프 문자가 있는 경우 이스케이프하는 데 사용합니다^
.파일 목록: 지정된 파일 집합을 복사하도록 나타냅니다.
- 폴더 경로: 복사할 파일이 포함된 폴더를 가리킵니다.
- 파일 목록의 경로: 복사할 파일 목록이 포함된 텍스트 파일, 구성된 파일 경로의 상대 경로인 한 줄당 하나의 파일을 가리킵니다.
재귀: 데이터를 하위 폴더에서 재귀적으로 읽는지 또는 지정된 폴더에서만 읽는지 여부를 나타냅니다. 사용하도록 설정하면 입력 폴더 및 해당 하위 폴더의 모든 파일이 재귀적으로 처리됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
파일 형식: 드롭다운 목록에서 파일 형식을 선택합니다. 설정 단추를 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요.
고급에서 다음 필드를 지정할 수 있습니다.
- 마지막으로 수정한 날짜별로 필터링: 파일은 마지막으로 수정된 날짜를 기준으로 필터링됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
- 시작 시간: 마지막으로 수정한 시간이 구성된 시간보다 크거나 같은 경우 파일이 선택됩니다.
- 종료 시간: 마지막으로 수정한 시간이 구성된 시간보다 작은 경우 파일이 선택됩니다.
- 파티션 검색 사용: 분할된 파일의 경우 파일 경로에서 파티션을 구문 분석하고 추가 원본 열로 추가할지 여부를 지정합니다.
- 파티션 루트 경로: 파티션 검색을 사용하는 경우 분할된 폴더를 데이터 열로 읽기 위해 절대 루트 경로를 지정합니다.
- 최대 동시 연결: 작업 실행 중에 데이터 저장소에 설정된 동시 연결의 상한을 나타냅니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.
- 마지막으로 수정한 날짜별로 필터링: 파일은 마지막으로 수정된 날짜를 기준으로 필터링됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
- 테이블을 선택하는 경우:
대상
복사 작업의 대상 탭에서 Lakehouse에 대해 지원되는 속성은 다음과 같습니다.
다음 속성이 필요합니다.
데이터 저장소 유형: 작업 영역을 선택합니다.
작업 영역 데이터 저장소 형식: 데이터 저장소 형식 목록에서 Lakehouse를 선택합니다.
레이크하우스: 작업 영역에서 기존 레이크하우스를 선택합니다. 없는 경우 새로 만들기를 선택하여 새 Lakehouse를 만듭니다. 동적 콘텐츠 추가를 사용하여 Lakehouse를 지정하는 경우 매개 변수를 추가하고 Lakehouse 개체 ID를 매개 변수 값으로 지정합니다. Lakehouse 개체 ID를 가져오려면 작업 영역에서 Lakehouse를 열고 ID는 URL의 뒤
/lakehouses/
입니다.루트 폴더: 레이크에서 관리되거나 관리되지 않는 영역의 가상 보기를 나타내는 테이블 또는 파일을 선택합니다. 자세한 내용은 Lakehouse 소개를 참조하세요.
테이블을 선택하는 경우:
테이블 이름: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 대상으로 지정합니다.
고급에서 다음 필드를 지정할 수 있습니다.
- 파일당 최대 행 수: Lakehouse에 데이터를 쓸 때 파일당 최대 행을 지정합니다.
- 테이블 작업: 선택한 테이블에 대한 작업을 지정합니다.
- 추가: 기존 테이블에 새 값을 추가합니다.
- 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
- 파티션 열 이름: 새 테이블에 데이터를 추가할 때 스키마 매핑의 대상 열에서 선택합니다. 이미 파티션이 있는 기존 테이블에 데이터를 추가하면 파티션 열이 자동으로 기존 테이블에서 파생됩니다. 지원되는 데이터 형식은 문자열, 정수, 부울 및 datetime입니다. 서식은 매핑 탭 아래의 형식 변환 설정을 적용합니다.
- 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
- 덮어쓰기: 새 값을 사용하여 테이블의 기존 데이터 및 스키마를 덮어씁 수 있습니다. 이 작업을 선택하면 대상 테이블에서 파티션을 사용하도록 설정할 수 있습니다.
- 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
- 파티션 열 이름: 스키마 매핑의 대상 열에서 선택합니다. 지원되는 데이터 형식은 문자열, 정수, 부울 및 datetime입니다. 서식은 매핑 탭 아래의 형식 변환 설정을 적용합니다.
- 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
- 추가: 기존 테이블에 새 값을 추가합니다.
- 최대 동시 연결: 작업 실행 중에 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.
파일을 선택하는 경우:
파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 채웁니다.
파일 형식: 드롭다운 목록에서 파일 형식을 선택합니다. 설정 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요.
고급에서 다음 필드를 지정할 수 있습니다.
복사 동작: 원본이 파일 기반 데이터 저장소의 파일인 경우 복사 동작을 정의합니다. 동적 콘텐츠 추가, 없음, 평면화 계층 구조 또는 계층 유지를 복사 동작으로 선택할 수 있습니다. 각 설정의 구성은 다음과 같습니다.
동적 콘텐츠 추가: 속성 값에 대한 식을 지정하려면 동적 콘텐츠 추가를 선택합니다. 이 필드는 지원되는 시스템 변수, 활동 출력, 함수 및 사용자 지정 변수 또는 매개 변수에서 식을 작성할 수 있는 식 작성기를 엽니다. 식 언어에 대한 자세한 내용은 식 및 함수로 이동합니다.
없음: 복사 동작을 사용하지 않려면 이 선택 항목을 선택합니다.
평면화 계층 구조: 원본 폴더의 모든 파일은 대상 폴더의 첫 번째 수준에 있습니다. 대상 파일에는 자동으로 생성된 이름이 있습니다.
계층 유지: 대상 폴더의 파일 계층 구조를 유지합니다. 원본 폴더에 대한 원본 파일의 상대 경로는 대상 폴더에 대한 대상 파일의 상대 경로와 동일합니다.
최대 동시 연결: 작업 실행 중에 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.
블록 크기(MB): Lakehouse에 데이터를 쓸 때 블록 크기를 MB 단위로 지정합니다. 허용되는 값은 4~100MB입니다.
메타데이터: 대상 데이터 저장소로 복사할 때 사용자 지정 메타데이터를 설정합니다.
metadata
배열의 각 개체는 추가 열을 나타냅니다.name
은 메타데이터 키 이름을 정의하고value
는 해당 키의 데이터 값을 나타냅니다. 특성 유지 기능을 사용하는 경우 지정된 메타데이터는 원본 파일 메타데이터와 통합/덮어씁니다. 허용되는 데이터 값은 다음과 같습니다.
매핑
매핑 탭 구성의 경우 Lakehouse 테이블을 대상 데이터 저장소로 적용하지 않으면 매핑으로 이동합니다.
매핑의 구성을 제외하고 Lakehouse 테이블을 대상 데이터 저장소로 적용하는 경우 대상 열의 형식을 편집할 수 있습니다. 스키마 가져오기를 선택한 후 대상에서 열 형식을 지정할 수 있습니다.
예를 들어 원본의 PersonID 열 형식은 int이며 대상 열에 매핑할 때 문자열 형식으로 변경할 수 있습니다.
참고 항목
원본이 10진수 형식인 경우 현재 대상 형식 편집은 지원되지 않습니다.
이진 파일을 파일 형식으로 선택하는 경우 매핑이 지원되지 않습니다.
설정
설정 탭 구성의 경우 설정 이동합니다.
테이블 요약
다음 표에는 Lakehouse의 복사 활동에 대한 자세한 정보가 포함되어 있습니다.
원본 정보
속성 | 설명 | 값 | Required | JSON 스크립트 속성 |
---|---|---|---|---|
데이터 저장소 유형 | 데이터 저장소 유형입니다. | 작업 영역 | 예 | / |
작업 영역 데이터 저장소 유형 | 작업 영역 데이터 저장소 유형을 선택할 섹션입니다. | 레이크하우스 | 예 | type |
레이크하우스 | 소스로 사용하는 레이크하우스입니다. | <레이크하우스> | 예 | workspaceId artifactId |
루트 폴더 | 루트 폴더의 형식입니다. | * 테이블 * 파일 |
아니요 | rootFolder: 테이블 또는 파일 |
테이블 이름 | 데이터를 읽을 테이블의 이름입니다. | <테이블 이름> | 루트 폴더에서 테이블을 선택할 때 예 | 테이블 (under typeProperties ->source ->typeProperties ) |
Timestamp | 이전 스냅샷을 쿼리하기 위한 타임스탬프입니다. | <timestamp> | 아니요 | timestampAsOf |
버전 | 이전 스냅샷을 쿼리할 버전입니다. | <version> | 아니요 | versionAsOf |
추가 열 | 원본 파일의 상대 경로 또는 정적 값을 저장할 추가 데이터 열입니다. 식은 후자에 대해 지원됩니다. | *이름 *값 |
아니요 | additionalColumns: *이름 *값 |
파일 경로 형식 | 사용하는 파일 경로의 형식입니다. | * 파일 경로 * Wild카드 파일 경로 * 파일 목록 |
예 | / |
파일 경로 | 원본 데이터 저장소 아래의 폴더/파일로 경로에서 복사합니다. 파일 경로 형식에서 파일 경로를 선택할 때 적용합니다. | <파일 경로> | 파일 경로를 선택할 때 예 | * folderPath *파일 |
Wild카드 경로 | 원본 폴더를 필터링하도록 구성된 원본 데이터 저장소 아래에 와일드카드 문자가 있는 폴더 경로입니다. 파일 경로 형식에서 Wild카드 파일 경로를 선택할 때 적용합니다. | <wild카드 경로> | 예: Wild카드 파일 경로를 선택할 때 | * wild카드FolderPath * wild카드FileName |
폴더 경로 | 복사할 파일이 포함된 폴더를 가리킵니다. 파일 경로 형식의 파일목록을 선택할 때 적용합니다. | <폴더 경로> | 아니요 | folderPath |
파일 목록의 경로 | 지정된 파일 집합을 복사하도록 지정합니다. 복사할 파일 목록이 포함된 텍스트 파일, 구성된 경로의 상대 경로인 한 줄당 하나의 파일을 가리킵니다. 파일 경로 형식의 파일목록을 선택할 때 적용합니다. | <파일 목록 경로> | 아니요 | fileListPath |
반복적 으로 | 입력 폴더와 해당 하위 폴더의 모든 파일을 재귀적으로 처리하거나 선택한 폴더에 있는 파일만 처리합니다. 단일 파일을 선택하면 이 설정을 사용할 수 없습니다. | 선택 또는 선택 취소 | 아니요 | 재귀: true 또는 false |
파일 형식 | 사용하는 파일의 형식입니다. | <파일 형식> | 예 | 형식(아래 formatSettings ):DelimitedTextRead설정 |
마지막으로 수정한 기준 필터링 | [시작 시간, 종료 시간) 범위에서 마지막으로 수정된 시간이 있는 파일은 추가 처리를 위해 필터링됩니다. 시간은 UTC 표준 시간대에 적용됩니다 yyyy-mm-ddThh:mm:ss.fffZ .이 속성을 건너뛸 수 있습니다. 즉, 파일 특성 필터가 적용되지 않습니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다. |
* 시작 시간 * 종료 시간 |
아니요 | modifiedDatetimeStart modifiedDatetimeEnd |
파티션 검색 사용 | 파일 경로에서 파티션을 구문 분석하고 추가 원본 열로 추가할지 여부입니다. | 선택되었거나 선택 취소됨 | 아니요 | enablePartitionDiscovery: true 또는 false(기본값) |
파티션 루트 경로 | 분할된 폴더를 데이터 열로 읽는 절대 파티션 루트 경로입니다. | <파티션 루트 경로> | 아니요 | partitionRootPath |
최대 동시 연결 | 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값이 필요합니다. | <최대 동시 연결> | 아니요 | maxConcurrentConnections |
대상 정보
속성 | 설명 | 값 | Required | JSON 스크립트 속성 |
---|---|---|---|---|
데이터 저장소 유형 | 데이터 저장소 유형입니다. | 작업 영역 | 예 | / |
작업 영역 데이터 저장소 유형 | 작업 영역 데이터 저장소 유형을 선택할 섹션입니다. | 레이크하우스 | 예 | type |
레이크하우스 | 대상으로 사용하는 레이크하우스입니다. | <레이크하우스> | 예 | workspaceId artifactId |
루트 폴더 | 루트 폴더의 형식입니다. | * 테이블 * 파일 |
예 | rootFolder: 테이블 또는 파일 |
테이블 이름 | 데이터를 쓰려는 테이블의 이름입니다. | <테이블 이름> | 루트 폴더에서 테이블을 선택할 때 예 | 테이블 (under typeProperties ->sink ->typeProperties ) |
파일당 최대 행 수 | 폴더에 데이터를 쓸 때 여러 파일에 쓰도록 선택하고 파일당 최대 행 수를 지정할 수 있습니다. | <flie당 최대 행 수> | 아니요 | maxRowsPerFile |
테이블 작업 | 기존 테이블에 새 값을 추가하거나 새 값을 사용하여 테이블의 기존 데이터 및 스키마를 덮어씁니다. | * Append * Overwrite |
아니요 | tableActionOption: 추가 또는 덮어쓰기 |
최대 동시 연결 | 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. | <최대 동시 연결> | 아니요 | maxConcurrentConnections |
파일 경로 | 대상 데이터 저장소 아래의 폴더/파일 경로에 데이터를 씁니다. | <파일 경로> | 아니요 | * folderPath *파일 |
파일 형식 | 사용하는 파일의 형식입니다. | <파일 형식> | 예 | 형식(아래 formatSettings ):DelimitedTextWrite설정 |
복사 동작 | 원본이 파일 기반 데이터 저장소의 파일일 때 정의된 복사 동작입니다. | * 동적 콘텐츠 추가 * 없음 * 평면 계층 구조 * 계층 유지 |
아니요 | copyBehavior: * FlattenHierarchy * PreserveHierarchy |
블록 크기(MB) | Lakehouse에 데이터를 쓰는 데 사용되는 블록 크기(MB)입니다. 허용되는 값은 4~100MB입니다. | <블록 크기> | 아니요 | blockSizeInMB |
메타데이터 | 대상으로 복사할 때 설정되는 사용자 지정 메타데이터입니다. | * $$LASTMODIFIED *식 * 정적 값 |
아니요 | metadata |
관련 콘텐츠
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기