복사 작업에서 Lakehouse 구성
이 문서에서는 데이터 파이프라인에서 복사 활동을 사용하여 KQL Database에서 데이터를 복사하고 Fabric Lakehouse로 데이터를 복사하는 방법에 대해 설명합니다. 기본적으로 데이터는 V-Order로 Lakehouse 테이블에 기록되며 자세한 내용은 Delta Lake 테이블 최적화 및 V-Order를 참조하세요.
지원되는 형식
Lakehouse는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.
지원되는 구성
복사 작업 아래의 각 탭을 구성하려면 각각 다음 섹션으로 이동합니다.
일반
일반 탭을 구성하려면 일반으로 이동합니다.
원본
복사 작업의 원본 탭에서 Lakehouse에 대해 지원되는 속성은 다음과 같습니다.
다음 속성은 필수입니다.
연결: 연결 목록에서 Lakehouse 연결을 선택합니다. 연결이 없으면 연결 목록 맨 아래에서 자세히를 선택하여 새 Lakehouse 연결을 만듭니다. 동적 콘텐츠 사용을 적용하여 Lakehouse를 지정하는 경우 매개 변수를 추가하고 매개 변수 값으로 Lakehouse 개체 ID를 지정합니다. Lakehouse 개체 ID를 얻으려면 작업 영역에서 Lakehouse를 열고 URL의
/lakehouses/
뒤에 ID를 입력합니다.루트 폴더: 레이크에서 관리되거나 관리되지 않는 영역의 가상 보기를 나타내는 테이블 또는 파일을 선택합니다. 자세한 내용은 Lakehouse 소개를 참조하세요.
테이블을 선택한 경우:
테이블 이름: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 원본으로 지정합니다. 또는 새로 만들기를 선택하여 새 테이블을 만들 수 있습니다.
테이블: 연결에 스키마가 있는 Lakehouse를 적용하는 경우 테이블 목록에서 스키마가 있는 기존 테이블을 선택하거나 스키마가 있는 테이블을 원본으로 지정합니다. 또는 새로 만들기를 선택하여 스키마를 사용하여 새 테이블을 만들 수 있습니다. 스키마 이름을 지정하지 않으면 서비스는 dbo를 기본 스키마로 사용합니다.
고급에서 다음 필드를 지정할 수 있습니다.
- 타임스탬프: 타임스탬프별로 이전 스냅샷을 쿼리하도록 지정합니다.
- 버전: 버전별로 이전 스냅샷을 쿼리하도록 지정합니다.
- 추가 열: 데이터 열을 추가하여 원본 파일의 상대 경로 또는 정적 값을 저장하세요. 식은 정적 값에 대해 지원됩니다.
리더 버전 1이 지원됩니다. 이 문서에서 지원되는 해당 Delta Lake 기능을 찾을 수 있습니다.
파일을 선택한 경우:
파일 경로 유형: 파일 경로 유형으로 파일 경로, 와일드카드 파일 경로 또는 파일 목록을 선택할 수 있습니다. 다음 목록에서는 각 설정의 구성에 대해 설명합니다.
파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 채웁니다.
와일드카드 파일 경로: 지정된 Lakehouse 관리되지 않는 영역(파일 아래)에서 와일드카드 문자를 사용하여 폴더 또는 파일 경로를 지정하여 원본 폴더 또는 파일을 필터링합니다. 허용되는 와일드카드는
*
(문자 0자 이상 일치) 및?
(문자 0자 또는 1자 일치)입니다. 폴더 또는 파일 이름에 와일드카드 또는 이 이스케이프 문자가 있는 경우^
을(를) 사용하여 이스케이프합니다.파일 목록: 지정된 파일 집합을 복사하도록 지정합니다.
- 폴더 경로: 복사할 파일이 포함된 폴더를 가리킵니다.
- 파일 목록 경로: 복사할 파일 목록이 포함된 텍스트 파일을 한 줄에 한 파일씩, 구성된 파일 경로의 상대 경로인 텍스트 파일을 가리킵니다.
재귀적: 데이터를 하위 폴더에서 재귀적으로 읽을지, 아니면 지정된 폴더에서만 읽을지를 나타냅니다. 사용하도록 설정하면 입력 폴더 및 해당 하위 폴더의 모든 파일이 재귀적으로 처리됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
파일 형식: 드롭다운 목록에서 파일 형식을 선택합니다. 설정 버튼을 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요.
고급에서 다음 필드를 지정할 수 있습니다.
- 마지막으로 수정한 날짜별로 필터링: 파일은 마지막으로 수정한 날짜를 기준으로 필터링됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
- 시작 시간: 마지막으로 수정한 시간이 구성된 시간보다 크거나 같은 경우 파일이 선택됩니다.
- 종료 시간: 마지막으로 수정한 시간이 구성된 시간보다 작은 경우 파일이 선택됩니다.
- 파티션 검색 사용: 파티션이 있는 파일의 경우, 파일 경로에서 파티션을 구문 분석하여 추가 원본 열로 추가할지 여부를 지정합니다.
- 파티션 루트 경로: 파티션 검색을 사용하는 경우 분할된 폴더를 데이터 열로 읽도록 절대 루트 경로를 지정합니다.
- 최대 동시 연결: 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.
- 마지막으로 수정한 날짜별로 필터링: 파일은 마지막으로 수정한 날짜를 기준으로 필터링됩니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다.
대상
복사 작업의 대상 탭에서 Lakehouse에 대해 지원되는 속성은 다음과 같습니다.
다음 속성은 필수입니다.
연결: 연결 목록에서 Lakehouse 연결을 선택합니다. 연결이 없으면 연결 목록 맨 아래에서 자세히를 선택하여 새 Lakehouse 연결을 만듭니다. 동적 콘텐츠 사용을 적용하여 Lakehouse를 지정하는 경우 매개 변수를 추가하고 매개 변수 값으로 Lakehouse 개체 ID를 지정합니다. Lakehouse 개체 ID를 얻으려면 작업 영역에서 Lakehouse를 열고 URL의
/lakehouses/
뒤에 ID를 입력합니다.루트 폴더: 레이크에서 관리되거나 관리되지 않는 영역의 가상 보기를 나타내는 테이블 또는 파일을 선택합니다. 자세한 내용은 Lakehouse 소개를 참조하세요.
테이블을 선택한 경우:
테이블 이름: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 대상으로 지정합니다. 또는 새로 만들기를 선택하여 새 테이블을 만들 수 있습니다.
테이블: 연결에 스키마가 있는 Lakehouse를 적용하는 경우 테이블 목록에서 스키마가 있는 기존 테이블을 선택하거나 스키마가 있는 테이블을 대상으로 지정합니다. 또는 새로 만들기를 선택하여 스키마를 사용하여 새 테이블을 만들 수 있습니다. 스키마 이름을 지정하지 않으면 서비스는 dbo를 기본 스키마로 사용합니다.
고급에서 다음 필드를 지정할 수 있습니다.
테이블 작업: 선택한 테이블에 대한 작업을 지정합니다.
추가: 기존 테이블에 새 값을 추가합니다.
- 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
- 파티션 열 이름: 새 테이블에 데이터를 추가할 때 스키마 매핑의 대상 열에서 선택합니다. 이미 파티션이 있는 기존 테이블에 데이터를 추가하면 파티션 열이 자동으로 기존 테이블에서 파생됩니다. 지원되는 데이터 유형은 문자열, 정수, 부울 및 날짜/시간입니다. 형식은 매핑 탭의 형식 변환 설정을 따릅니다.
- 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
덮어쓰기: 새 값을 사용하여 테이블의 기존 데이터와 스키마를 덮어씁니다. 이 작업을 선택하면 대상 테이블에서 파티션을 사용하도록 설정할 수 있습니다.
- 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
- 파티션 열 이름: 스키마 매핑의 대상 열에서 선택합니다. 지원되는 데이터 유형은 문자열, 정수, 부울 및 날짜/시간입니다. 형식은 매핑 탭의 형식 변환 설정을 따릅니다.
Delta Lake 시간 이동을 지원합니다. 덮어쓴 테이블에는 Lakehouse에서 액세스할 수 있는 이전 버전에 대한 델타 로그가 있습니다. 복사 작업 원본에서 버전을 지정하여 Lakehouse에서 이전 버전 테이블을 복사할 수도 있습니다.
- 파티션 사용: 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다.
최대 동시 연결: 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.
라이터 버전 2가 지원됩니다. 이 문서에서 지원되는 해당 Delta Lake 기능을 찾을 수 있습니다.
파일을 선택한 경우:
파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 채웁니다.
파일 형식: 드롭다운 목록에서 파일 형식을 선택합니다. 설정을 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요.
고급에서 다음 필드를 지정할 수 있습니다.
복사 동작: 원본이 파일 기반 데이터 저장소의 파일인 경우의 복사 동작을 정의합니다. 계층 구조 평면화, 파일 병합, 계층 유지 또는 동적 콘텐츠 추가를 복사 동작으로 선택할 수 있습니다. 각 설정의 구성은 다음과 같습니다.
계층 평탄화: 소스 폴더의 모든 파일이 대상 폴더의 최상위 레벨에 저장됩니다. 대상 파일에는 자동 생성된 이름이 있습니다.
파일 병합: 원본 폴더의 모든 파일을 하나의 파일로 병합합니다. 파일 이름이 지정된 경우 병합되는 파일 이름은 지정된 이름입니다. 그렇지 않으면 자동 생성되는 파일 이름이 적용됩니다.
계층 유지: 대상 폴더에서 파일의 계층 구조를 그대로 유지합니다. 원본 폴더의 원본 파일 상대 경로는 대상 폴더의 대상 파일 상대 경로와 동일합니다.
동적 콘텐츠 추가: 속성 값에 대한 식을 지정하려면 동적 콘텐츠 추가를 선택합니다. 그러면 지원되는 시스템 변수, 작업 출력, 함수 및 사용자가 지정한 변수 또는 매개 변수에서 식을 빌드할 수 있는 식 작성기가 열립니다. 식 언어에 대한 자세한 내용은 식 및 함수로 이동합니다.
최대 동시 연결: 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.
블록 크기(MB): Lakehouse에 데이터를 쓸 때 블록 크기를 MB 단위로 지정합니다. 허용되는 값은 4~100MB입니다.
메타데이터: 대상 데이터 저장소로 복사할 때 사용자 지정 메타데이터를 설정합니다.
metadata
배열의 각 개체는 추가 열을 나타냅니다.name
은 메타데이터 키 이름을 정의하고value
는 해당 키의 데이터 값을 나타냅니다. 특성 유지 기능을 사용하는 경우 지정된 메타데이터는 원본 파일 메타데이터와 통합/덮어씁니다. 허용되는 데이터 값은 다음과 같습니다.
매핑
매핑 탭 구성의 경우 Lakehouse 테이블을 대상 데이터 저장소로 적용하지 않으면 매핑으로 이동합니다.
매핑의 구성을 제외하고 Lakehouse 테이블을 대상 데이터 저장소로 적용하는 경우 대상 열의 형식을 편집할 수 있습니다. 스키마 가져오기를 선택한 후 대상에서 열 형식을 지정할 수 있습니다.
예를 들어, 원본의 PersonID 열 형식은 int이며 대상 열에 매핑할 때 문자열 형식으로 변경할 수 있습니다.
참고 항목
원본이 10진수 형식인 경우 현재 대상 형식 편집은 지원되지 않습니다.
이진 파일을 파일 형식으로 선택하는 경우 매핑이 지원되지 않습니다.
설정
설정 탭 구성의 경우 설정으로 이동합니다.
표 요약
다음 표에는 Lakehouse의 복사 활동에 대한 자세한 정보가 포함되어 있습니다.
원본 정보
이름 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
연결 | 연결을 선택하는 섹션입니다. | < 레이크하우스 연결> | 예 | workspaceId artifactId |
루트 폴더 | 루트 폴더의 형식입니다. | • 테이블 • 파일 |
아니요 | rootFolder: 테이블 또는 파일 |
테이블 이름 | 데이터를 읽을 테이블의 이름입니다. | <테이블 이름> | 루트 폴더에서 테이블을 선택할 때 예 | 테이블 |
테이블 | 스키마가 있는 Lakehouse를 연결로 적용할 때 데이터를 읽으려는 스키마가 있는 테이블의 이름입니다. | <스키마가 있는 테이블> | 루트 폴더에서 테이블을 선택할 때 예 | / |
테이블의 경우 | ||||
스키마 이름 | 스키마의 이름입니다. | <스키마 이름> (기본값은 dbo입니다.) |
아니요 | (source ->datasetSettings ->typeProperties )스키마 |
테이블 이름 | 테이블의 이름입니다. | <테이블 이름> | 예 | 테이블 |
Timestamp | 이전 스냅샷을 쿼리하기 위한 타임스탬프입니다. | <timestamp> | 아니요 | timestampAsOf |
버전 | 이전 스냅샷을 쿼리할 버전입니다. | <version> | 아니요 | versionAsOf |
추가 열 | 원본 파일의 상대 경로 또는 정적 값을 저장할 추가 데이터 열입니다. 식은 정적 값에 대해 지원됩니다. | • 이름 • 값 |
아니요 | additionalColumns: • 이름 • 값 |
파일 경로 유형 | 사용하는 파일 경로의 형식입니다. | • 파일 경로 • 와일드카드 파일 경로 • 파일 목록 |
루트 폴더에서 파일을 선택할 때 예 | / |
파일 경로 | 원본 데이터 저장소 아래의 폴더/파일로 경로에서 복사합니다. | <파일 경로> | 파일 경로를 선택할 때 예 | • folderPath • fileName |
와일드카드 경로 | 원본 폴더를 필터링하도록 구성된 원본 데이터 저장소 아래에 와일드카드 문자가 포함된 폴더 경로입니다. | <와일드카드 경로> | 와일드카드 파일 경로를 선택할 때 예 | • wildcardFolderPath • wildcardFileName |
폴더 경로 | 복사할 파일이 포함된 폴더를 가리킵니다. | <폴더 경로> | 아니요 | folderPath |
파일 목록 경로 | 지정된 파일 집합을 복사하도록 지정합니다. 복사할 파일 목록이 포함된 텍스트 파일을 한 줄에 한 파일씩, 구성된 경로의 상대 경로인 텍스트 파일을 가리킵니다. | <파일 목록 경로> | 아니요 | fileListPath |
재귀적 | 입력 폴더와 해당 하위 폴더의 모든 파일을 재귀적으로 처리하거나 선택한 폴더에 있는 파일만 처리합니다. 단일 파일을 선택하면 이 설정을 사용할 수 없습니다. | 선택 또는 선택 취소 | 아니요 | 재귀: true 또는 false |
파일 형식 | 원본 데이터의 파일 형식입니다. 다른 파일 형식의 정보에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요. | / | 루트 폴더에서 파일을 선택할 때 예 | / |
마지막으로 수정한 시간으로 필터링 | 마지막으로 수정된 시간이 [시작 시간, 종료 시간) 범위 내에 있는 파일은 추가 처리를 위해 필터링됩니다. 시간은 UTC 표준 시간대에 yyyy-mm-ddThh:mm:ss.fffZ 형식으로 적용됩니다.이 속성을 건너뛸 수 있습니다. 즉, 파일 특성 필터가 적용되지 않습니다. 파일 경로 형식을 파일 목록으로 구성할 때는 이 속성이 적용되지 않습니다. |
• 시작 시간 • 종료 시간 |
아니요 | modifiedDatetimeStart modifiedDatetimeEnd |
파티션 검색 사용 | 파일 경로에서 파티션을 구문 분석하여 추가 소스 열로 추가할지 여부를 나타냅니다. | 선택되었거나 선택 취소됨 | 아니요 | enablePartitionDiscovery: true 또는 false(기본값) |
파티션 루트 경로 | 파티션이 분할된 폴더를 데이터 열로 읽을 수 있는 절대 파티션 루트 경로입니다. | < 파티션 루트 경로 > | 아니요 | partitionRootPath |
최대 동시 연결 수 | 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 이 값은 동시 연결을 제한하려는 경우에만 필요합니다. | <최대 동시 연결 수> | 아니요 | maxConcurrentConnections |
대상 정보
이름 | 설명 | 값 | 필수 | JSON 스크립트 속성 |
---|---|---|---|---|
연결 | 연결을 선택하는 섹션입니다. | < 레이크하우스 연결> | 예 | workspaceId artifactId |
루트 폴더 | 루트 폴더의 형식입니다. | • 테이블 • 파일 |
예 | rootFolder: 테이블 또는 파일 |
테이블 이름 | 데이터를 기록할 테이블의 이름입니다. | <테이블 이름> | 루트 폴더에서 테이블을 선택할 때 예 | 테이블 |
테이블 | 스키마를 연결로 사용하여 Lakehouse를 적용할 때 데이터를 쓰려는 스키마가 있는 테이블의 이름입니다. | <스키마가 있는 테이블> | 루트 폴더에서 테이블을 선택할 때 예 | / |
테이블의 경우 | ||||
스키마 이름 | 스키마의 이름입니다. | <스키마 이름> (기본값은 dbo입니다.) |
아니요 | (sink ->datasetSettings ->typeProperties )스키마 |
테이블 이름 | 테이블의 이름입니다. | <테이블 이름> | 예 | 테이블 |
테이블 작업 | 기존 테이블에 새 값을 추가하거나 새 값을 사용하여 테이블의 기존 데이터 및 스키마를 덮어씁니다. | • 추가 • 덮어쓰기 |
아니요 | tableActionOption: Append 또는 OverwriteSchema |
파티션 사용 | 이 선택을 사용하면 하나 이상의 열을 기반으로 폴더 구조에 파티션을 만들 수 있습니다. 각 고유 열 값(쌍)은 새 파티션입니다. 예를 들어 "year=2000/month=01/file"입니다. | 선택되었거나 선택 취소됨 | 아니요 | partitionOption: PartitionByKey 또는 없음 |
파티션 열 | 스키마 매핑의 대상 열입니다. | < 파티션 열> | 아니요 | 파티션 이름 목록 |
파일 경로 | 대상 데이터 저장소 아래의 폴더/파일 경로에 데이터를 씁니다. | <파일 경로> | 아니요 | • folderPath • fileName |
파일 형식 | 대상 데이터의 파일 형식입니다. 다른 파일 형식의 정보에 대한 자세한 내용은 지원되는 형식의 문서를 참조하세요. | / | 루트 폴더에서 파일을 선택할 때 예 | / |
복사 동작 | 원본이 파일 기반 데이터 저장소의 파일인 경우 복사 동작을 정의합니다. | • 계층 구조 평면화 • 파일 병합 • 계층 구조 유지 • 동적 콘텐츠 추가 |
아니요 | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
최대 동시 연결 수 | 작업 실행 중 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. | <최대 동시 연결 수> | 아니요 | maxConcurrentConnections |
블록 크기(MB) | Lakehouse에 데이터를 쓰는 데 사용되는 블록 크기(MB)입니다. 허용되는 값은 4~100MB입니다. | <블록 크기> | 아니요 | blockSizeInMB |
메타데이터 | 대상으로 복사할 때 설정되는 사용자 지정 메타데이터입니다. | • $$LASTMODIFIED • 식 • 고정 값 |
아니요 | metadata |