복사 작업에서 데이터 웨어하우스 구성

아티클
02/27/2024

이 문서에서는 데이터 파이프라인의 복사 작업을 사용하여 데이터 웨어하우스 간 데이터를 복사하는 방법을 간략하게 설명합니다.

지원되는 구성

복사 작업에서 각 탭의 구성에 대해 각각 다음 섹션으로 이동합니다.

일반
Source
대상
매핑
설정

일반

일반 탭 구성의 경우 일반으로 이동합니다.

Source

복사 작업에서 데이터 웨어하우스가 원본으로 지원되는 속성은 다음과 같습니다.

원본 탭 및 속성 목록을 보여 주는 스크린샷.

다음 속성이 필요합니다.

데이터 저장소 유형: 작업 영역을 선택합니다.
작업 영역 데이터 저장소 유형: 데이터 저장소 유형 목록에서 데이터 웨어하우스를 선택합니다.
데이터 웨어하우스: 작업 영역에서 기존 데이터 웨어하우스 를 선택합니다.
쿼리 사용: 테이블, 쿼리 또는 저장 프로시저를 선택합니다.
- 테이블을 선택하는 경우 테이블 목록에서 기존 테이블을 선택하거나 편집 상자를 선택하여 테이블 이름을 수동으로 지정합니다.
- 쿼리를 선택하는 경우 사용자 지정 SQL 쿼리 편집기를 사용하여 원본 데이터를 검색하는 SQL 쿼리를 작성합니다.
- 저장 프로시저를 선택하는 경우 드롭다운 목록에서 기존 저장 프로시저를 선택하거나 편집 상자를 선택하여 저장 프로시저 이름을 원본으로 지정합니다.

고급에서 다음 필드를 지정할 수 있습니다.

쿼리 시간 제한(분): 쿼리 명령 실행에 대한 시간 제한(기본값: 120분)입니다. 이 속성을 설정하면 허용되는 값은 "02:00:00"(120분)과 같은 시간 범위 형식입니다.
격리 수준: SQL 원본에 대한 트랜잭션 잠금 동작을 지정합니다.
파티션 옵션: 데이터 웨어하우스에서 데이터를 로드하는 데 사용되는 데이터 분할 옵션을 지정합니다. 없음 또는 동적 범위를 선택할 수 있습니다.

동적 범위를 선택하는 경우 병렬 사용 쿼리를 사용할 때 범위 파티션 매개 변수(?AdfDynamicRangePartitionCondition)가 필요합니다. 샘플 쿼리: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.
- 파티션 열 이름: 병렬 복사를 위해 범위 분할에 사용되는 정수 또는 date/datetime 형식(int,, smallint, bigint, date, smalldatetime, datetime2datetime또는datetimeoffset)으로 원본 열의 이름을 지정합니다. 지정하지 않으면 테이블의 인덱스 또는 기본 키가 자동으로 검색되어 파티션 열로 사용됩니다.
- 파티션 상한: 파티션 범위 분할에 대한 파티션 열의 최대값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 진행 속도를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할되고 복사됩니다.
- 하한 파티션: 파티션 범위 분할에 대한 파티션 열의 최소값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 진행 속도를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할되고 복사됩니다.
추가 열: 원본 파일의 상대 경로 또는 정적 값을 저장할 추가 데이터 열을 추가합니다. 식은 후자에 대해 지원됩니다.

대상

복사 작업에서 Data Warehouse 가 대상으로 지원되는 속성은 다음과 같습니다.

대상 탭 및 속성 목록을 보여 주는 스크린샷

다음 속성이 필요합니다.

데이터 저장소 유형: 작업 영역을 선택합니다.
작업 영역 데이터 저장소 유형: 데이터 저장소 유형 목록에서 데이터 웨어하우스를 선택합니다.
데이터 웨어하우스: 작업 영역에서 기존 데이터 웨어하우스 를 선택합니다.
테이블: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 대상으로 지정합니다.

고급에서 다음 필드를 지정할 수 있습니다.

명령 설정 복사: 복사 명령 속성을 지정합니다.
테이블 옵션: 원본 스키마를 기반으로 하는 테이블이 없는 경우 대상 테이블을 자동으로 만들지 여부를 지정합니다. 없음 또는 자동 만들기 테이블을 선택할 수 있습니다.
사전 복사 스크립트: 각 실행에서 데이터 웨어하우스에 데이터를 쓰기 전에 실행할 SQL 쿼리를 지정합니다. 이 속성을 사용하여 미리 로드된 데이터를 정리합니다.
쓰기 일괄 처리 시간 제한: 시간 초과되기 전에 일괄 삽입 작업이 완료되기 위한 대기 시간입니다. 허용되는 값은 시간 범위 형식입니다. 기본값은 "00:30:00"(30분)입니다.
성능 메트릭 분석 사용 안 함: 서비스는 복사 성능 최적화 및 권장 사항에 대한 메트릭을 수집합니다. 이 동작에 관심이 있는 경우 이 기능을 해제합니다.

COPY 명령을 사용하여 직접 복사

Data Warehouse COPY 명령은 Azure Blob Storage 및 Azure Data Lake Storage Gen2를 원본 데이터 저장소로 직접 지원합니다. 원본 데이터가 이 섹션에 설명된 조건을 충족하는 경우 COPY 명령을 사용하여 원본 데이터 저장소에서 Data Warehouse로 직접 복사합니다.

원본 데이터 및 형식에는 다음과 같은 형식 및 인증 방법이 포함됩니다.

지원되는 원본 데이터 저장소 유형	지원되는 형식	지원되는 원본 인증 유형
Azure Blob Storage	구분된 텍스트 Parquet	익명 인증 계정 키 인증 공유 액세스 서명 인증
Azure Data Lake Storage Gen2	구분된 텍스트 Parquet	계정 키 인증 공유 액세스 서명 인증

다음 형식 설정을 지정할 수 있습니다.
1. Parquet의 경우 압축 유형은 None, snappy 또는 gzip일 수 있습니다.
2. DelimitedText의 경우:
  1. 행 구분 기호: 직접 COPY 명령을 통해 구분된 텍스트를 Data Warehouse에 복사할 때 행 구분 기호를 명시적으로 지정합니다(\r; \n; 또는 \r\n). 원본 파일의 행 구분 기호가 \r\n인 경우에만 기본값(\r, \n 또는 \r\n)이 작동합니다. 그렇지 않으면 시나리오에 대한 스테이징을 사용하도록 설정합니다.
  2. Null 값 은 기본값으로 남아 있거나 빈 문자열("")로 설정 됩니다.
  3. 인코딩은 기본값으로 남아 있거나 UTF-8 또는 UTF-16으로 설정됩니다.
  4. 건너뛰기 줄 수는 기본값으로 남아 있거나 0으로 설정됩니다.
  5. 압축 형식은 None 또는 gzip일 수 있습니다.
원본이 폴더인 경우 재귀적으로 검사box를 선택해야 합니다.
마지막으로 수정한 필터, 접두사, 파티션 검색 사용 및 추가 열의 시작 시간(UTC) 및 UTC(종료 시간)는 지정되지 않습니다.

COPY 명령을 사용하여 데이터 웨어하우스에 데이터를 수집하는 방법을 알아보려면 이 문서를 참조하세요.

원본 데이터 저장소 및 형식이 원래 COPY 명령에서 지원되지 않는 경우 COPY 명령 기능을 대신 사용하여 스테이징된 복사본을 사용합니다. 데이터를 COPY 명령 호환 형식으로 자동으로 변환한 다음 COPY 명령을 호출하여 데이터를 Data Warehouse로 로드합니다.

매핑

매핑 탭 구성의 경우 자동 만들기 테이블을 대상으로 데이터 웨어하우스를 적용하지 않으면 매핑으로 이동합니다.

매핑의 구성을 제외하고 자동 만들기 테이블을 대상으로 데이터 웨어하우스를 적용하는 경우 대상 열의 형식을 편집할 수 있습니다. 스키마 가져오기를 선택한 후 대상에서 열 형식을 지정할 수 있습니다.

예를 들어 원본의 ID 열 형식은 int이며 대상 열에 매핑할 때 부동 형식으로 변경할 수 있습니다.

대상 열 형식 매핑의 스크린샷

설정

설정 탭 구성의 경우 설정 이동합니다.

테이블 요약

다음 표에는 Data Warehouse의 복사 활동에 대한 자세한 정보가 포함되어 있습니다.

원본 정보

속성	설명	값	Required	JSON 스크립트 속성
데이터 저장소 유형	데이터 저장소 유형입니다.	작업 영역	예	/
작업 영역 데이터 저장소 유형	작업 영역 데이터 저장소 유형을 선택할 섹션입니다.	데이터 웨어하우스	예	type
데이터 웨어하우스	사용하려는 데이터 웨어하우스입니다.	<데이터 웨어하우스>	예	endpoint artifactId
쿼리 사용	데이터 웨어하우스에서 데이터를 읽는 방법입니다.	•테이블 •쿼리 • 저장 프로시저	아니요	(-에서`typeProperties`>`source`) • typeProperties: schema(스키마) table • sqlReaderQuery • sqlReaderStoredProcedureName
쿼리 시간 제한(분)	쿼리 명령 실행에 대한 시간 제한(기본값은 120분)입니다. 이 속성을 설정하면 허용되는 값은 "02:00:00"(120분)과 같은 시간 범위 형식입니다.	timespan	아니요	queryTimeout
격리 수준	원본에 대한 트랜잭션 잠금 동작입니다.	•없음 •스냅숏	아니요	isolationLevel
파티션 옵션	데이터 웨어하우스에서 데이터를 로드하는 데 사용되는 데이터 분할 옵션입니다.	•없음 • 동적 범위	아니요	partitionOption
파티션 열 이름	병렬 복사를 위해 범위 분할에 사용되는 정수 또는 date/datetime 형식(`int`, , `bigintsmallint`, `date`, `smalldatetime`, `datetime`, `datetime2`또는 `datetimeoffset`)의 원본 열 이름입니다. 지정하지 않으면 테이블의 인덱스 또는 기본 키가 자동으로 검색되어 파티션 열로 사용됩니다.	<파티션 열 이름>	아니요	partitionColumnName
파티션 상한	파티션 범위 분할에 대한 파티션 열의 최댓값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 진행 속도를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할되고 복사됩니다.	<파티션 상한>	아니요	partitionUpperBound
하한 파티션	파티션 범위 분할에 대한 파티션 열의 최솟값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 진행 속도를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할되고 복사됩니다.	<파티션 하한>	아니요	partitionLowerBound
추가 열	추가 데이터 열을 추가하여 원본 파일의 상대 경로 또는 정적 값을 저장합니다.	• 이름 •값	아니요	additionalColumns: •이름 •값

대상 정보

속성	설명	값	Required	JSON 스크립트 속성
데이터 저장소 유형	데이터 저장소 유형입니다.	작업 영역	예	/
작업 영역 데이터 저장소 유형	작업 영역 데이터 저장소 유형을 선택할 섹션입니다.	데이터 웨어하우스	예	type
데이터 웨어하우스	사용하려는 데이터 웨어하우스입니다.	<데이터 웨어하우스>	예	endpoint artifactId
테이블	데이터를 쓸 대상 테이블입니다.	<대상 테이블의 이름>	예	스키마 table
명령 설정 복사	복사 명령 속성 설정입니다. 기본값 설정을 포함합니다.	기본값: •열 •값	아니요	copyCommand설정: defaultValues: •Columnname •Defaultvalue
테이블 옵션	원본 스키마를 기반으로 하는 테이블이 없는 경우 대상 테이블을 자동으로 만들지 여부입니다.	•없음 • 테이블 자동 만들기	아니요	tableOption: • autoCreate
사전 복사 스크립트	각 실행에서 데이터 웨어하우스에 데이터를 쓰기 전에 실행할 SQL 쿼리입니다. 이 속성을 사용하여 미리 로드된 데이터를 정리합니다.	<사전 복사 스크립트>	아니요	preCopyScript
쓰기 일괄 처리 시간 제한	시간 초과되기 전에 일괄 처리 삽입 작업이 완료되기까지의 대기 시간입니다. 허용되는 값은 시간 범위 형식입니다. 기본값은 "00:30:00"(30분)입니다.	timespan	아니요	writeBatchTimeout
성능 메트릭 분석 사용 안 함	이 서비스는 복사 성능 최적화 및 권장 사항에 대한 메트릭을 수집하여 추가 마스터 DB 액세스를 도입합니다.	선택 또는 선택 취소	아니요	disableMetricsCollection: true 또는 false

Data Warehouse 커넥터 개요

복사 작업에서 데이터 웨어하우스 구성

지원되는 구성

일반

Source

대상

COPY 명령을 사용하여 직접 복사

매핑

설정

테이블 요약

원본 정보

대상 정보

피드백

피드백

추가 리소스

복사 작업에서 데이터 웨어하우스 구성

지원되는 구성

일반

Source

대상

COPY 명령을 사용하여 직접 복사

매핑

설정

테이블 요약

원본 정보

대상 정보

관련 콘텐츠

피드백

피드백

추가 리소스