복사 작업에서 데이터 웨어하우스 구성

이 문서에서는 데이터 파이프라인의 복사 작업을 사용하여 데이터 웨어하우스 간 데이터를 복사하는 방법을 간략하게 설명합니다.

지원되는 구성

복사 작업에서 각 탭의 구성에 대해 각각 다음 섹션으로 이동합니다.

일반

일반 탭 구성의 경우 일반으로 이동합니다.

Source

복사 작업에서 데이터 웨어하우스가 원본으로 지원되는 속성은 다음과 같습니다.

원본 탭 및 속성 목록을 보여 주는 스크린샷.

다음 속성이 필요합니다.

  • 데이터 저장소 유형: 작업 영역을 선택합니다.

  • 작업 영역 데이터 저장소 유형: 데이터 저장소 유형 목록에서 데이터 웨어하우스를 선택합니다.

  • 데이터 웨어하우스: 작업 영역에서 기존 데이터 웨어하우스 를 선택합니다.

  • 쿼리 사용: 테이블, 쿼리 또는 저장 프로시저를 선택합니다.

    • 테이블을 선택하는 경우 테이블 목록에서 기존 테이블을 선택하거나 편집 상자를 선택하여 테이블 이름을 수동으로 지정합니다.

      테이블의 사용 쿼리를 보여 주는 스크린샷

    • 쿼리를 선택하는 경우 사용자 지정 SQL 쿼리 편집기를 사용하여 원본 데이터를 검색하는 SQL 쿼리를 작성합니다.

      쿼리 사용 쿼리를 보여 주는 스크린샷

    • 저장 프로시저를 선택하는 경우 드롭다운 목록에서 기존 저장 프로시저를 선택하거나 편집 상자를 선택하여 저장 프로시저 이름을 원본으로 지정합니다.

      저장 프로시저의 사용 쿼리를 보여 주는 스크린샷

고급에서 다음 필드를 지정할 수 있습니다.

  • 쿼리 시간 제한(분): 쿼리 명령 실행에 대한 시간 제한(기본값: 120분)입니다. 이 속성을 설정하면 허용되는 값은 "02:00:00"(120분)과 같은 시간 범위 형식입니다.

  • 격리 수준: SQL 원본에 대한 트랜잭션 잠금 동작을 지정합니다.

  • 파티션 옵션: 데이터 웨어하우스에서 데이터를 로드하는 데 사용되는 데이터 분할 옵션을 지정합니다. 없음 또는 동적 범위를 선택할 수 있습니다.

    동적 범위를 선택하는 경우 병렬 사용 쿼리를 사용할 때 범위 파티션 매개 변수(?AdfDynamicRangePartitionCondition)가 필요합니다. 샘플 쿼리: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.

    동적 범위를 보여 주는 스크린샷

    • 파티션 열 이름: 병렬 복사를 위해 범위 분할에 사용되는 정수 또는 date/datetime 형식(int,, smallint, bigint, date, smalldatetime, datetime2datetime또는datetimeoffset)으로 원본 열의 이름을 지정합니다. 지정하지 않으면 테이블의 인덱스 또는 기본 키가 자동으로 검색되어 파티션 열로 사용됩니다.
    • 파티션 상한: 파티션 범위 분할에 대한 파티션 열의 최대값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 진행 속도를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할되고 복사됩니다.
    • 하한 파티션: 파티션 범위 분할에 대한 파티션 열의 최소값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 진행 속도를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할되고 복사됩니다.
  • 추가 열: 원본 파일의 상대 경로 또는 정적 값을 저장할 추가 데이터 열을 추가합니다. 식은 후자에 대해 지원됩니다.

    추가 열을 보여 주는 스크린샷

대상

복사 작업에서 Data Warehouse 가 대상으로 지원되는 속성은 다음과 같습니다.

대상 탭 및 속성 목록을 보여 주는 스크린샷

다음 속성이 필요합니다.

  • 데이터 저장소 유형: 작업 영역을 선택합니다.
  • 작업 영역 데이터 저장소 유형: 데이터 저장소 유형 목록에서 데이터 웨어하우스를 선택합니다.
  • 데이터 웨어하우스: 작업 영역에서 기존 데이터 웨어하우스 를 선택합니다.
  • 테이블: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 대상으로 지정합니다.

고급에서 다음 필드를 지정할 수 있습니다.

  • 명령 설정 복사: 복사 명령 속성을 지정합니다.

    복사 명령 설정의 기본값을 보여 주는 스크린샷

  • 테이블 옵션: 원본 스키마를 기반으로 하는 테이블이 없는 경우 대상 테이블을 자동으로 만들지 여부를 지정합니다. 없음 또는 자동 만들기 테이블을 선택할 수 있습니다.

  • 사전 복사 스크립트: 각 실행에서 데이터 웨어하우스에 데이터를 쓰기 전에 실행할 SQL 쿼리를 지정합니다. 이 속성을 사용하여 미리 로드된 데이터를 정리합니다.

  • 쓰기 일괄 처리 시간 제한: 시간 초과되기 전에 일괄 삽입 작업이 완료되기 위한 대기 시간입니다. 허용되는 값은 시간 범위 형식입니다. 기본값은 "00:30:00"(30분)입니다.

  • 성능 메트릭 분석 사용 안 함: 서비스는 복사 성능 최적화 및 권장 사항에 대한 메트릭을 수집합니다. 이 동작에 관심이 있는 경우 이 기능을 해제합니다.

COPY 명령을 사용하여 직접 복사

Data Warehouse COPY 명령은 Azure Blob StorageAzure Data Lake Storage Gen2를 원본 데이터 저장소로 직접 지원합니다. 원본 데이터가 이 섹션에 설명된 조건을 충족하는 경우 COPY 명령을 사용하여 원본 데이터 저장소에서 Data Warehouse로 직접 복사합니다.

  1. 원본 데이터 및 형식에는 다음과 같은 형식 및 인증 방법이 포함됩니다.

    지원되는 원본 데이터 저장소 유형 지원되는 형식 지원되는 원본 인증 유형
    Azure Blob Storage 구분된 텍스트
    Parquet
    익명 인증
    계정 키 인증
    공유 액세스 서명 인증
    Azure Data Lake Storage Gen2 구분된 텍스트
    Parquet
    계정 키 인증
    공유 액세스 서명 인증
  2. 다음 형식 설정을 지정할 수 있습니다.

    1. Parquet의 경우 압축 유형은 None, snappy 또는 gzip수 있습니다.
    2. DelimitedText의 경우:
      1. 행 구분 기호: 직접 COPY 명령을 통해 구분된 텍스트를 Data Warehouse에 복사할 때 행 구분 기호를 명시적으로 지정합니다(\r; \n; 또는 \r\n). 원본 파일의 행 구분 기호가 \r\n인 경우에만 기본값(\r, \n 또는 \r\n)이 작동합니다. 그렇지 않으면 시나리오에 대한 스테이징을 사용하도록 설정합니다.
      2. Null 값 은 기본값으로 남아 있거나 빈 문자열("")로 설정 됩니다.
      3. 인코딩은 기본값으로 남아 있거나 UTF-8 또는 UTF-16으로 설정됩니다.
      4. 건너뛰기 줄 수는 기본값으로 남아 있거나 0으로 설정됩니다.
      5. 압축 형식은 None 또는 gzip수 있습니다.
  3. 원본이 폴더인 경우 재귀적으로 검사box를 선택해야 합니다.

  4. 마지막으로 수정한 필터, 접두사, 파티션 검색 사용 및 추가 열시작 시간(UTC)UTC(종료 시간)는 지정되지 않습니다.

COPY 명령을 사용하여 데이터 웨어하우스에 데이터를 수집하는 방법을 알아보려면 이 문서를 참조하세요.

원본 데이터 저장소 및 형식이 원래 COPY 명령에서 지원되지 않는 경우 COPY 명령 기능을 대신 사용하여 스테이징된 복사본을 사용합니다. 데이터를 COPY 명령 호환 형식으로 자동으로 변환한 다음 COPY 명령을 호출하여 데이터를 Data Warehouse로 로드합니다.

매핑

매핑 탭 구성의 경우 자동 만들기 테이블을 대상으로 데이터 웨어하우스를 적용하지 않으면 매핑으로 이동합니다.

매핑의 구성을 제외하고 자동 만들기 테이블을 대상으로 데이터 웨어하우스를 적용하는 경우 대상 열의 형식을 편집할 수 있습니다. 스키마 가져오기를 선택한 후 대상에서 열 형식을 지정할 수 있습니다.

예를 들어 원본의 ID 열 형식은 int이며 대상 열에 매핑할 때 부동 형식으로 변경할 수 있습니다.

대상 열 형식 매핑의 스크린샷

설정

설정 탭 구성의 경우 설정 이동합니다.

테이블 요약

다음 표에는 Data Warehouse의 복사 활동에 대한 자세한 정보가 포함되어 있습니다.

원본 정보

속성 설명 Required JSON 스크립트 속성
데이터 저장소 유형 데이터 저장소 유형입니다. 작업 영역 /
작업 영역 데이터 저장소 유형 작업 영역 데이터 저장소 유형을 선택할 섹션입니다. 데이터 웨어하우스 type
데이터 웨어하우스 사용하려는 데이터 웨어하우스입니다. <데이터 웨어하우스> endpoint
artifactId
쿼리 사용 데이터 웨어하우스에서 데이터를 읽는 방법입니다. •테이블
•쿼리
• 저장 프로시저
아니요 (-에서typeProperties>source)
• typeProperties:
 schema(스키마)
 table
• sqlReaderQuery
• sqlReaderStoredProcedureName
쿼리 시간 제한(분) 쿼리 명령 실행에 대한 시간 제한(기본값은 120분)입니다. 이 속성을 설정하면 허용되는 값은 "02:00:00"(120분)과 같은 시간 범위 형식입니다. timespan 아니요 queryTimeout
격리 수준 원본에 대한 트랜잭션 잠금 동작입니다. •없음
•스냅숏
아니요 isolationLevel
파티션 옵션 데이터 웨어하우스에서 데이터를 로드하는 데 사용되는 데이터 분할 옵션입니다. •없음
• 동적 범위
아니요 partitionOption
파티션 열 이름 병렬 복사를 위해 범위 분할에 사용되는 정수 또는 date/datetime 형식(int, , bigintsmallint, date, smalldatetime, datetime, datetime2또는 datetimeoffset)의 원본 열 이름입니다. 지정하지 않으면 테이블의 인덱스 또는 기본 키가 자동으로 검색되어 파티션 열로 사용됩니다. <파티션 열 이름> 아니요 partitionColumnName
파티션 상한 파티션 범위 분할에 대한 파티션 열의 최댓값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 진행 속도를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할되고 복사됩니다. <파티션 상한> 아니요 partitionUpperBound
하한 파티션 파티션 범위 분할에 대한 파티션 열의 최솟값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 진행 속도를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할되고 복사됩니다. <파티션 하한> 아니요 partitionLowerBound
추가 열 추가 데이터 열을 추가하여 원본 파일의 상대 경로 또는 정적 값을 저장합니다. • 이름
•값
아니요 additionalColumns:
•이름
•값

대상 정보

속성 설명 Required JSON 스크립트 속성
데이터 저장소 유형 데이터 저장소 유형입니다. 작업 영역 /
작업 영역 데이터 저장소 유형 작업 영역 데이터 저장소 유형을 선택할 섹션입니다. 데이터 웨어하우스 type
데이터 웨어하우스 사용하려는 데이터 웨어하우스입니다. <데이터 웨어하우스> endpoint
artifactId
테이블 데이터를 쓸 대상 테이블입니다. <대상 테이블의 이름> 스키마
table
명령 설정 복사 복사 명령 속성 설정입니다. 기본값 설정을 포함합니다. 기본값:
•열
•값
아니요 copyCommand설정:
defaultValues:
•Columnname
•Defaultvalue
테이블 옵션 원본 스키마를 기반으로 하는 테이블이 없는 경우 대상 테이블을 자동으로 만들지 여부입니다. •없음
• 테이블 자동 만들기
아니요 tableOption:

• autoCreate
사전 복사 스크립트 각 실행에서 데이터 웨어하우스에 데이터를 쓰기 전에 실행할 SQL 쿼리입니다. 이 속성을 사용하여 미리 로드된 데이터를 정리합니다. <사전 복사 스크립트> 아니요 preCopyScript
쓰기 일괄 처리 시간 제한 시간 초과되기 전에 일괄 처리 삽입 작업이 완료되기까지의 대기 시간입니다. 허용되는 값은 시간 범위 형식입니다. 기본값은 "00:30:00"(30분)입니다. timespan 아니요 writeBatchTimeout
성능 메트릭 분석 사용 안 함 이 서비스는 복사 성능 최적화 및 권장 사항에 대한 메트릭을 수집하여 추가 마스터 DB 액세스를 도입합니다. 선택 또는 선택 취소 아니요 disableMetricsCollection:
true 또는 false