Microsoft Fabric의 Data Factory에서 복사 작업에 대한 Data Warehouse 커넥터를 구성하는 방법

이 문서에서는 데이터 파이프라인의 복사 작업을 사용하여 Data Warehouse 데이터를 복사하는 방법을 간략하게 설명합니다.

중요

Microsoft Fabric은 현재 미리 보기로 제공됩니다. 이 정보는 릴리스되기 전에 상당히 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보와 관련하여 명시적이거나 묵시적인 어떠한 보증도 하지 않습니다. Azure의 서비스에 대한 Azure Data Factory 설명서를 참조하세요.

지원되는 구성

복사 작업에서 각 탭의 구성에 대해 각각 다음 섹션으로 이동합니다.

일반

일반 탭 구성의 경우 일반으로 이동합니다.

원본

복사 작업의 원본으로 Data Warehouse 다음 속성이 지원됩니다.

원본 탭 및 속성 목록을 보여 주는 스크린샷

다음 속성이 필요합니다.

  • 데이터 저장소 유형: 작업 영역을 선택합니다.

  • 작업 영역 데이터 저장소 유형: 데이터 저장소 형식 목록에서 Data Warehouse 선택합니다.

  • Data Warehouse: 작업 영역에서 기존 Data Warehouse 선택합니다.

  • 쿼리 사용: 테이블, 쿼리 또는 저장 프로시저를 선택합니다.

    • 테이블을 선택하는 경우 테이블 목록에서 기존 테이블을 선택하거나 편집 상자를 선택하여 테이블 이름을 수동으로 지정합니다.

      테이블의 사용 쿼리를 보여 주는 스크린샷

    • 쿼리를 선택하는 경우 사용자 지정 SQL 쿼리 편집기를 사용하여 원본 데이터를 검색하는 SQL 쿼리를 작성합니다.

      쿼리 사용 쿼리를 보여 주는 스크린샷

    • 저장 프로시저를 선택하는 경우 드롭다운 목록에서 기존 저장 프로시저를 선택하거나 편집 상자를 선택하여 저장 프로시저 이름을 원본으로 지정합니다.

      저장 프로시저의 사용 쿼리를 보여 주는 스크린샷

고급에서 다음 필드를 지정할 수 있습니다.

  • 쿼리 시간 제한(분): 쿼리 명령 실행에 대한 시간 제한이며 기본값은 120분입니다. 이 속성을 설정하면 허용되는 값은 "02:00:00"(120분)과 같은 시간 범위 형식입니다.

  • 격리 수준: SQL 원본에 대한 트랜잭션 잠금 동작을 지정합니다.

  • 파티션 옵션: Data Warehouse 데이터를 로드하는 데 사용되는 데이터 분할 옵션을 지정합니다. 없음 또는 동적 범위를 선택할 수 있습니다.

    동적 범위를 선택하는 경우 병렬이 설정된 쿼리를 사용할 때 범위 파티션 매개 변수(?AdfDynamicRangePartitionCondition)가 필요합니다. 샘플 쿼리: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.

    동적 범위를 보여 주는 스크린샷

    • 파티션 열 이름: 병렬 복사를 위해 범위 분할에 사용되는 원본 열의 이름을 정수 또는 date/datetime 형식(int, smallint, smalldatetimedatedatetimebigint, datetime2또는 datetimeoffset)으로 지정합니다. 지정하지 않으면 테이블의 인덱스 또는 기본 키가 자동으로 검색되어 파티션 열로 사용됩니다.
    • 파티션 상한: 파티션 범위 분할에 대한 파티션 열의 최대값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 stride를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할 및 복사됩니다.
    • 파티션 하한: 파티션 범위 분할에 대한 파티션 열의 최소값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 stride를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할 및 복사됩니다.
  • 추가 열: 원본 파일의 상대 경로 또는 정적 값을 저장하는 추가 데이터 열을 추가합니다. 식은 후자에 대해 지원됩니다.

    추가 열을 보여 주는 스크린샷

대상

복사 작업에서 대상로 Data Warehouse 다음 속성이 지원됩니다.

대상 탭 및 속성 목록을 보여 주는 스크린샷

다음 속성이 필요합니다.

  • 데이터 저장소 유형: 작업 영역을 선택합니다.
  • 작업 영역 데이터 저장소 유형: 데이터 저장소 형식 목록에서 Data Warehouse 선택합니다.
  • Data Warehouse: 작업 영역에서 기존 Data Warehouse 선택합니다.
  • 테이블: 테이블 목록에서 기존 테이블을 선택하거나 테이블 이름을 대상으로 지정합니다.

고급에서 다음 필드를 지정할 수 있습니다.

  • 명령 설정 복사: 복사 명령 속성을 지정합니다.

    복사 명령 설정의 기본값을 보여 주는 스크린샷

  • 테이블 옵션: 원본 스키마를 기반으로 대상 테이블이 없는 경우 대상 테이블을 자동으로 만들지 여부를 지정합니다. 없음 또는 테이블 자동 만들기를 선택할 수 있습니다.

  • 사전 복사 스크립트: 각 실행에서 데이터를 Data Warehouse 쓰기 전에 실행할 SQL 쿼리를 지정합니다. 이 속성을 사용하여 미리 로드된 데이터를 정리합니다.

  • 쓰기 일괄 처리 시간 제한: 시간 초과되기 전에 일괄 처리 삽입 작업이 완료되기 위한 대기 시간입니다. 허용되는 값은 시간 범위 형식입니다. 기본값은 "00:30:00"(30분)입니다.

  • 성능 메트릭 분석 사용 안 함: 서비스는 복사 성능 최적화 및 권장 사항에 대한 메트릭을 수집합니다. 이 동작에 관심이 있는 경우 이 기능을 끕니다.

원본 데이터가 Azure Blob Storage 또는 Azure Data Lake Storage Gen2 있고 COPY 문과 호환되는 형식인 경우 복사 작업은 COPY 명령을 직접 호출하여 Data Warehouse 원본에서 데이터를 끌어올 수 있도록 합니다.

  1. 원본 데이터 및 형식에는 다음과 같은 형식 및 인증 방법이 포함됩니다.

    지원되는 원본 데이터 저장소 형식 지원되는 형식 지원되는 원본 인증 유형
    Azure Blob Storage 구분된 텍스트
    Parquet
    익명 인증
    계정 키 인증
    공유 액세스 서명 인증
    Azure Data Lake Storage Gen2 구분된 텍스트
    Parquet
    계정 키 인증
    공유 액세스 서명 인증
  2. 다음 형식 설정을 지정할 수 있습니다.

    1. Parquet의 경우 압축은 압축, Snappy 또는 GZip일 수 없습니다.
    2. 구분 된 텍스트의 경우:
      1. rowDelimiter 는 명시적으로 단일 문자 또는 "\r\n"로 설정되며 기본값은 지원되지 않습니다.
      2. nullValue 는 기본값으로 남아 있거나 빈 문자열("")로 설정됩니다.
      3. encodingName는 기본값으로 남아 있거나 utf-8 또는 utf-16으로 설정됩니다.
      4. skipLineCount는 기본값으로 남아 있거나 0으로 설정됩니다.
      5. 압축은 압축 또는 GZip일 수 없습니다.
  3. 원본이 폴더 recursive 인 경우 복사 작업에서 true로 설정해야 합니다.

  4. modifiedDateTimeStart, modifiedDateTimeEnd, prefix, enablePartitionDiscovery및 는 additionalColumns 지정되지 않습니다.

원본 데이터 저장소 및 형식이 원래 COPY 문에서 지원되지 않는 경우 COPY 문 기능을 대신 사용하여 스테이징된 복사본을 사용합니다. 자동으로 데이터를 COPY 문 호환 형식으로 변환한 다음 COPY 문을 호출하여 데이터를 Data Warehouse 로드합니다.

매핑

매핑 탭 구성의 경우 매핑으로 이동합니다.

설정

설정 탭 구성의 경우 설정으로 이동합니다.

테이블 요약

다음 표에는 Data Warehouse 복사 활동에 대한 자세한 정보가 포함되어 있습니다.

원본 정보입니다.

속성 Description 필수 JSON 스크립트 속성
데이터 저장소 유형 데이터 저장소 형식입니다. 작업 영역 Yes /
작업 영역 데이터 저장소 유형 작업 영역 데이터 저장소 유형을 선택할 섹션입니다. Data Warehouse type
Data Warehouse 사용하려는 Data Warehouse. <데이터 웨어하우스> 엔드포인트(endpoint)
artifactId
쿼리 사용 Data Warehouse 데이터를 읽는 방법입니다. •테이블
•쿼리
• 저장 프로시저
No (아래 typeProperties ->source)
• typeProperties:
 스키마
 테이블
• sqlReaderQuery
• sqlReaderStoredProcedureName
쿼리 시간 제한(분) 쿼리 명령 실행에 대한 시간 제한이며 기본값은 120분입니다. 이 속성을 설정하면 허용되는 값은 "02:00:00"(120분)과 같은 시간 범위 형식입니다. timespan queryTimeout
격리 수준 원본에 대한 트랜잭션 잠금 동작입니다. •없음
•스냅숏
isolationLevel
파티션 옵션 Data Warehouse 데이터를 로드하는 데 사용되는 데이터 분할 옵션입니다. •없음
• 동적 범위
No partitionOption
파티션 열 이름 병렬 복사를 위해 범위 분할에 사용되는 정수 또는 date/datetime 형식(int, , smallint, datebigintdatetimesmalldatetime, datetime2또는 datetimeoffset)의 원본 열 이름입니다. 지정하지 않으면 테이블의 인덱스 또는 기본 키가 자동으로 검색되어 파티션 열로 사용됩니다. <파티션 열 이름> partitionColumnName
상한 파티션 파티션 범위 분할에 대한 파티션 열의 최댓값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 stride를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할되고 복사됩니다. <파티션 상한> partitionUpperBound
하한 파티션 파티션 범위 분할에 대한 파티션 열의 최솟값입니다. 이 값은 테이블의 행을 필터링하는 것이 아니라 파티션 stride를 결정하는 데 사용됩니다. 테이블 또는 쿼리 결과의 모든 행이 분할되고 복사됩니다. <파티션 하한> partitionLowerBound
추가 열 원본 파일의 상대 경로 또는 정적 값을 저장할 추가 데이터 열을 추가합니다. • 이름
•값
No additionalColumns:
•이름
•값

대상 정보

속성 Description 필수 JSON 스크립트 속성
데이터 저장소 유형 데이터 저장소 형식입니다. 작업 영역 Yes /
작업 영역 데이터 저장소 유형 작업 영역 데이터 저장소 유형을 선택할 섹션입니다. Data Warehouse type
Data Warehouse 사용하려는 Data Warehouse. <데이터 웨어하우스> 엔드포인트(endpoint)
artifactId
테이블 데이터를 쓸 대상 테이블입니다. <대상 테이블의 이름> 스키마
테이블
명령 설정 복사 복사 명령 속성 설정입니다. 기본값 설정을 포함합니다. 기본값:
•열
•값
No copyCommandSettings:
defaultValues:
•Columnname
•Defaultvalue
테이블 옵션 원본 스키마를 기반으로 대상 테이블이 없는 경우 대상 테이블을 자동으로 만들지 여부입니다. •없음
• 테이블 자동 만들기
No tableOption:

• 자동 만들기
사전 복사 스크립트 각 실행에서 Data Warehouse 데이터를 쓰기 전에 실행할 SQL 쿼리입니다. 이 속성을 사용하여 미리 로드된 데이터를 정리합니다. <사전 복사 스크립트> preCopyScript
쓰기 일괄 처리 시간 제한 시간 초과되기 전에 일괄 삽입 작업이 완료되기까지의 대기 시간입니다. 허용되는 값은 시간 범위 형식입니다. 기본값은 "00:30:00"(30분)입니다. timespan writeBatchTimeout
성능 메트릭 분석 사용 안 함 이 서비스는 복사 성능 최적화 및 권장 사항에 대한 메트릭을 수집하여 추가 master DB 액세스를 도입합니다. 선택 또는 선택 취소 No disableMetricsCollection:
true 또는 false

다음 단계