복사 작업에서 Amazon S3을 구성하는 방법

이 문서에서는 데이터 파이프라인의 복사 작업을 사용하여 Amazon S3에서 데이터를 복사하는 방법을 간략하게 설명합니다.

중요

Microsoft Fabric은 현재 미리 보기로 제공됩니다. 이 정보는 릴리스되기 전에 상당히 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보와 관련하여 명시적이거나 묵시적인 어떠한 보증도 하지 않습니다. Azure의 서비스에 대한 Azure Data Factory 설명서를 참조하세요.

필요한 사용 권한

Amazon S3에서 데이터를 복사하려면 Amazon S3 개체 작업에 대한 s3:GetObjects3:GetObjectVersion의 사용 권한이 부여되었는지 확인합니다.

또한 s3:ListAllMyBuckets 연결 테스트 및 s3:ListBucket/s3:GetBucketLocation 루트에서 검색과 같은 작업에는 및 권한이 필요합니다.

Amazon S3 권한의 전체 목록은 AWS 사이트의 정책에서 사용 권한 지정으로 이동합니다.

지원되는 형식

Amazon S3은 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.

지원되는 구성

복사 작업에서 각 탭의 구성에 대해 각각 다음 섹션으로 이동합니다.

일반

일반 탭 구성의 경우 일반으로 이동합니다.

원본

다음 속성은 복사 작업의 원본 탭에서 Amazon S3에 대해 지원됩니다.

원본 탭 및 속성 목록을 보여 주는 스크린샷

다음 속성이 필요합니다.

  • 데이터 저장소 유형: 외부를 선택합니다.
  • 연결: 연결 목록에서 Amazon S3 연결을 선택합니다. 연결이 없으면 새로 만들기를 선택하여 새 Amazon S3 연결을 만듭니다.
  • 파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 입력합니다.
  • 파일 설정: 파일 설정을 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정은 자세한 내용은 지원되는 형식 을 참조하세요.

고급에서 다음 필드를 지정할 수 있습니다.

  • 파일 경로 형식: 파일 경로, 접두사, 와일드카드 파일 경로 또는 파일 목록을 파일 경로 형식으로 선택할 수 있습니다. 이러한 각 설정의 구성은 다음과 같습니다.

    • 파일 경로: 이 형식을 선택하면 이전에 지정한 지정된 컨테이너 또는 폴더/파일 경로에서 데이터를 복사할 수 있습니다.

    • 접두사: 원본 S3 파일을 필터링하도록 구성된 지정된 버킷 아래의 S3 키 이름에 대한 접두사입니다. 이름이 bucket/this_prefix로 시작하는 S3 키가 선택됩니다. 와일드카드 필터보다 나은 성능을 제공하는 S3의 서비스 필터를 활용합니다.

      접두사를 보여 주는 스크린샷

    • 와일드카드 파일 경로: 지정된 Blob 컨테이너 아래에 와일드카드 문자가 있는 폴더 또는 파일 경로를 지정하여 원본 폴더 또는 파일을 필터링합니다.

      허용되는 와일드카드는 *(문자 0자 이상 일치) 및 ?(문자 0자 또는 1자 일치)입니다. 폴더 이름에 와일드카드 또는 이 이스케이프 문자가 있는 경우 ^을 사용하여 이스케이프합니다.

      • 와일드카드 폴더 경로: 원본 폴더를 필터링하도록 구성된 지정된 버킷 아래에 와일드카드 문자가 있는 폴더 경로입니다.

        와일드카드 파일 경로를 보여 주는 스크린샷

      • 와일드카드 파일 이름: 원본 파일을 필터링할 지정된 버킷 및 폴더 경로(또는 와일드카드 폴더 경로) 아래에 와일드카드 문자가 있는 파일 이름입니다.

    • 파일 목록: 지정된 파일 집합을 복사하도록 나타냅니다. 복사할 파일 목록이 포함된 텍스트 파일을 가리키며, 구성된 경로의 상대 경로인 한 줄당 하나의 파일을 가리킵니다.

      파일 목록을 보여 주는 스크린샷

  • 재귀: 하위 폴더에서 데이터를 재귀적으로 읽는지 또는 지정된 폴더에서만 데이터를 읽을지 여부를 나타냅니다. 재귀true로 설정되고 대상이 파일 기반 저장소인 경우 빈 폴더 또는 하위 폴더가 대상에서 복사되거나 만들어지지 않습니다. 허용되는 값은 true(기본값) 및 false입니다. fileListPath를 구성하는 경우에는 이 속성이 적용되지 않습니다.

  • 완료 후 파일 삭제: 대상 저장소로 성공적으로 이동한 후 이진 파일이 원본 저장소에서 삭제되는지 여부를 나타냅니다. 파일 삭제는 파일 단위이므로 복사 작업이 실패하면 일부 파일이 대상에 이미 복사되어 원본에서 삭제된 반면 다른 파일은 원본 저장소에 남아 있습니다. 이 속성은 이진 파일 복사 시나리오에서만 유효합니다. 기본값: false.

  • 최대 동시 연결: 작업 실행 중에 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.

매핑

매핑 탭 구성의 경우 매핑 탭에서 매핑 구성으로 이동합니다. 이진 파일을 파일 형식으로 선택하면 매핑이 지원되지 않습니다.

설정

설정 탭 구성의 경우 설정 탭에서 다른 설정 구성으로 이동합니다.

테이블 요약

다음 표에는 Amazon S3의 복사 활동에 대한 자세한 정보가 포함되어 있습니다.

원본 정보입니다.

이름 Description 필수 JSON 스크립트 속성
데이터 저장소 유형 데이터 저장소 형식입니다. 외부 /
연결 원본 데이터 저장소에 대한 연결입니다. <연결> connection
파일 경로 원본 데이터의 파일 경로입니다. <원본의 파일 경로 > container
fileName
파일 경로 형식 사용하려는 파일 경로 형식입니다. • 파일 경로
•접두사
• 와일드카드 폴더 경로
•파일 목록
No
•접두사
• wildcardFolderPath, wildcardFileName
• 파일 목록 경로
Recursively 하위 폴더 또는 지정된 폴더에서만 데이터를 재귀적으로 읽을지 여부를 나타냅니다. 재귀가true로 설정되고 대상이 파일 기반 저장소인 경우 빈 폴더 또는 하위 폴더가 대상에서 복사되거나 만들어지지 않습니다. 허용되는 값은 true(기본값) 및 false입니다. fileListPath를 구성하는 경우에는 이 속성이 적용되지 않습니다. 선택됨 또는 선택 취소 No recursive
완료 후 파일 삭제 대상 저장소로 성공적으로 이동한 후 원본 저장소에서 이진 파일을 삭제할지 여부를 나타냅니다. 파일 삭제는 파일 단위이므로 복사 작업이 실패하면 일부 파일이 대상에 이미 복사되어 원본에서 삭제된 반면 다른 파일은 원본 저장소에 남아 있습니다. 이 속성은 이진 파일 복사 시나리오에서만 유효합니다. 기본값: false. 선택됨 또는 선택 취소 deleteFilesAfterCompletion
최대 동시 연결 작업을 실행하는 동안 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. <최대 동시 연결> maxConcurrentConnections

다음 단계

Amazon S3 연결을 만드는 방법