복사 작업에서 Google Cloud Storage를 구성하는 방법

이 문서에서는 데이터 파이프라인의 복사 작업을 사용하여 Google Cloud Storage에서 Google Cloud Storage로 데이터를 복사하는 방법을 간략하게 설명합니다.

중요

Microsoft Fabric은 현재 미리 보기로 제공됩니다. 이 정보는 릴리스되기 전에 상당히 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보와 관련하여 명시적이거나 묵시적인 어떠한 보증도 하지 않습니다. Azure의 서비스에 대한 Azure Data Factory 설명서를 참조하세요.

필수 구성 요소

Google Cloud Storage 계정에는 다음 설정이 필요합니다.

  1. Google Cloud Storage 계정에 대한 상호 운용성 사용

  2. 대상 GCS 버킷에서 복사할 데이터가 포함된 기본 프로젝트를 설정합니다.

  3. GCP에서 클라우드 IAM을 사용하여 서비스 계정을 만들고 적절한 수준의 권한을 정의합니다.

  4. 이 서비스 계정에 대한 액세스 키를 생성합니다.

    Google Cloud Storage의 액세스 키를 보여 주는 스크린샷

필요한 사용 권한

Google Cloud Storage에서 데이터를 복사하려면 개체 작업에 대한 storage.objects.getstorage.objects.list의 사용 권한이 부여되었는지 확인합니다.

또한 storage.buckets.list 연결 테스트 및 루트에서 검색과 같은 작업에는 권한이 필요합니다.

Google Cloud Storage 역할 및 관련 권한의 전체 목록은 Google Cloud 사이트의 Cloud Storage에 대한 IAM 역할 로 이동합니다.

지원되는 형식

Google Cloud Storage는 다음 파일 형식을 지원합니다. 형식 기반 설정에 대한 각 문서를 참조하세요.

지원되는 구성

복사 작업에서 각 탭의 구성에 대해 각각 다음 섹션으로 이동합니다.

일반

일반 탭 구성의 경우 일반으로 이동합니다.

원본

복사 작업의 원본 탭에서 Google Cloud Storage에 대해 지원되는 속성은 다음과 같습니다.

원본 탭 및 속성 목록을 보여 주는 스크린샷

다음 속성이 필요합니다.

  • 데이터 저장소 유형: 외부를 선택합니다.
  • 연결: 연결 목록에서 Google Cloud Storage 연결을 선택합니다. 연결이 없으면 새로 만들기를 선택하여 새 Google Cloud Storage 연결을 만듭니다.
  • 파일 경로: 찾아보기를 선택하여 복사할 파일을 선택하거나 경로를 수동으로 채웁니다.
  • 파일 설정: 파일 설정을 선택하여 파일 형식을 구성합니다. 다른 파일 형식의 설정은 자세한 내용은 지원되는 형식 을 참조하세요.

고급에서 다음 필드를 지정할 수 있습니다.

  • 파일 경로 형식: 파일 경로, 접두사, 와일드카드 파일 경로 또는 파일 목록을 파일 경로 형식으로 선택할 수 있습니다. 이러한 각 설정의 구성은 다음과 같습니다.

    • 파일 경로: 이 형식을 선택하면 지정된 버킷 또는 파일 경로에 지정된 폴더/파일 경로에서 데이터를 복사할 수 있습니다.

    • 접두사: 원본 GCS 파일을 필터링하도록 구성된 지정된 버킷 아래에 있는 GCS 키 이름의 접두사입니다. 이름이 given_bucket/this_prefix로 시작하는 GCS 키가 선택됩니다. 와일드카드 필터보다 나은 성능을 제공하는 GCS의 서비스 필터를 활용합니다.

      접두사를 보여 주는 스크린샷

    • 와일드카드 파일 경로: 지정된 버킷 아래에 와일드카드 문자가 있는 폴더 또는 파일 경로를 지정하여 원본 폴더 또는 파일을 필터링합니다.

      허용되는 와일드카드는 *(문자 0자 이상 일치) 및 ?(문자 0자 또는 1자 일치)입니다. 폴더 이름에 와일드카드 또는 이 이스케이프 문자가 있는 경우 ^을 사용하여 이스케이프합니다. 더 많은 예제를 보려면 폴더 및 파일 필터 예제를 참조하세요.

      • 와일드카드 폴더 경로: 지정된 버킷 아래에 와일드카드 문자가 있는 폴더 경로를 지정하여 원본 폴더를 필터링합니다.

        와일드카드 파일 경로를 보여 주는 스크린샷

      • 와일드카드 파일 이름: 원본 파일을 필터링하려면 지정된 버킷 및 폴더 경로(또는 와일드카드 폴더 경로) 아래에 와일드카드 문자가 있는 파일 이름을 지정합니다.

    • 파일 목록: 지정된 파일 집합을 복사하도록 나타냅니다. 복사할 파일 목록이 포함된 텍스트 파일을 가리키며, 파일 경로에 구성된 경로의 상대 경로인 한 줄당 하나의 파일을 가리킵니다.

      이 옵션을 사용하는 경우 파일 이름을 지정하지 마세요. 더 많은 예제를 보려면 파일 목록 예제를 참조하세요.

      파일 목록을 보여 주는 스크린샷

  • 재귀적: 하위 폴더에서 데이터를 재귀적으로 읽는지 또는 지정된 폴더에서만 읽을지 여부를 나타냅니다. 이 확인란을 선택하고 대상이 파일 기반 저장소인 경우 빈 폴더 또는 하위 폴더가 대상에서 복사되거나 만들어지지 않습니다.

  • 완료 후 파일 삭제: 대상 저장소로 성공적으로 이동한 후 이진 파일이 원본 저장소에서 삭제되는지 여부를 나타냅니다. 파일 삭제는 파일 단위이므로 복사 작업이 실패하면 일부 파일이 대상에 이미 복사되어 원본에서 삭제된 반면 다른 파일은 원본 저장소에 남아 있습니다. 이 속성은 이진 파일 복사 시나리오에서만 유효합니다.

  • 최대 동시 연결: 작업 실행 중에 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다.

매핑

매핑 탭 구성의 경우 매핑 탭에서 매핑 구성을 참조하세요. 이진 파일을 파일 형식으로 선택하면 매핑이 지원되지 않습니다.

설정

설정 탭 구성의 경우 설정 탭에서 다른 설정 구성으로 이동합니다.

테이블 요약

다음 표에는 Google Cloud Storage의 복사 활동에 대한 자세한 정보가 포함되어 있습니다.

원본 정보입니다.

이름 Description 필수 JSON 스크립트 속성
데이터 저장소 유형 데이터 저장소 형식입니다. 외부 /
연결 원본 데이터 저장소에 대한 연결입니다. <연결> connection
파일 경로 이 형식을 선택하면 지정된 버킷 또는 파일 경로에 지정된 폴더/파일 경로에서 데이터를 복사할 수 있습니다. container
fileName
파일 경로 형식 사용하려는 파일 경로 형식입니다. • 파일 경로
•접두사
• 와일드카드 폴더 경로
•파일 목록

•접두사
• 와일드카드FolderPath, 와일드카드FileName
• 파일 목록 경로
Recursively 하위 폴더 또는 지정된 폴더에서만 데이터를 재귀적으로 읽을지 여부를 나타냅니다. 이 확인란을 선택하고 대상이 파일 기반 저장소인 경우 대상에서 빈 폴더 또는 하위 폴더가 복사되거나 만들어지지 않습니다. 선택 또는 선택 취소 No recursive
완료 후 파일 삭제 대상 저장소로 성공적으로 이동한 후 이진 파일이 원본 저장소에서 삭제되는지 여부를 나타냅니다. 파일 삭제는 파일 단위이므로 복사 작업이 실패하면 일부 파일이 대상에 이미 복사되어 원본에서 삭제된 반면 다른 파일은 원본 저장소에 남아 있습니다. 이 속성은 이진 파일 복사 시나리오에서만 유효합니다. 선택 또는 선택 취소 deleteFilesAfterCompletion
최대 동시 연결 작업을 실행하는 동안 데이터 저장소에 설정된 동시 연결의 상한입니다. 동시 연결을 제한하려는 경우에만 값을 지정합니다. <최대 동시 연결> maxConcurrentConnections

다음 단계

Google Cloud Storage 연결을 만드는 방법