다음을 통해 공유


Azure Data Factory를 사용하여 Azure Data Lake Storage Gen1에 데이터 로드

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

Azure Data Lake Storage Gen1(이전의 Azure Data Lake Store)은 빅 데이터 분석 워크로드를 위한 엔터프라이즈 수준의 하이퍼스케일 리포지토리입니다. Data Lake Storage Gen1을 사용하면 크기, 유형 및 수집 속도에 관계없이 모든 데이터를 캡처할 수 있습니다. 데이터는 운영 및 탐색적 분석을 위해 단일 위치에서 캡처됩니다.

Azure Data Factory는 완전히 관리되는 클라우드 기반 데이터 통합 서비스입니다. 분석 솔루션을 빌드할 때 서비스를 사용하여 레이크를 기존 시스템의 데이터로 채우면 시간을 절약할 수 있습니다.

Azure Data Factory를 사용하여 Data Lake Storage Gen1으로 데이터를 로드하면 다음과 같은 이점이 있습니다.

  • 간편한 설정: 스크립팅이 필요 없는 직관적인 5단계 마법사.
  • 다양한 데이터 저장소 지원: 다양한 온-프레미스 및 클라우드 기반 데이터 저장소 집합에 대한 기본 제공 지원. 자세한 목록은 지원되는 데이터 저장소 표를 참조하세요.
  • 보안 및 규정 준수: 데이터가 HTTPS 또는 ExpressRoute를 통해 전송됩니다. 글로벌 서비스가 제공되므로 데이터가 지리적 경계를 벗어나지 않습니다.
  • 고성능: 데이터를 Data Lake Storage Gen1에 최대 1GBps 속도로 로드합니다. 자세한 내용은 복사 작업 성능을 참조하세요.

이 문서에서는 Data Factory 복사 데이터 도구를 사용하여 Amazon S3의 데이터를 Data Lake Storage Gen1으로 로드하는 방법을 설명합니다. 다른 데이터 저장소 유형에서 데이터를 복사할 때도 이와 유사한 단계를 따를 수 있습니다.

참고 항목

자세한 내용은 Azure Data Factory를 사용하여 Data Lake Storage Gen1 간에 데이터 복사를 참조하세요.

필수 조건

  • Azure 구독: Azure 구독이 아직 없는 경우 시작하기 전에 무료 계정을 만듭니다.
  • Data Lake Storage Gen1 계정: Data Lake Storage Gen1 계정이 없는 경우 Data Lake Storage Gen1 계정 만들기의 지침을 참조하세요.
  • Amazon S3: 이 문서는 Amazon S3에서 데이터를 복사하는 방법을 보여줍니다. 다음과 같은 유사한 단계를 수행하여 다른 데이터 저장소를 사용할 수 있습니다.

데이터 팩터리 만들기

  1. 아직 Data Factory를 만들지 않은 경우 빠른 시작: Azure Portal 및 Azure Data Factory Studio를 사용하여 Data Factory 만들기 단계에 따라 Data Factory를 만듭니다. 만든 후 Azure Portal에서 데이터 팩터리로 이동합니다.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Azure Data Factory Studio 열기 타일에서 열기를 선택하여 별도의 탭에서 데이터 통합 애플리케이션을 시작합니다.

Data Lake Storage Gen1에 데이터 로드

  1. 홈페이지에서 수집 타일을 선택하여 데이터 복사 도구를 시작합니다.

    Screenshot that shows the ADF home page.

  2. 속성 페이지에서 작업 이름 필드를 CopyFromAmazonS3ToADLS로 지정하고 다음을 선택합니다.

    Properties page

  3. 원본 데이터 저장소 페이지에서 +새 연결 만들기를 선택합니다.

    Source data store page

    Amazon S3, 계속을 차례로 선택합니다.

    Source data store s3 page

  4. Amazon S3 연결 지정 페이지에서 다음 단계를 수행합니다.

    1. 액세스 키 ID 값을 지정합니다.

    2. 비밀 액세스 키 값을 지정합니다.

    3. 마침을 선택합니다.

      Screenshot shows the New Linked Service pane where you can enter values.

    4. 새 연결이 표시됩니다. 다음을 선택합니다.

    Screenshot shows your new connection.

  5. 입력 파일 또는 폴더 선택 페이지에서 복사하려는 폴더 및 파일로 이동합니다. 폴더/파일을 선택하고 선택, 다음을 차례로 선택합니다.

    Choose input file or folder

  6. 재귀적으로 파일 복사이진 복사(있는 그대로 파일 복사) 옵션을 선택하여 복사 동작을 선택합니다. 다음을 선택합니다.

    Screenshot shows the Choose the input file or folder where you can select Copy file recursively and Binary Copy.

  7. 대상 데이터 저장소 페이지에서 + 새 연결 만들기를 선택한 다음, Azure Data Lake Storage Gen1을 선택하고 계속을 선택합니다.

    Destination data store page

  8. New Linked Service (Azure Data Lake Storage Gen1)[새 연결된 서비스(Azure Data Lake Storage Gen1)] 페이지에서 다음 단계를 수행합니다.

    1. Data Lake Store 계정 이름으로 Data Lake Storage Gen1 계정을 선택합니다.
    2. 테넌트를 지정하고 마침을 선택합니다.
    3. 다음을 선택합니다.

    Important

    이 연습에서는 Azure 리소스용 관리 ID를 사용하여 Data Lake Storage Gen1 계정을 인증합니다. 다음 지침에 따라 Data Lake Storage Gen1에서 MSI에 적절한 권한을 부여합니다.

    Specify Data Lake Storage Gen1 account

  9. 출력 파일 또는 폴더 선택 페이지에서 출력 폴더 이름으로 copyfroms3를 입력하고 다음을 선택합니다.

    Screenshot shows the folder path you enter.

  10. 설정 페이지에서 다음을 선택합니다.

    Settings page

  11. 요약 페이지에서 설정을 검토하고, 다음을 선택합니다.

    Summary page

  12. 배포 페이지에서 모니터를 선택하여 파이프라인(작업)을 모니터링합니다.

    Deployment page

  13. 왼쪽의 모니터 탭이 자동으로 선택됩니다. 작업 열에는 활동 실행 세부 정보를 보고 파이프라인을 다시 실행하기 위한 링크가 있습니다.

    Monitor pipeline runs

  14. 파이프라인 실행과 연결된 활동 실행을 보려면 작업 열에서 활동 실행 보기 링크를 선택합니다. 파이프라인에는 하나의 작업(복사 작업)만 있으므로 하나의 항목만 표시됩니다. 파이프라인 실행 보기로 전환하려면 위쪽의 파이프라인 링크를 선택합니다. 새로 고침을 선택하여 목록을 새로 고칩니다.

    Monitor activity runs

  15. 각 복사 작업의 실행 세부 정보를 모니터링하려면 작업 모니터링 보기의 작업 아래에서 세부 정보 링크를 선택합니다. 원본에서 싱크로 복사되는 데이터 볼륨, 데이터 처리량, 해당 기간의 실행 단계, 사용되는 구성 등의 세부 정보를 모니터링할 수 있습니다.

    Monitor activity run details

  16. 데이터가 Data Lake Storage Gen1 계정에 복사되었는지 확인합니다.

    Verify Data Lake Storage Gen1 output

다음 문서로 이동하여 Data Lake Storage Gen1 지원에 대해 알아봅니다.