연습 - 데이터 팩터리 복사 작업 사용

완료됨

Data Factory 인스턴스 생성가 완료되면 작성 및 모니터링 단추를 클릭하여 데이터 파이프라인을 만들 수 있는 리소스로 이동할 수 있습니다. 다음과 같은 화면이 열립니다.

Authoring in Azure Data Factory

파이프라인의 첫 번째 단계는 다음 단계를 사용하여 원본과 대상 간에 데이터를 복사하는 복사 작업을 만드는 것입니다.

  1. 왼쪽 사이드바에서 연필 아이콘을 클릭하거나 제작 캔버스를 열 수 있는 파이프라인 생성 단추를 클릭하여 제작 캔버스를 엽니다.

    Screenshot that shows the Create pipeline option highlighted.

  2. 파이프라인을 생성합니다. 팩터리 리소스 창에서 + 단추를 클릭하고 파이프라인을 선택합니다.

    Screenshot that shows Factory Resources under the Data Factory tab. The plus symbol is selected, exposing Pipeline, both are highlighted.

  3. 복사 작업을 추가합니다. 작업 창에서 이동 및 변환 아코디언을 열고 데이터 복사 작업을 파이프라인 캔버스로 끌어다 놓습니다.

    Using the Copy Activity

복사 작업을 추가한 후에는 원본 데이터를 정의하기 시작합니다.

  1. 복사 작업 설정의 원본 탭에서 + 새로 생성를 클릭하여 데이터 원본을 선택합니다.

    Creating as data source

  2. 예를 들어 데이터 저장소 목록에서 Amazon S3 타일을 선택하고 계속을 클릭합니다.

    Select Amazon S3 as a data source

  3. 파일 형식 목록에서 DelimitedText 형식 타일을 선택하고 계속을 클릭합니다.

    Screenshot that shows Delimited Text selected in the Select format list.

  4. 속성 설정 창에서 데이터 세트에 이해하기 쉬운 이름을 지정하고 연결된 서비스 드롭다운을 클릭합니다. S3 연결된 서비스를 만들지 않은 경우 새로 생성를 선택합니다.

    Screenshot that shows the Set Properties window, with filter highlighted under Linked service.

  5. S3 연결된 서비스 구성 창의 경우 S3 액세스 키비밀 키를 지정합니다. Data Factory 서비스는 Microsoft에서 관리하는 인증서를 사용하여 자격 증명을 암호화합니다. 자세한 내용은 데이터 이동 보안 고려 사항을 참조하세요. 자격 증명이 유효한지 확인하려면 연결 테스트를 클릭합니다. 작업을 마쳤으면 만들기를 클릭합니다.

    Setting data source access with keys

  6. 연결된 서비스를 만들고 선택한 후에는 나머지 데이터 세트 설정을 지정합니다. 이러한 설정은 연결에서 데이터를 끌어올 방법 및 위치를 지정합니다. 완료되면 마침을 클릭합니다.

    Finishing up data source settings

  7. 데이터 세트가 올바르게 구성되었는지 확인하려면 복사 작업의 원본 탭에서 데이터 미리 보기를 클릭하여 데이터의 작은 스냅샷을 가져옵니다.

    Previewing data

원본 데이터를 정의한 후에는 데이터가 로드되는 싱크를 정의합니다. 이 예에서는 싱크가 다음 단계를 통해 Azure Data Lake Storage Gen2가 됩니다.

  1. 싱크 탭에서 + 새로 생성를 클릭합니다.

    Defining a data sink in the Copy Activity

  2. Azure Data lake Storage Gen2 타일을 선택하고 계속을 클릭합니다.

    Defining the dataset

  3. 속성 설정 측면 탐색에서 데이터 세트에 이해하기 쉬운 이름을 지정하고 연결된 서비스 드롭다운을 클릭합니다. ADLS 연결된 서비스를 만들지 않은 경우 새로 생성를 선택합니다.

    Setting the dataset properties

  4. ADLS 연결된 서비스 구성 창에서 인증 방법을 선택하고 자격 증명을 입력합니다. 아래 예에서는 계정 키를 선택하고 드롭다운에서 내 스토리지 계정을 선택합니다.

    Finalizing the dataset properties

  5. 연결된 서비스를 구성한 후에는 ADLS 데이터 세트 구성에 입력합니다. 완료되면 마침을 클릭합니다.

    Finish the dataset properties

이제 복사 작업을 완전히 구성했습니다.

  1. 테스트하려면 파이프라인 캔버스 위쪽에 있는 디버그 단추를 클릭합니다. 그러면 파이프라인 디버그 실행이 시작됩니다.

    Testing the Copy Activity

  2. 파이프라인 디버그 실행의 진행률을 모니터링하려면 파이프라인의 출력 탭을 클릭합니다.

    Monitoring the Copy Activity

  3. 작업 출력에 대한 자세한 설명을 보려면 안경 아이콘을 클릭합니다. 이렇게 하면 데이터 읽기/쓰기, 처리량, 자세한 기간 통계와 같은 유용한 메트릭을 제공하는 복사 모니터링 화면이 열립니다.

    Viewing the Copy Activity Results

예상대로 복사되었는지 확인하려면 ADLS gen2 스토리지 계정을 열고 파일이 예상대로 작성되었는지 확인합니다.