다음을 통해 공유


모듈 1: Data Factory를 사용하여 파이프라인 만들기

이 모듈은 파이프라인의 복사 작업 사용하여 원본 저장소에서 데이터 레이크하우스의 Bronze 테이블로 원시 데이터를 수집하는 데 10분이 걸립니다.

모듈 1의 개략적인 단계는 다음과 같습니다.

  1. 데이터 파이프라인을 만듭니다.
  2. 파이프라인의 복사 작업을 사용하여 데이터 레이크하우스에 샘플 데이터를 로드합니다.

데이터 파이프라인 만들기

  1. 활성 구독이 있는 Microsoft Fabric 테넌트 계정이 필요합니다. 무료 계정을 만듭니다.

  2. Microsoft Fabric 사용 작업 영역: 작업 영역 만들기가 있는지 확인합니다.

  3. Power BI에 로그인합니다.

  4. 화면 왼쪽 아래에서 기본 Power BI 아이콘을 선택하고 Data Factory 환경으로 전환합니다.

    Screenshot showing the selection of the Data Factory experience.

  5. 데이터 파이프라인을 선택하고 파이프라인 이름을 제공합니다. 그런 다음 만들기를 선택합니다.

    Screenshot of the Data Factory start page with the button to create a new data pipeline selected.

    Screenshot showing the dialog to give the new pipeline a name.

파이프라인의 복사 작업 사용하여 데이터 레이크하우스에 샘플 데이터 로드

1단계: 복사 도우미 사용하여 복사 작업을 구성합니다.

데이터 복사를 선택하여 복사 도우미 도구를 엽니다.

Screenshot showing the selection of the Copy data activity from the new pipeline start page.

2단계: 복사 도우미 설정을 구성합니다.

  1. 데이터 복사 대화 상자가 첫 번째 단계인 데이터 원본 선택과 함께 표시됩니다. 필요한 경우 데이터 원본 섹션으로 스크롤하고 Azure Blob Storage 데이터 원본 형식을 선택합니다. 그런 후 다음을 선택합니다.

    Screenshot showing the selection of the Azure Blob Storage data source type in the copy assistant on the Choose data source tab.

  2. 다음 단계에서 새 연결 만들기를 선택한 다음, 이 자습서에 제공된 샘플 데이터를 호스팅하는 Blob Storage의 URL을 제공합니다https://nyctaxisample.blob.core.windows.net/sample. 인증 종류가 익명입니다. URL을 제공한 후 다음을 선택합니다.

    Screenshot showing the creation of a new Azure Blob Storage connection with the URL for the sample data in the tutorial.

  3. 데이터 원본에 대한 커넥트 단계가 나타나고 처음에는 Blob Storage의 샘플 폴더에만 권한이 부여되었으므로 파일을 나열할 수 없음 오류가 표시됩니다. 폴더 이름, 샘플을 제공하고 다시 시도를 선택합니다.

    Screenshot showing the Unable to list files error with the folder name Sample provided.

    참고 항목

    Blob Storage 폴더는 대/소문자를 구분하며 모든 소문자여야 합니다.

  4. Blob Storage 브라우저가 다음에 나타납니다. NYC-Taxi-Green-2015-01.parquet 파일을 선택하고 데이터 미리 보기가 표시되기를 기다립니다. 그런 후 다음을 선택합니다.

    Screenshot showing the preview data for the NYC-Taxi-Green-2015-01.parquet file.

  5. 복사 도우미 데이터 대상 선택 단계에서 Lakehouse를 선택한 다음, 다음을 선택합니다.

    Screenshot showing the selection of the Lakehouse destination on the Choose data destination tab of the Copy data assistant.

  6. 표시되는 데이터 대상 구성 페이지에서 새 Lakehouse 만들기를 선택하고 새 Lakehouse의 이름을 입력합니다. 그런 다음, 다음을 다시 선택합니다.

    Screenshot showing the data destination configuration page of the Copy assistant, choosing the Create new Lakehouse option and providing a Lakehouse name.

  7. 이제 선택에서 Lakehouse 대상의 세부 정보를 구성하고 폴더 경로 또는 테이블에 매핑합니다. 루트 폴더에 대한 테이블을 선택하고, 테이블 이름을 제공하고, 덮어쓰기 작업을 선택합니다. 테이블 덮어쓰기 작업을 선택한 후 표시되는 파티션 검사 사용 상자를 검사 마세요.

    Screenshot showing the Connect to data destination tab of the Copy data assistant, on the Select and map to folder path or table step.

  8. 마지막으로 복사 데이터 도우미 검토 + 저장 페이지에서 구성을 검토합니다. 이 자습서에서는 다음 단계에서 작업을 수동으로 실행하므로 시작 데이터 전송을 즉시 검사box에 검사 않습니다. 그런 다음 확인을 선택합니다.

    Screenshot showing the Copy data assistant on the Review + save page.

3단계: 복사 작업 결과를 실행하고 확인합니다.

  1. 파이프라인 편집기 에서 실행 탭을 선택합니다. 그런 다음 실행 단추를 선택한 다음, 프롬프트에서 저장하고 실행하여 복사 작업 실행합니다.

    Screenshot showing the pipeline Run tab with the Run button highlighted.

    Screenshot showing the Save and run dialog with the Save and run button highlighted.

  2. 실행을 모니터링하고 파이프라인 캔버스 아래의 출력 탭에서 결과를 검사 수 있습니다. 실행 세부 정보 단추(실행 중인 파이프라인 실행을 마우스로 가리키면 나타나는 "안경" 아이콘)를 선택하여 실행 세부 정보를 봅니다.

    Screenshot showing the run details button in the pipeline Output tab.

  3. 실행 세부 정보에는 읽고 쓴 1,508,501개의 행이 표시됩니다.

    Screenshot of the Copy data details for the pipeline run.

  4. 기간 분석 섹션을 확장하여 복사 작업 각 단계의 기간을 확인합니다. 복사 세부 정보를 검토한 후 닫기를 선택합니다.

    Screenshot showing the duration breakdown of the Copy activity run.

Microsoft Fabric에서 Data Factory를 사용하여 첫 번째 데이터 통합을 위한 엔드 투 엔드 자습서의 첫 번째 모듈에서는 다음 방법을 알아보았습니다.

  • 데이터 파이프라인을 만듭니다.
  • 파이프라인에 복사 작업 추가합니다.
  • 샘플 데이터를 사용하고 Data Lakehouse를 만들어 새 테이블에 데이터를 저장합니다.
  • 파이프라인을 실행하고 세부 정보 및 기간 분석을 확인합니다.

이제 다음 섹션으로 이동하여 데이터 흐름을 만듭니다.