모듈 1: Data Factory를 사용하여 파이프라인 만들기
이 모듈은 파이프라인의 복사 작업 사용하여 원본 저장소의 원시 데이터를 Data Lakehouse의 Bronze 테이블로 수집하는 데 10분이 걸립니다.
모듈 1의 개략적인 단계는 다음과 같습니다.
- 데이터 파이프라인을 만듭니다.
- 파이프라인에서 복사 작업을 사용하여 데이터 레이크하우스에 샘플 데이터를 로드합니다.
중요
Microsoft Fabric은 현재 미리 보기로 제공됩니다. 이 정보는 릴리스되기 전에 상당히 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보와 관련하여 명시적이거나 묵시적인 어떠한 보증도 하지 않습니다. Azure의 서비스에 대한 Azure Data Factory 설명서를 참조하세요.
데이터 파이프라인 만들기
활성 구독이 있는 Microsoft Fabric 테넌트 계정이 필요합니다. 체험 계정을 만듭니다.
Microsoft Fabric 사용 작업 영역: 작업 영역 만들기가 있는지 확인합니다.
Power BI에 로그인합니다.
화면 왼쪽 아래에서 기본 Power BI 아이콘을 선택하고 Data Factory 환경으로 전환합니다.
데이터 파이프라인을 선택하고 파이프라인 이름을 제공합니다. 그런 다음 만들기를 선택합니다.
파이프라인의 복사 작업 사용하여 데이터 레이크하우스에 샘플 데이터 로드
1단계: 새 파이프라인에서 복사 작업 만듭니다.
파이프라인 활동 추가를 선택한 다음, 표시된 활동 목록에서 데이터 복사를 선택합니다.
2단계: 새 복사 작업 원본 설정을 구성합니다.
파이프라인 캔버스 아래의 속성 영역에서 원본 탭을 선택한 다음 , + 새로 만들기를 선택하여 새 데이터 원본을 만듭니다. 원본 탭이 표시되지 않으면 먼저 파이프라인 캔버스 영역에서 데이터 복사 작업을 선택해야 할 수 있습니다.
Azure Blob Storage 선택한 다음 계속을 선택합니다.
새 연결 대화 상자에서 연결에 대한 관련 세부 정보를 제공합니다. 이 자습서에서는 NYC Taxi 샘플 데이터에 대해 다음 설정을 사용합니다.
- 계정 이름 또는 URL -
https://nyctaxisample.blob.core.windows.net/sample
- 연결 - 변경되지 않고 새 연결 만들기 가 선택된 상태로 유지됩니다.
- 연결 이름 - NYC-Taxi-Anonymous
- 인증 종류 - 익명
그런 다음 만들기를 선택합니다.
- 계정 이름 또는 URL -
만든 새 데이터 원본의 원본 탭에서 파일 경로 유형에 대한 파일 경로 옵션을 선택하고 최상위 경로에 대한 샘플을 입력한 다음 찾아보기 드롭다운을 선택하여 지정된 경로에서를 선택합니다.
표시되는 찾아보기 대화 상자에서 NYC-Taxi-Green-2015-01.parquet을 선택하고 확인을 선택합니다.
파일 형식 드롭다운에 대해 Parquet를 선택한 다음, 데이터 미리 보기를 선택합니다.
3단계: 복사 작업 대한 대상 설정을 구성합니다.
복사 작업 대상 탭을 선택한 다음, + 새로 만들기를 선택하여 새 Lakehouse 대상을 만들고 이름을 지정합니다. 이 자습서에서는 대상 Bronze의 이름을 지정합니다. 이름을 입력한 후 만들기를 선택합니다.
테이블 이름 속성의 경우 편집 확인란을 선택하여 데이터가 로드되는 새 Lakehouse 테이블을 만들고 nyc_taxi 이름을 제공합니다.
4단계: 복사 작업 실행하고 결과를 봅니다.
파이프라인 편집기에서 실행 탭을 선택합니다. 그런 다음 실행 단추를 선택한 다음, 프롬프트에서 저장하고 실행하여 복사 작업 실행합니다.
실행을 모니터링하고 파이프라인 캔버스 아래의 출력 탭에서 결과를 검사 수 있습니다. 실행 세부 정보 단추(실행 중인 파이프라인 실행을 마우스로 가리키면 표시되는 "안경" 아이콘)를 선택하여 실행 세부 정보를 확인합니다.
실행 세부 정보에는 1,508,501개의 행이 읽고 기록됩니다.
기간 분석 섹션을 확장하여 복사 작업 각 단계의 기간을 확인합니다. 복사 세부 정보를 검토한 후 닫기를 선택합니다.
다음 단계
Microsoft Fabric에서 Data Factory를 사용하여 첫 번째 데이터 통합을 위한 엔드 투 엔드 자습서의 첫 번째 모듈에서는 다음을 수행하는 방법을 알아보았습니다.
- 데이터 파이프라인을 만듭니다.
- 파이프라인에 복사 작업 추가합니다.
- 샘플 데이터를 사용하고 Data Lakehouse를 만들어 새 테이블에 데이터를 저장합니다.
- 파이프라인을 실행하고 세부 정보 및 기간 분석을 확인합니다.
이제 다음 섹션을 계속 진행하여 데이터 흐름을 만듭니다.