빠른 시작: 데이터를 가져와 변환하는 첫 번째 데이터 흐름 만들기

아티클
11/15/2023

데이터 흐름은 셀프 서비스, 클라우드 기반 데이터 준비 기술입니다. 이 문서에서는 첫 번째 데이터 흐름을 만들고, 데이터 흐름에 대한 데이터를 가져온 다음, 데이터를 변환하고, 데이터 흐름을 게시합니다.

필수 조건

시작하기 전에 다음 필수 구성 요소가 필요합니다.

활성 구독이 있는 Microsoft Fabric 테넌트 계정입니다. 무료 계정을 만듭니다.
Microsoft Fabric 사용 작업 영역: 작업 영역 만들기가 있는지 확인합니다.

데이터 흐름 만들기

이 섹션에서는 첫 번째 데이터 흐름을 만듭니다.

데이터 팩터리 환경으로 전환합니다.
Microsoft Fabric 작업 영역으로 이동합니다.
새로 만들기를 선택한 다음, Dataflow Gen2를 선택합니다.

데이터 가져오기

몇 가지 데이터를 살펴보겠습니다. 이 예제에서는 OData 서비스에서 데이터를 가져옵니다. 다음 단계를 사용하여 데이터 흐름에서 데이터를 가져옵니다.

데이터 흐름 편집기에서 데이터 가져오기를 선택한 다음, 자세히를 선택합니다.
데이터 원본 선택에서 자세히 보기를 선택합니다.
새 원본에서 다른>OData를 데이터 원본으로 선택합니다.
URLhttps://services.odata.org/v4/northwind/northwind.svc/을 입력하고 다음을 선택합니다.
주문 및 고객 테이블을 선택한 다음 만들기를 선택합니다.

데이터 가져오기 개요에서 데이터 가져오기 환경 및 기능에 대해 자세히 알아볼 수 있습니다.

변환 적용 및 게시

이제 데이터를 첫 번째 데이터 흐름에 로드했습니다. 축하합니다. 이제 이 데이터를 원하는 셰이프로 가져오기 위해 몇 가지 변환을 적용해야 합니다.

파워 쿼리 편집기에서 이 작업을 수행합니다. 파워 쿼리 사용자 인터페이스에서 파워 쿼리 편집기의 자세한 개요를 찾을 수 있습니다.

다음 단계에 따라 변환을 적용하고 게시합니다.

홈>옵션 전역 옵션>으로 이동하여 데이터 프로파일링 도구를 사용하도록 설정했는지 확인합니다.

또한 파워 쿼리 편집기 리본의 보기 탭 아래 옵션을 사용하거나 파워 쿼리 창의 오른쪽 아래에 있는 다이어그램 보기 아이콘을 선택하여 다이어그램 보기를 사용하도록 설정 했는지 확인합니다.
Orders 테이블 내에서 고객당 총 주문 수를 계산합니다. 이 목표를 달성하려면 데이터 미리 보기에서 CustomerID 열을 선택한 다음 리본 메뉴의 변환 탭 아래에서 그룹화 방법을 선택합니다.
Group By 내에서 집계로 행 수를 수행합니다. 행 그룹화 또는 요약에서 Group By 기능에 대해 자세히 알아볼 수 있습니다.
Orders 테이블에서 데이터를 그룹화한 후 CustomerID 및 Count를 열로 사용하여 2열 테이블을 가져옵니다.
다음으로 고객 테이블의 데이터를 고객당 주문 수와 결합하려고 합니다. 데이터를 결합하려면 다이어그램 뷰에서 고객 쿼리를 선택하고 "⋮" 메뉴를 사용하여 병합 쿼리에 새 변환으로 액세스합니다.
다음 스크린샷과 같이 두 테이블에서 일치하는 열로 CustomerID를 선택하여 병합 작업을 구성합니다. 그런 다음, 확인을 선택합니다.

병합을 위한 왼쪽 테이블이 Customers 테이블로 설정되고 병합의 오른쪽 테이블이 Orders 테이블로 설정된 병합 창의 스크린샷 CustomerID 열은 고객 및 주문 테이블 모두에 대해 선택됩니다. 또한 조인 종류는 왼쪽 외부로 설정됩니다. 다른 모든 선택 항목은 기본값으로 설정됩니다.
병합 쿼리를 새 작업으로 수행하면 Customers 테이블의 모든 열과 Orders 테이블의 중첩된 데이터가 있는 하나의 열이 있는 새 쿼리를 가져옵니다.
이 예제에서는 Customers 테이블의 열 하위 집합에만 관심이 있습니다. 스키마 보기를 사용하여 해당 열을 선택합니다. 데이터 흐름 편집기의 오른쪽 아래 모서리에 있는 토글 단추 내에서 스키마 보기를 사용하도록 설정합니다.
스키마 뷰는 열 이름 및 데이터 형식을 포함하여 테이블의 스키마 정보에 대한 포커스가 있는 보기를 제공합니다. 스키마 보기에는 상황에 맞는 리본 탭을 통해 사용할 수 있는 스키마 도구 집합이 있습니다. 이 시나리오에서는 CustomerID, CompanyName 및 Orders(2) 열을 선택한 다음, 열 제거 단추를 선택한 다음 스키마 도구 탭에서 다른 열 제거를 선택합니다.
Orders(2) 열에는 몇 단계 전에 수행한 병합 작업으로 인한 중첩된 정보가 포함됩니다. 이제 UI의 오른쪽 아래 모서리에 있는 스키마 보기 표시 단추 옆에 있는 데이터 보기 표시 단추를 선택하여 데이터 뷰로 다시 전환합니다. 그런 다음 Orders(2) 열 머리글에서 열 확장 변환을 사용하여 Count 열을 선택합니다.

오른쪽 아래 모서리에 데이터 보기 표시 단추, Orders(2) 열의 확장 열 아이콘, 확장 열 창에서 선택한 개수 열이 있는 데이터 흐름 편집기의 스크린샷
최종 작업으로 주문 수에 따라 고객의 순위를 지정하려고 합니다. 개수 열을 선택한 다음 리본 메뉴의 열 추가 탭에서 열 순위 단추를 선택합니다.
순위 열에 기본 설정을 유지합니다. 그런 다음 확인을 선택하여 이 변환을 적용합니다.
이제 화면 오른쪽에 있는 쿼리 설정 창을 사용하여 결과 쿼리의 이름을 순위가 매겨진 고객으로 바꿉니다.
데이터 변환 및 결합을 완료했습니다. 따라서 이제 출력 대상 설정을 구성합니다. 쿼리 설정 창 아래쪽에서 데이터 대상 선택을 선택합니다.
이 단계에서는 사용 가능한 출력이 있는 경우 Lakehouse에 대한 출력을 구성하거나, 그렇지 않은 경우 이 단계를 건너뛸 수 있습니다. 이 환경 내에서 업데이트 방법(추가 또는 바꾸기) 외에도 쿼리 결과에 대한 대상 레이크하우스 및 테이블을 구성할 수 있습니다.
이제 데이터 흐름을 게시할 준비가 되었습니다. 다이어그램 보기에서 쿼리를 검토한 다음 게시를 선택합니다.

이제 작업 영역으로 돌아갑니다. 데이터 흐름 이름 옆에 있는 회전자 아이콘은 게시가 진행 중임을 나타냅니다. 게시가 완료되면 데이터 흐름을 새로 고칠 준비가 된 것입니다.

Important

작업 영역에서 첫 번째 Dataflow Gen2를 만들면 Lakehouse 및 Warehouse 항목이 관련 SQL 분석 엔드포인트 및 의미 체계 모델과 함께 프로비전됩니다. 이러한 항목은 작업 영역의 모든 데이터 흐름에서 공유되며 Dataflow Gen2가 작동해야 하며 삭제해서는 안 되며 사용자가 직접 사용할 수 없습니다. 항목은 Dataflow Gen2의 구현 세부 정보입니다. 항목은 작업 영역에 표시되지 않지만 Notebook, SQL 분석 엔드포인트, Lakehouse 및 Warehouse 환경과 같은 다른 환경에서 액세스할 수 있습니다. 이름에 있는 접두사로 항목을 인식할 수 있습니다. 항목의 접두사는 'DataflowsStaging'입니다.
작업 영역에서 새로 고침 예약 아이콘을 선택합니다.
예약된 새로 고침을 켜고, 다른 시간 추가를 선택하고, 다음 스크린샷과 같이 새로 고침을 구성합니다.

예약된 새로 고침이 켜져 있고 새로 고침 빈도가 매일로 설정되고 표준 시간대가 조정된 세계 시간으로 설정되고 시간이 오전 4:00로 설정된 예약된 새로 고침 옵션의 스크린샷 켜기 단추, 다른 시간 선택 추가, 데이터 흐름 소유자 및 적용 단추가 모두 강조되어 있습니다.