빠른 시작: 데이터를 가져와 변환하는 첫 번째 데이터 흐름 만들기

데이터 흐름은 셀프 서비스, 클라우드 기반 데이터 준비 기술입니다. 이 문서에서는 첫 번째 데이터 흐름을 만들고, 데이터 흐름에 대한 데이터를 가져온 다음, 데이터를 변환하고, 데이터 흐름을 게시합니다.

필수 조건

시작하기 전에 다음 필수 구성 요소가 필요합니다.

데이터 흐름 만들기

이 섹션에서는 첫 번째 데이터 흐름을 만듭니다.

  1. 데이터 팩터리 환경으로 전환합니다.

    Screenshot with the data factory experience emphasized.

  2. Microsoft Fabric 작업 영역으로 이동합니다.

    Screenshot of the workspaces window where you navigate to your workspace.

  3. 새로 만들기를 선택한 다음, Dataflow Gen2를 선택합니다.

    Screenshot with the Dataflow Gen2 selection emphasized.

데이터 가져오기

몇 가지 데이터를 살펴보겠습니다. 이 예제에서는 OData 서비스에서 데이터를 가져옵니다. 다음 단계를 사용하여 데이터 흐름에서 데이터를 가져옵니다.

  1. 데이터 흐름 편집기에서 데이터 가져오기를 선택한 다음, 자세히를 선택합니다.

    Screenshot with the Get Data option selected and More emphasized in the drop-down box.

  2. 데이터 원본 선택에서 자세히 보기를 선택합니다.

    Screenshot of Get data source with View more emphasized.

  3. 새 원본에서 다른>OData를 데이터 원본으로 선택합니다.

    Screenshot of Get data source with the Other category and the OData connector emphasized.

  4. URLhttps://services.odata.org/v4/northwind/northwind.svc/을 입력하고 다음을 선택합니다.

    Screenshot of the OData data source where you enter the data URL.

  5. 주문 및 고객 테이블을 선택한 다음 만들기를 선택합니다.

    Screenshot of the Power Query navigator with the Customers and Orders tables emphasized.

데이터 가져오기 개요에서 데이터 가져오기 환경 및 기능에 대해 자세히 알아볼 수 있습니다.

변환 적용 및 게시

이제 데이터를 첫 번째 데이터 흐름에 로드했습니다. 축하합니다. 이제 이 데이터를 원하는 셰이프로 가져오기 위해 몇 가지 변환을 적용해야 합니다.

파워 쿼리 편집기에서 이 작업을 수행합니다. 파워 쿼리 사용자 인터페이스에서 파워 쿼리 편집기의 자세한 개요를 찾을 수 있습니다.

다음 단계에 따라 변환을 적용하고 게시합니다.

  1. >옵션 전역 옵션>으로 이동하여 데이터 프로파일링 도구를 사용하도록 설정했는지 확인합니다.

    Screenshot of Global options with the Column profile selections emphasized.

    또한 파워 쿼리 편집기 리본의 보기 탭 아래 옵션을 사용하거나 파워 쿼리 창의 오른쪽 아래에 있는 다이어그램 보기 아이콘을 선택하여 다이어그램 보기를 사용하도록 설정 했는지 확인합니다.

    Screenshot of the overall look of Power Query diagram view.

  2. Orders 테이블 내에서 고객당 총 주문 수를 계산합니다. 이 목표를 달성하려면 데이터 미리 보기에서 CustomerID 열을 선택한 다음 리본 메뉴의 변환 탭 아래에서 그룹화 방법을 선택합니다.

    Screenshot showing the Orders table selected, and Group by emphasized in the Transform tab.

  3. Group By 내에서 집계로 행 수를 수행합니다. 행 그룹화 또는 요약에서 Group By 기능에 대해 자세히 알아볼 수 있습니다.

    Screenshot of Group by, with the Count rows operation selected.

  4. Orders 테이블에서 데이터를 그룹화한 후 CustomerIDCount를 열로 사용하여 2열 테이블을 가져옵니다.

    Screenshot of the two column table.

  5. 다음으로 고객 테이블의 데이터를 고객당 주문 수와 결합하려고 합니다. 데이터를 결합하려면 다이어그램 뷰에서 고객 쿼리를 선택하고 "⋮" 메뉴를 사용하여 병합 쿼리에 변환으로 액세스합니다.

    Screenshot of the dataflow editor, with the vertical ellipsis of the Customers table and Merge queries as new emphasized.

  6. 다음 스크린샷과 같이 두 테이블에서 일치하는 열로 CustomerID선택하여 병합 작업을 구성합니다. 그런 다음, 확인을 선택합니다.

    Screenshot of the Merge window.

    병합을 위한 왼쪽 테이블이 Customers 테이블로 설정되고 병합의 오른쪽 테이블이 Orders 테이블로 설정된 병합 창의 스크린샷 CustomerID 열은 고객 및 주문 테이블 모두에 대해 선택됩니다. 또한 조인 종류는 왼쪽 외부로 설정됩니다. 다른 모든 선택 항목은 기본값으로 설정됩니다.

  7. 병합 쿼리를 새 작업으로 수행하면 Customers 테이블의 모든 열과 Orders 테이블의 중첩된 데이터가 있는 하나의 열이 있는 새 쿼리를 가져옵니다.

    Screenshot of the dataflows editor with the new Merge query added to the right of the Customers and Orders tables.

  8. 이 예제에서는 Customers 테이블의 열 하위 집합에만 관심이 있습니다. 스키마 보기를 사용하여 해당 열을 선택합니다. 데이터 흐름 편집기의 오른쪽 아래 모서리에 있는 토글 단추 내에서 스키마 보기를 사용하도록 설정합니다.

    Screenshot of the dataflows editor with the schema view button emphasized in the bottom-right corner.

  9. 스키마 뷰는 열 이름 및 데이터 형식을 포함하여 테이블의 스키마 정보에 대한 포커스가 있는 보기를 제공합니다. 스키마 보기에는 상황에 맞는 리본 탭을 통해 사용할 수 있는 스키마 도구 집합이 있습니다. 이 시나리오에서는 CustomerID, CompanyNameOrders(2) 열을 선택한 다음, 열 제거 단추를 선택한 다음 스키마 도구 탭에서 다른 열 제거를 선택합니다.

    Screenshot of the schema view showing all of the available column names, with the CustomerID, CompanyName, and Orders (2) columns emphasized.

    Screenshot of the schema tools menu with Remove other columns emphasized.

  10. Orders(2) 열에는 몇 단계 전에 수행한 병합 작업으로 인한 중첩된 정보가 포함됩니다. 이제 UI의 오른쪽 아래 모서리에 있는 스키마 보기 표시 단추 옆에 있는 데이터 보기 표시 단추를 선택하여 데이터 뷰로 다시 전환합니다. 그런 다음 Orders(2) 열 머리글에서 확장 변환을 사용하여 Count 열을 선택합니다.

    Screenshot for using data view.

  11. 최종 작업으로 주문 수에 따라 고객의 순위를 지정하려고 합니다. 개수 열을 선택한 다음 리본 메뉴의 추가 탭에서 순위 단추를 선택합니다.

    Screenshot of the dataflows editor with the Count column selected.

  12. 순위 열기본 설정을 유지합니다. 그런 다음 확인을 선택하여 이 변환을 적용합니다.

    Screenshot of the Rank window with all default settings displayed.

  13. 이제 화면 오른쪽에 있는 쿼리 설정 창을 사용하여 결과 쿼리의 이름을 순위가 매겨진 고객으로 바꿉니다.

    Screenshot of the dataflows editor with the Ranked Customers name emphasized under the query settings properties.

  14. 데이터 변환 및 결합을 완료했습니다. 따라서 이제 출력 대상 설정을 구성합니다. 쿼리 설정 창 아래쪽에서 데이터 대상 선택을 선택합니다.

    Screenshot of the dataflows editor with the location of the Data destination selection emphasized.

  15. 이 단계에서는 사용 가능한 출력이 있는 경우 Lakehouse에 대한 출력을 구성하거나, 그렇지 않은 경우 이 단계를 건너뛸 수 있습니다. 이 환경 내에서 업데이트 방법(추가 또는 바꾸기) 외에도 쿼리 결과에 대한 대상 레이크하우스 및 테이블을 구성할 수 있습니다.

    Screenshot of the Connect to data destination window with lakehouse selected.

    Screenshot of the Choose destination settings window.

  16. 이제 데이터 흐름을 게시할 준비가 되었습니다. 다이어그램 보기에서 쿼리를 검토한 다음 게시를 선택합니다.

    Screenshot of the dataflows editor with the Publish button on the lower-right side emphasized.

    이제 작업 영역으로 돌아갑니다. 데이터 흐름 이름 옆에 있는 회전자 아이콘은 게시가 진행 중임을 나타냅니다. 게시가 완료되면 데이터 흐름을 새로 고칠 준비가 된 것입니다.

    Important

    작업 영역에서 첫 번째 Dataflow Gen2를 만들면 Lakehouse 및 Warehouse 항목이 관련 SQL 분석 엔드포인트 및 의미 체계 모델과 함께 프로비전됩니다. 이러한 항목은 작업 영역의 모든 데이터 흐름에서 공유되며 Dataflow Gen2가 작동해야 하며 삭제해서는 안 되며 사용자가 직접 사용할 수 없습니다. 항목은 Dataflow Gen2의 구현 세부 정보입니다. 항목은 작업 영역에 표시되지 않지만 Notebook, SQL 분석 엔드포인트, Lakehouse 및 Warehouse 환경과 같은 다른 환경에서 액세스할 수 있습니다. 이름에 있는 접두사로 항목을 인식할 수 있습니다. 항목의 접두사는 'DataflowsStaging'입니다.

  17. 작업 영역에서 새로 고침 예약 아이콘을 선택합니다.

    Screenshot of the workspace with the schedule refresh icon emphasized.

  18. 예약된 새로 고침을 켜고, 다른 시간 추가를 선택하고, 다음 스크린샷과 같이 새로 고침을 구성합니다.

    Screenshot showing how to select another time.

    예약된 새로 고침이 켜져 있고 새로 고침 빈도가 매일로 설정되고 표준 시간대가 조정된 세계 시간으로 설정되고 시간이 오전 4:00로 설정된 예약된 새로 고침 옵션의 스크린샷 켜기 단추, 다른 시간 선택 추가, 데이터 흐름 소유자 및 적용 단추가 모두 강조되어 있습니다.

리소스 정리

이 데이터 흐름을 계속 사용하지 않려면 다음 단계를 사용하여 데이터 흐름을 삭제합니다.

  1. Microsoft Fabric 작업 영역으로 이동합니다.

    Screenshot of the workspaces window where you navigate to your workspace.

  2. 데이터 흐름 이름 옆에 있는 세로 줄임표를 선택한 다음 삭제를 선택합니다.

    Screenshot with the three vertical dots and the delete option in the drop-down menu emphasized.

  3. 삭제를 선택하여 데이터 흐름 삭제를 확인합니다.

    Screenshot of the Delete dataflow window, with the Delete button emphasized.

이 샘플의 데이터 흐름은 Dataflow Gen2에서 데이터를 로드하고 변환하는 방법을 보여 줍니다. 다음 방법에 대해 알아보았습니다.

  • 데이터 흐름 Gen2를 만듭니다.
  • 데이터를 변환합니다.
  • 변환된 데이터에 대한 대상 설정을 구성합니다.
  • 데이터 파이프라인을 실행하고 예약합니다.

다음 문서로 이동하여 첫 번째 데이터 파이프라인을 만드는 방법을 알아봅니다.