다음을 통해 공유


모듈 2: 데이터 팩터리의 데이터 흐름으로 데이터를 변환합니다.

이 모듈은 데이터 흐름을 만들고, 변환을 적용하고, 브론즈 테이블에서 골드 레이크하우스 테이블로 원시 데이터를 이동하는 데 약 25분이 걸립니다.

마지막 모듈에서 브론즈 레이크하우스 테이블에 원시 데이터를 로드하면 이제 해당 데이터를 준비하고 특정 날짜 동안 각 공급업체 및 해당 트립에 대한 할인이 포함된 다른 테이블과 결합하여 데이터를 보강할 수 있습니다. 이 최종 골드 레이크하우스 테이블이 로드되고 사용할 준비가 되었습니다.

데이터 흐름의 개략적인 단계는 다음과 같습니다.

  • 모듈 1: 데이터 팩터리로 파이프라인 만들기의 복사 작업으로 만든 레이크하우스 테이블에서 원시 데이터를 가져옵니다.
  • 레이크하우스 테이블에서 가져온 데이터를 변환합니다.
  • 할인 데이터가 포함된 CSV 파일에 연결합니다.
  • 할인 데이터를 변환합니다.
  • 트립 및 할인 데이터를 결합합니다.
  • 출력 쿼리를 골드 레이크하우스 테이블에 로드합니다.

레이크하우스 테이블에서 데이터 가져오기

  1. 사이드바에서 만들기를 선택한 다음 Dataflow Gen2를 선택하여 새 Dataflow Gen2를 만듭니다. Dataflow Gen2 단추가 강조 표시된 패브릭 만들기 페이지를 보여 주는 스크린샷

  2. 새 데이터 흐름 메뉴에서 데이터 가져오기를 선택한 다음 자세히...를 선택합니다.

    메뉴에서 데이터 가져오기 단추가 강조 표시되고 자세히... 옵션이 강조 표시된 데이터 흐름 메뉴를 보여 주는 스크린샷 옵션

  3. 레이크하우스를 검색하고 커넥터를 선택합니다.

    데이터 원본 선택 메뉴에서 레이크하우스 데이터 원본의 선택을 보여 주는 스크린샷

  4. 데이터 원본에 연결 대화 상자가 나타나고 현재 로그인한 사용자를 기반으로 새 연결이 자동으로 만들어집니다. 다음을 선택합니다.

    현재 로그인한 사용자와 다음 단추가 선택된 새 레이크하우스에 대한 데이터 원본 설정 구성을 보여 주는 스크린샷.

  5. 데이터 선택 대화 상자가 표시됩니다. 탐색 창을 사용하여 이전 모듈에서 대상에 대해 만든 레이크하우스를 찾고 Tutorial_Lakehouse 데이터 테이블을 선택합니다.

    모듈 1의 복사 작업을 사용하여 만든 작업 영역, 레이크하우스 및 테이블이 있는 레이크하우스 브라우저를 보여 주는 스크린샷

  6. (선택 사항) 캔버스가 데이터로 채워지면 데이터 프로파일링에 유용하므로 열 프로필 정보를 설정할 수 있습니다. 올바른 변환을 적용하고 이를 기반으로 올바른 데이터 값을 대상으로 지정할 수 있습니다.

    이렇게 하려면 리본 창에서 옵션을 선택한 다음 열 프로필에서 처음 세 가지 옵션을 선택한 다음 확인을 선택합니다.

    데이터에 대한 열 옵션 선택을 보여주는 스크린샷.

레이크하우스에서 가져온 데이터 변환

  1. 두 번째 열 IpepPickupDatetime의 열 머리글에서 데이터 형식 아이콘을 선택하여 드롭다운 메뉴를 표시하고 메뉴에서 데이터 형식을 선택하여 열을 날짜/시간에서 날짜 형식으로 변환합니다. IpepPickupDatetime 열에 대한 날짜 데이터 형식의 선택을 보여 주는 스크린샷

  2. (선택 사항) 리본의 탭에서 열 선택 옵션을 열 관리 그룹에서 선택합니다.

    데이터 흐름 편집기의 홈 탭에 있는 열 선택 단추를 보여 주는 스크린샷

  3. (선택 사항) 열 선택 대화 상자에서 여기에 나열된 일부 열의 선택을 취소한 다음 확인을 선택합니다.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • dropoffLongitude
    • rateCodeID

    선택 취소된 식별된 열을 통해 열 선택 대화 상자를 보여 주는 스크린샷

  4. storeAndFwdFlag 열의 필터 및 정렬 드롭다운 메뉴를 선택합니다. (경고 가 표시되는 경우 목록이 불완전할 수 있습니다. 더 로드하기를 선택하여 모든 데이터를 확인합니다.)

    열에 대한 필터 및 정렬 대화 상자를 보여 주는 스크린샷.

  5. 'Y'를 선택하여 할인이 적용된 행만 표시한 다음 확인을 선택합니다.

    'Y'만 선택된 값 필터를 보여 주는 스크린샷

  6. IpepPickupDatetime 열 정렬 및 필터 드롭다운 메뉴를 선택한 다음, 날짜 필터를 선택하고 날짜 및 날짜/시간 유형에 제공된 사이... 필터를 선택합니다.

    열 정렬 및 서식 드롭다운에서 날짜 필터 옵션의 선택을 보여 주는 스크린샷.

  7. 행 필터 대화 상자에서 2015년 1월 1일과 2015년 1월 31일 사이의 날짜를 선택한 다음 확인을 선택합니다.

    2015년 1월의 날짜 선택을 보여 주는 스크린샷

할인 데이터가 포함된 CSV 파일에 연결

이제 트립의 데이터를 사용하여 각 날짜 및 VendorID에 대한 할인이 포함된 데이터를 로드하고 데이터와 트립 데이터를 결합하기 전에 준비하려고 합니다.

  1. 데이터 흐름 편집기 메뉴의 탭에서 데이터 가져오기 옵션을 선택한 다음 텍스트/CSV를 선택합니다.

    텍스트/CSV가 강조 표시된 홈 탭에서 데이터 가져오기 메뉴의 선택을 보여 주는 스크린샷

  2. 데이터 원본에 연결 대화 상자에서 다음 세부 정보를 제공합니다.

    • 파일 경로 또는 URL - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • 인증 종류 - 익명

    그런 후 다음을 선택합니다.

    연결을 위한 텍스트/SCV 설정을 보여 주는 스크린샷.

  3. 파일 데이터 미리 보기 대화 상자에서 만들기를 선택합니다.

    만들기 버튼이 강조 표시된 파일 데이터 미리보기 대화 상자를 보여 주는 스크린샷.

할인 데이터 변환

  1. 데이터를 검토하면 머리글이 첫 번째 행에 있는 것을 볼 수 있습니다. 미리 보기 표 영역의 왼쪽 위에 있는 테이블의 상황에 맞는 메뉴를 선택하여 머리글로 첫 번째 행 사용을 선택하여 머리글로 승격합니다.

    테이블 컨텍스트 메뉴에서 첫 번째 행을 머리글로 사용 옵션의 선택을 보여 주는 스크린샷

    참고 항목

    머리글을 승격한 후 데이터 흐름 편집기 맨 위에 있는 적용된 단계 창에 열의 데이터 형식에 추가 된 새 단계를 볼 수 있습니다.

  2. VendorID 열을 마우스 오른쪽 단추로 클릭하고 표시되는 상황에 맞는 메뉴에서 다른 열 피벗 해제 옵션을 선택합니다. 이렇게 하면 열이 행이 되는 특성 값 쌍으로 열을 변환할 수 있습니다.

    다른 열 피벗 해제가 강조 표시된 VendorID 열의 컨텍스트 메뉴를 보여 주는 스크린샷

  3. 표의 피벗을 해제한 상태에서 특성과 값을 두 번 클릭하여 특성 열의 이름을 바꾸고 특성날짜로, 할인으로 바꿉니다.

    특성 이름을 날짜로, 값을 할인으로 변경한 후의 테이블 열을 보여 주는 스크린샷

  4. 열 이름의 왼쪽에 있는 데이터 형식 메뉴를 선택하고 날짜를 선택하여 날짜 열의 데이터 형식을 변경합니다.

    날짜 열에 대한 날짜 데이터 형식의 선택을 보여 주는 스크린샷.

  5. 할인 열을 선택한 다음 메뉴에서 변환 탭을 선택합니다. 숫자 열을 선택한 다음 하위 메뉴에서 표준 숫자 변환을 선택하고 나누기를 선택합니다.

    할인 열에서 데이터를 변환하는 나누기 옵션의 선택을 보여 주는 스크린샷.

  6. 나누기 대화 상자에서 값 100을 입력합니다.

    값 100을 입력하고 확인 단추가 강조 표시된 나누기 대화 상자를 보여 주는 스크린샷

트립 및 할인 데이터 결합

다음 단계는 두 테이블을 모두 트립에 적용해야 하는 할인과 조정된 합계가 있는 단일 테이블로 결합하는 것입니다.

  1. 먼저 두 쿼리를 모두 볼 수 있도록 다이어그램 보기 단추를 전환합니다.

    이 자습서에서 만든 두 쿼리 모두가 표시된 다이어그램 보기 토글 단추를 보여 주는 스크린샷

  2. nyc_taxi 쿼리를 선택하고 탭에서 결합 메뉴를 선택하고 쿼리 병합을 선택한 다음 쿼리를 새로 병합을 선택합니다.

    병합 쿼리를 nyc_taxi 쿼리에 대한 새 선택 항목으로 보여 주는 스크린샷

  3. 병합 대화 상자에서 병합에 적합한 테이블 드롭다운에서 Generated-NYC-Taxi-Green-Discounts를 선택한 다음 대화 상자 오른쪽 위에 있는 "전구" 아이콘을 선택하여 두 테이블 간의 열 매핑을 제안합니다.

    제안된 열 매핑이 표시된 병합 대화 상자의 구성을 보여 주는 스크린샷

    두 테이블 모두에서 VendorID 및 날짜 열을 매핑하여 두 가지의 제안된 열 매핑을 각각 한 번에 하나씩 선택합니다. 두 매핑이 모두 추가되면 각 테이블에서 일치하는 열 머리글이 강조 표시됩니다.

  4. 여러 데이터 원본의 데이터를 결합하여 결과를 볼 수 있도록 허용하라는 메시지가 표시됩니다. 통합 대화 상자에서 확인을 선택합니다.

    확인 단추가 강조 표시된 여러 데이터 원본의 데이터 결합 승인 요청을 보여 주는 스크린샷

  5. 테이블 영역에는 처음에 "여러 원본의 데이터를 결합하면 한 원본에서 다른 원본으로 데이터가 표시될 수 있으므로 평가가 취소되었습니다. 데이터를 공개할 가능성이 있으면 계속 선택하세요"라는 메시지를 볼 수 있습니다. 계속을 선택하여 결합된 데이터를 표시합니다.

    여러 데이터 원본의 데이터를 계속 단추가 강조 표시된 상태에서 결합에 대한 경고를 보여 주는 스크린샷

  6. 이전에 만든 두 쿼리와 새 병합 쿼리의 관계를 보여 주는 다이어그램 보기에서 새 쿼리를 만든 방법을 확인합니다. 편집기의 테이블 창을 보면 병합 쿼리 열 목록의 오른쪽으로 스크롤하여 테이블 값이 있는 새 열이 있는지 확인합니다. 이 열은 "생성된 NYC Taxi-Green-Discounts" 열이며 해당 유형은 [Table]입니다. 열 머리글에는 두 개의 화살표가 반대 방향으로 이동하여 테이블에서 열을 선택할 수 있는 아이콘이 있습니다. 할인을 제외한 모든 열의 선택을 취소한 다음 확인을 선택합니다.

    새로 생성된 열 Generated-NYC-Taxi-Green-Discounts에 대해 열 선택 메뉴가 표시된 병합된 쿼리를 보여 주는 스크린샷

  7. 이제 행 수준에 할인 값이 있는 상태에서 할인 후 총 금액을 계산하는 새 열을 만들 수 있습니다. 이렇게 하려면 편집기 맨 위에 있는 열 추가 탭을 선택하고 일반 그룹에서 사용자 지정 열을 선택합니다.

    열 추가 탭의 일반 섹션에서 강조 표시된 사용자 지정 열 추가 단추를 보여 주는 스크린샷

  8. 사용자 지정 열 대화 상자에서 파워 쿼리 수식 언어(M이라고도 함)를 사용하여 새 열을 계산하는 방법을 정의할 수 있습니다. 새 열 이름TotalAfterDiscount를 입력하고, 데이터 형식통화를 선택하고, 사용자 지정 열 수식에 대해 다음 M 식을 제공합니다.

    if [totalAmount] > 0 then [totalAmount] * ( 1 -[Discount] ) else [totalAmount]

    그런 다음 확인을 선택합니다.

    새 열 이름, 데이터 형식 및 사용자 지정 열 수식이 강조 표시된 사용자 지정 열 구성 화면을 보여 주는 스크린샷.

  9. 새로 만든 TotalAfterDiscount 열을 선택한 편집기 창 맨 위에 있는 변환 탭을 선택합니다. 숫자 열 그룹에서 반올림 드롭다운을 선택한 다음 반올림...을 선택합니다.

    편집기 창의 변환 탭에 있는 반올림... 옵션을 보여 주는 스크린샷 옵션입니다.

  10. 반올림 대화 상자에서 소수 자릿수에 대해 2를 입력한 다음 확인을 선택합니다.

    소수 자릿수에 대해 2가 있는 반올림 대화 상자와 확인 단추가 강조 표시된 스크린샷

  11. IpepPickupDatetime의 데이터 형식을 날짜에서 날짜/시간으로 변경합니다.

    IpepPickupDatetime 열에 대한 날짜/시간 데이터 형식의 선택을 보여 주는 스크린샷

  12. 마지막으로 아직 확장되지 않은 경우 편집기 오른쪽에서 쿼리 설정 창을 확장하고 쿼리 이름을 병합에서 출력으로 바꿉니다.

    병합에서 출력으로 쿼리의 이름을 바꾸는 것을 보여 주는 스크린샷

레이크하우스의 테이블에 출력 쿼리 로드

이제 출력 쿼리가 완전히 준비되고 데이터를 출력할 준비가 되면 쿼리의 출력 대상을 정의할 수 있습니다.

  1. 이전에 만든 출력 병합 쿼리를 선택합니다. 그런 다음 편집기에서 탭을 선택하고 쿼리 그룹에서 데이터 대상을 추가하여 레이크하우스 대상을 선택합니다.

    레이크하우스가 강조 표시된 데이터 대상 추가 단추를 보여 주는 스크린샷

  2. 데이터 대상에 연결 대화 상자에서 연결을 이미 선택한 상태여야 합니다. 다음을 선택하여 작업을 계속할 수 있습니다.

  3. 대상 목표 선택 대화 상자에서 데이터를 로드하고 새 테이블 이름을 nyc_taxi_with_discounts 레이크하우스로 이동한 다음, 다음을 다시 선택합니다.

    테이블 이름이 nyc_taxi_with_discounts 대상 선택 대화 상자를 보여 주는 스크린샷

  4. 대상 설정 선택 대화 상자에서 기본 업데이트 바꾸기 메서드를 그대로 두고 열이 올바르게 매핑되었는지 다시 한 번 확인한 후 설정 저장을 선택합니다.

    설정 저장 단추가 강조 표시된 대상 설정 선택 대화 상자를 보여 주는 스크린샷

  5. 기본 편집기 창으로 돌아가서 출력 테이블의 쿼리 설정 창에 출력 대상이 표시되는지 확인한 다음 게시를 선택합니다.

    Important

    작업 영역에서 첫 번째 Dataflow Gen2를 만들면 레이크하우스 및 Warehouse 항목이 관련 SQL 분석 엔드포인트 및 의미 체계 모델과 함께 프로비전됩니다. 이러한 항목은 작업 영역의 모든 데이터 흐름에서 공유되며 Dataflow Gen2가 작동하기 위해 필요하고, 삭제해서는 안 되며 사용자가 직접 사용할 수 없습니다. 항목은 Dataflow Gen2의 구현 세부 정보입니다. 항목은 작업 영역에 표시되지 않지만 Notebook, SQL 엔드포인트, 레이크하우스 및 Warehouse 환경과 같은 다른 환경에서 액세스할 수 있습니다. 이름에 있는 접두사로 항목을 인식할 수 있습니다. 항목의 접두사는 'DataflowsStaging'입니다.

  6. (선택 사항) 작업 영역 페이지에서 행을 선택한 후 표시되는 데이터 흐름 이름 오른쪽에 있는 줄임표를 선택하고 속성을 선택하여 데이터 흐름의 이름을 바꿀 수 있습니다.

    이름을 바꿀 수 있는 데이터 흐름의 메뉴에서 선택한 속성 옵션을 보여 주는 스크린샷

  7. 행을 선택한 후 데이터 흐름에 대한 새로 고침 아이콘을 선택하고 완료되면 데이터 대상 설정에 구성된 대로 만들어진 새 레이크하우스 테이블이 표시됩니다.

    데이터 새로 고침 페이지에서 보고서를 선택하는 방법을 보여 주는 스크린샷

  8. 레이크하우스에서 로드된 새 테이블을 확인합니다.

Microsoft Fabric에서 데이터 팩터리를 사용한 첫 번째 데이터 통합에 대한 엔드투엔드 자습서의 두 번째 모듈에서는 다음을 알아보았습니다.

  • 새 Dataflow Gen2를 만듭니다.
  • 샘플 데이터를 가져오고 변환합니다.
  • 텍스트/CSV 데이터를 가져오고 변환합니다.
  • 두 데이터 원본의 데이터를 새 쿼리로 병합합니다.
  • 데이터를 변환하고 쿼리에서 새 열을 생성합니다.
  • 쿼리에 대한 출력 대상 원본을 구성합니다.
  • 새 데이터 흐름의 이름을 바꾸고 새로 고칩니다.

이제 다음 섹션으로 이동하여 데이터 파이프라인을 통합합니다.