모듈 2: Data Factory에서 데이터 흐름을 사용하여 데이터 변환

이 모듈은 데이터 흐름을 만들고, 변환을 적용하고, Bronze 테이블에서 골드 레이크하우스 테이블로 원시 데이터를 이동하는 데 약 25분이 걸립니다.

중요

Microsoft Fabric은 현재 미리 보기로 제공됩니다. 이 정보는 릴리스되기 전에 상당히 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보와 관련하여 명시적이거나 묵시적인 어떠한 보증도 하지 않습니다. Azure의 서비스에 대한 Azure Data Factory 설명서를 참조하세요.

마지막 모듈에서 Bronze Lakehouse 테이블에 로드된 원시 데이터를 사용하여 이제 특정 날짜 동안 각 공급업체 및 해당 여정에 대한 할인이 포함된 다른 테이블과 결합하여 해당 데이터를 준비하고 보강할 수 있습니다. 이 최종 Gold Lakehouse 테이블이 로드되고 사용할 준비가 되었습니다.

데이터 흐름의 상위 수준 단계는 다음과 같습니다.

  • 모듈 1: Data Factory를 사용하여 파이프라인 만들기의 복사 작업 만든 Lakehouse 테이블에서 원시 데이터를 가져옵니다.
  • Lakehouse 테이블에서 가져온 데이터를 변환합니다.
  • 할인 데이터가 포함된 CSV 파일에 연결합니다.
  • 할인 데이터를 변환합니다.
  • 여행 및 할인 데이터를 결합합니다.
  • 출력 쿼리를 Gold Lakehouse 테이블에 로드합니다.

Lakehouse 테이블에서 데이터 가져오기

  1. 사이드바에서 만들기를 선택한 다음 , Dataflow Gen2(미리 보기) 를 선택하여 새 데이터 흐름 gen2를 만듭니다. 데이터 흐름 Gen2(미리 보기) 단추가 강조 표시된 패브릭 만들기 페이지를 보여 주는 스크린샷

  2. 새 데이터 흐름 메뉴에서 데이터 가져오기, 자세히...를 차례로 선택합니다.

    데이터 가져오기 단추가 강조 표시되고 자세히...가 표시된 데이터 흐름 메뉴를 보여 주는 스크린샷 옵션의 메뉴에서 강조 표시 됩니다.

  3. Lakehouse 커넥터를 검색하여 선택합니다.

    데이터 원본 선택 메뉴에서 Lakehouse 데이터 원본 선택을 보여 주는 스크린샷

  4. 데이터 원본에 연결 대화 상자가 나타나고 현재 로그인한 사용자를 기반으로 새 연결이 자동으로 만들어집니다. 다음을 선택합니다.

    현재 로그인한 사용자와 다음 단추가 선택된 새 Lakehouse의 데이터 원본 설정 구성을 보여 주는 스크린샷

  5. 데이터 선택 대화 상자가 표시됩니다. 탐색 창을 사용하여 이전 모듈에서 대상에 대해 만든 Lakehouse를 찾고 nyc_taxi 데이터 테이블을 선택합니다.

    모듈 1의 복사 작업 사용하여 만든 작업 영역, 레이크하우스 및 테이블이 있는 Lakehouse 브라우저를 보여 주는 스크린샷

  6. (선택 사항) 캔버스가 데이터로 채워지면 데이터 프로파일링에 유용하므로 열 프로필 정보를 설정할 수 있습니다. 올바른 변환을 적용하고 이를 기반으로 올바른 데이터 값을 대상으로 지정할 수 있습니다.

    이렇게 하려면 리본 창에서 옵션을 선택한 다음 열 프로필에서 처음 세 가지 옵션을 선택한 다음 확인을 선택합니다.

    데이터에 대한 열 옵션 선택을 보여 주는 스크린샷

Lakehouse에서 가져온 데이터 변환

  1. 두 번째 열 IpepPickupDatetime의 열 머리글에서 데이터 형식 아이콘을 선택하여 드롭다운 메뉴를 표시하고 메뉴에서 데이터 형식을 선택하여 열을 날짜/시간 형식에서 날짜 형식으로 변환합니다. IpepPickupDatetime 열의 날짜 데이터 형식 선택을 보여 주는 스크린샷

  2. (선택 사항) 리본의 탭에 있는 열 관리 그룹에서 열 선택 옵션을 선택합니다.

    데이터 흐름 편집기의 홈 탭에 있는 열 선택 단추를 보여 주는 스크린샷

  3. (선택 사항)열 선택 대화 상자에서 여기에 나열된 일부 열의 선택을 취소한 다음 확인을 선택합니다.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLongitude
    • pickupLatitude
    • dropoffLongitude
    • dropoffLatitude
    • rateCodeID

    식별된 열이 선택 취소된 열 선택 대화 상자를 보여 주는 스크린샷

  4. storeAndFwdFlag 열의 필터 및 정렬 드롭다운 메뉴를 선택합니다. 경고 목록이 불완전할 수 있는 경우 추가 로드 를 선택하여 모든 데이터를 확인합니다.

    열에 대한 필터 및 정렬 대화 상자를 보여 주는 스크린샷

  5. 'Y'를 선택하여 할인이 적용된 행만 표시한 다음 확인을 선택합니다.

    'Y'만 선택된 값 필터를 보여 주는 스크린샷

  6. Ipep_Pickup_Datetime 열 정렬 및 필터 드롭다운 메뉴를 선택한 다음, 날짜 필터를 선택하고 날짜 및 날짜/시간 형식에 제공된 사이... 필터를 선택합니다.

    열 정렬 및 서식 드롭다운에서 날짜 필터 옵션을 선택한 것을 보여 주는 스크린샷

  7. 행 필터링 대화 상자에서 2015년 1월 1일과 2015년 1월 31일 사이의 날짜를 선택한 다음 확인을 선택합니다.

    2015년 1월의 날짜 선택을 보여 주는 스크린샷

할인 데이터가 포함된 CSV 파일에 연결

이제 여정의 데이터를 사용하여 각 날짜 및 VendorID에 대한 할인이 포함된 데이터를 로드하고 여정 데이터와 결합하기 전에 데이터를 준비하려고 합니다.

  1. 데이터 흐름 편집기 메뉴의 탭에서 데이터 가져오기 옵션을 선택한 다음 텍스트/CSV를 선택합니다.

    텍스트/CSV가 강조 표시된 홈 탭의 데이터 가져오기 메뉴 선택을 보여 주는 스크린샷

  2. 데이터 원본에 연결 대화 상자에서 다음 세부 정보를 제공합니다.

    그런 후 다음을 선택합니다.

    연결에 대한 텍스트/CSV 설정을 보여 주는 스크린샷

  3. 파일 데이터 미리 보기 대화 상자에서 만들기를 선택합니다.

    만들기 단추가 강조 표시된 파일 데이터 미리 보기 대화 상자를 보여 주는 스크린샷

할인 데이터 변환

  1. 데이터를 검토하면 헤더가 첫 번째 행에 있는 것처럼 보입니다. 미리 보기 표 영역의 왼쪽 위에 있는 테이블의 상황에 맞는 메뉴를 선택하여 머리글 로 첫 번째 행 사용을 선택하여 머리글로 승격합니다.

    테이블 상황에 맞는 메뉴에서 첫 번째 행을 머리글로 사용 옵션을 선택한 것을 보여 주는 스크린샷

    참고

    헤더를 승격한 후 데이터 흐름 편집기 맨 위에 있는 적용된 단계 창에 추가된 새 단계가 열의 데이터 형식에 추가된 것을 볼 수 있습니다.

  2. VendorID 열을 마우스 오른쪽 단추로 클릭하고 표시되는 상황에 맞는 메뉴에서 다른 열 피벗 해제 옵션을 선택합니다. 이렇게 하면 열을 열이 행이 되는 특성-값 쌍으로 변환할 수 있습니다.

    다른 열 피벗 해제 선택 항목이 강조 표시된 VendorID 열의 상황에 맞는 메뉴를 보여 주는 스크린샷

  3. 표의 피벗을 해제한 상태에서 특성 및 값 열을 두 번 클릭하고 특성을 날짜로 변경하고 값을할인으로 변경하여 특성 열의 이름을 바꿉니다.

    특성을 날짜로, 값을 할인으로 변경한 후의 테이블 열을 보여 주는 스크린샷.

  4. 열 이름의 왼쪽에 있는 데이터 형식 메뉴를 선택하고 날짜를 선택하여 날짜 열의 데이터 형식을 변경 합니다.

    날짜 열에 대한 날짜 데이터 형식의 선택을 보여 주는 스크린샷

  5. 할인 열을 선택한 다음 메뉴에서 변환 탭을 선택합니다. 숫자 열을 선택한 다음, 하위 메뉴에서 표준 숫자 변환을 선택하고 나누기를 선택합니다.

    할인 열에서 데이터를 변환하는 나누기 옵션의 선택을 보여 주는 스크린샷.

  6. 나누기 대화 상자에서 값 100을 입력합니다.

    값 100이 입력되고 확인 단추가 강조 표시된 나누기 대화 상자를 보여 주는 스크린샷

여행 및 할인 데이터 결합

다음 단계는 두 테이블을 모두 여정에 적용해야 하는 할인과 조정된 합계가 있는 단일 테이블로 결합하는 것입니다.

  1. 먼저 다이어그램 보기 단추를 전환하여 두 쿼리를 모두 볼 수 있습니다.

    이 자습서에서 만든 두 쿼리가 모두 표시된 다이어그램 보기 토글 단추를 보여 주는 스크린샷

  2. nyc_taxi 쿼리를 선택하고 탭에서 결합 메뉴를 선택하고 쿼리 병합을 선택한 다음 쿼리를 새로 병합합니다.

    nyc_taxi 쿼리에 대한 새 선택 항목으로 쿼리 병합을 보여 주는 스크린샷

  3. 병합 대화 상자의 병합 드롭다운을 위해 오른쪽 테이블에서Generated-NYC-Taxi-Green-Discounts를 선택한 다음, 대화 상자 오른쪽 위에 있는 "전구" 아이콘을 선택하여 두 테이블 간의 제안된 열 매핑을 확인합니다.

    제안된 열 매핑이 표시된 병합 대화 상자의 구성을 보여 주는 스크린샷

    두 테이블의 VendorID 및 날짜 열을 매핑하여 제안된 두 열 매핑을 각각 한 번에 하나씩 선택합니다. 두 매핑이 모두 추가되면 각 테이블에서 일치하는 열 머리글이 강조 표시됩니다.

  4. 여러 데이터 원본의 데이터를 결합하여 결과를 볼 수 있도록 허용하라는 메시지가 표시됩니다. 병합 대화 상자에서 확인을 선택합니다.

    확인 단추가 강조 표시된 여러 데이터 원본의 데이터 결합을 승인하는 요청을 보여 주는 스크린샷

  5. 테이블 영역에는 처음에 "여러 원본의 데이터를 결합하면 한 원본에서 다른 원본으로 데이터가 표시될 수 있으므로 평가가 취소되었습니다. 데이터 노출 가능성이 괜찮으면 계속을 선택합니다." 계속 을 선택하여 결합된 데이터를 표시합니다.

    계속 단추가 강조 표시된 여러 데이터 원본의 데이터 결합에 대한 경고를 보여 주는 스크린샷

  6. 이전에 만든 두 쿼리와 새 병합 쿼리의 관계를 보여 주는 다이어그램 보기에서 새 쿼리를 만든 방법을 확인합니다. 편집기의 테이블 창을 보면 쿼리 열 병합 목록의 오른쪽으로 스크롤하여 테이블 값이 있는 새 열이 있는지 확인합니다. 이 열은 "생성된 NYC Taxi-Green-Discounts" 열이며 해당 형식은 [테이블]입니다. 열 머리글에는 두 개의 화살표가 반대 방향으로 이동하여 테이블에서 열을 선택할 수 있는 아이콘이 있습니다. 할인을 제외한 모든 열을 선택 취소한 다음 확인을 선택합니다.

    새로 생성된 열 Generated-NYC-Taxi-Green-Discounts에 대해 열 선택 메뉴가 표시된 병합된 쿼리를 보여 주는 스크린샷

  7. 이제 행 수준에서 할인 값을 사용하여 할인 후 총 금액을 계산하는 새 열을 만들 수 있습니다. 이렇게 하려면 편집기 맨 위에 있는 열 추가 탭을 선택하고 일반 그룹에서 사용자 지정 열을 선택합니다.

    열 추가 탭의 일반 섹션에서 강조 표시된 사용자 지정 열 추가 단추를 보여 주는 스크린샷

  8. 사용자 지정 열 대화 상자에서 Power Query 수식 언어(M이라고도 함)를 사용하여 새 열을 계산하는 방법을 정의할 수 있습니다. 새 열 이름TotalAfterDiscount를 입력하고 데이터 형식대해 Currency를 선택한 다음 사용자 지정 열 수식에 대해 다음 M 식을 제공합니다.

    if [totalAmount] > 0 then [totalAmount] * ( 1 -[Discount] ) else [totalAmount]

    그런 다음, 확인을 선택합니다.

    새 열 이름, 데이터 형식 및 사용자 지정 열 수식이 강조 표시된 사용자 지정 열 구성 화면을 보여 주는 스크린샷

  9. 새로 만든 TotalAfterDiscount 열을 선택한 다음 편집기 창 맨 위에 있는 변환 탭을 선택합니다. 숫자 열 그룹에서 반올림 드롭다운 선택한 다음, 라운드...를 선택합니다.

    라운드...를 보여 주는 스크린샷 편집기 창의 변환 탭에 있는 옵션입니다.

  10. 라운드 대화 상자에서 소수 자릿수에 대해 2를 입력한 다음 확인을 선택합니다.

    소수 자릿수와 확인 단추가 강조 표시된 2가 있는 라운드 대화 상자를 보여 주는 스크린샷.

  11. IpepPickupDatetime의 데이터 형식을 날짜에서 날짜/시간으로 변경합니다.

    IpepPickupDatetime 열에 대한 날짜/시간 데이터 형식의 선택을 보여 주는 스크린샷

  12. 마지막으로 아직 확장되지 않은 경우 편집기 오른쪽에서 쿼리 설정 창을 확장하고 쿼리 이름을 병합 에서 출력으로 바꿉니다.

    병합에서 출력으로의 쿼리 이름 바꾸기를 보여 주는 스크린샷

Lakehouse의 테이블에 출력 쿼리 로드

이제 출력 쿼리가 완전히 준비되고 데이터를 출력할 준비가 되면 쿼리의 출력 대상을 정의할 수 있습니다.

  1. 이전에 만든 출력 병합 쿼리를 선택합니다. 그런 다음 편집기에서 탭을 선택하고 쿼리 그룹에서 데이터 대상 추가를 선택하여 Lakehouse 대상을 선택합니다.

    Lakehouse가 강조 표시된 데이터 대상 추가 단추를 보여 주는 스크린샷

  2. 데이터 대상에 연결 대화 상자에서 연결이 이미 선택되어 있어야 합니다. 다음을 선택하여 계속합니다.

  3. 대상 대상 선택 대화 상자에서 데이터를 로드하고 새 테이블 이름을 nyc_taxi_with_discounts Lakehouse로 이동한 다음, 다음을 다시 선택합니다.

    테이블 이름이 nyc_taxi_with_discounts 대상 선택 대화 상자를 보여 주는 스크린샷

  4. 대상 설정 선택 대화 상자에서 기본 업데이트 바꾸기 메서드를 그대로 두고 열이 올바르게 매핑되었는지 두 번 검사 설정 저장을 선택합니다.

    설정 저장 단추가 강조 표시된 대상 설정 선택 대화 상자를 보여 주는 스크린샷

  5. 기본 편집기 창으로 돌아가서 출력 테이블의 쿼리 설정 창에 출력 대상이 표시되는지 확인한 다음 게시를 선택합니다.

  6. (선택 사항) 작업 영역 페이지에서 행을 선택한 후 표시되는 데이터 흐름 이름 오른쪽에 있는 줄임표를 선택하고 속성을 선택하여 데이터 흐름의 이름을 바꿀 수 있습니다.

    이름을 바꿀 수 있는 데이터 흐름의 메뉴에서 선택한 속성 옵션을 보여 주는 스크린샷

  7. 행을 선택한 후 데이터 흐름에 대한 새로 고침 아이콘을 선택하고 완료되면 데이터 대상 설정에 구성된 대로 만들어진 새 Lakehouse 테이블이 표시됩니다.

    데이터 흐름을 새로 고치는 새로 고침 단추 선택을 보여 주는 스크린샷

  8. Lakehouse를 확인하여 로드된 새 테이블을 봅니다.

다음 단계

Microsoft Fabric에서 Data Factory를 사용하여 첫 번째 데이터 통합을 위한 엔드 투 엔드 자습서의 두 번째 모듈에서는 다음을 수행하는 방법을 알아보았습니다.

  • 새 Dataflow Gen2를 Dreate합니다.
  • 샘플 데이터를 가져오고 변환합니다.
  • 텍스트/CSV 데이터를 가져오고 변환합니다.
  • 두 데이터 원본의 데이터를 새 쿼리로 병합합니다.
  • 데이터를 변환하고 쿼리에서 새 열을 생성합니다.
  • 쿼리에 대한 출력 대상 원본을 구성합니다.
  • 새 데이터 흐름의 이름을 바꾸고 새로 고칩니다.

이제 다음 섹션을 계속 진행하여 데이터 파이프라인을 통합합니다.