다음을 통해 공유


메달리온 아키텍처를 재현된 레이크 뷰와 함께 구현하기

이 자습서에서는 구체화된 레이크 뷰를 사용하여 메달리온 아키텍처를 구현하기 위한 단계와 고려 사항을 자세히 설명합니다. 이 자습서를 마치면 구체화된 레이크 뷰의 주요 기능과 기능을 알아보고 자동화된 데이터 변환 워크플로를 만들 수 있습니다. 이 자습서는 참조 아키텍처, 기능 및 기능의 전체 목록 또는 특정 모범 사례의 권장 사항이 아닙니다.

필수 조건

이 자습서의 필수 조건으로 다음 단계를 완료합니다.

  1. Power BI 계정에 로그인 하거나 계정이 아직 없는 경우 평가판에 등록합니다.
  2. 테넌트에서 Microsoft Fabric 을 사용하도록 설정합니다. 화면 왼쪽 아래에 있는 기본 Power BI 아이콘을 선택하고 패브릭을 선택합니다.
  3. Microsoft Fabric 사용 작업 영역을 만듭니다.
  4. 작업 영역 탭에서 작업 영역을 선택한 다음 + 새 항목을 선택하고 데이터 파이프라인을 선택합니다. 파이프라인의 이름을 제공하고 만들기를 선택합니다.
  5. 스키마가 활성화된 Lakehouse를 생성합니다. SalesLakehouse의 이름을 지정하고 샘플 데이터 파일을 Lakehouse에 로드합니다. 자세한 내용은 Lakehouse 자습서를 참조하세요.

시나리오 개요

이 자습서에서는 데이터 분석을 위한 medallion 아키텍처를 사용하여 소매 판매 작업에 대한 실행 가능한 인사이트를 얻는 가상의 소매 조직 Contoso의 예를 들어 보겠습니다. 브론즈(원시 데이터), 실버(정리 및 보강 데이터), 금(집계 및 분석 데이터)의 세 가지 계층으로 데이터를 구성하여 분석 프로세스를 간소화하고 비즈니스 성과에 대한 심층적인 인사이트를 생성하는 것을 목표로 합니다.

다음 다이어그램은 SalesLakehouse의 medallion 아키텍처 계층마다 다른 엔터티를 나타냅니다.

메달리온 아키텍처를 보여 주는 스크린샷

개체

  1. 주문: 이 엔터티에는 주문 날짜, 배송 세부 정보, 제품 범주 및 하위 범주와 같은 각 고객 주문에 대한 세부 정보가 포함됩니다. 인사이트를 작성하여 배송 전략을 최적화하고, 인기 있는 제품 범주를 식별하고, 주문 관리를 개선할 수 있습니다.

  2. 판매: Contoso는 판매 데이터를 분석하여 총 수익, 이익 마진, 주문 우선 순위 및 할인과 같은 주요 메트릭을 평가할 수 있습니다. 이러한 요인 간의 상관 관계는 고객 구매 동작과 할인 전략의 효율성에 대한 명확한 이해를 제공합니다.

  3. 위치: 도시, 주, 지역 및 고객 세그먼트를 포함하여 판매 및 주문의 지리적 차원을 캡처합니다. Contoso는 고성능 지역을 식별하고, 성능이 낮은 영역을 해결하고, 특정 고객 세그먼트에 대한 전략을 개인 설정할 수 있습니다.

  4. 에이전트 성능: 트랜잭션, 커미션 및 판매 데이터를 관리하는 에이전트에 대한 세부 정보를 통해 Contoso는 개별 에이전트 성능을 평가하고, 최고 성과를 장려하고, 효과적인 커미션 구조를 설계할 수 있습니다.

  5. 에이전트 커미션: 커미션 데이터를 통합하면 투명성이 보장되고 비용 관리가 향상됩니다. 수수료율과 에이전트 성능 간의 상관 관계를 이해하면 인센티브 시스템을 구체화하는 데 도움이 됩니다.

샘플 데이터 세트

Contoso는 소매 운영 원시 데이터를 ADLS Gen2 내에서 CSV 형식으로 유지 관리합니다. 이 데이터를 활용하여 브론즈 레이어를 만든 다음, 브론즈 레이어를 사용하여 medallion 아키텍처의 은색 및 금색 층을 형성하는 구체화된 호수 전망을 만듭니다. 먼저 패브릭 샘플 리포지토리에서 샘플 CSV 파일을 다운로드합니다.

파이프라인 만들기

개략적인 단계는 다음과 같습니다.

  1. 브론즈 계층: 원시 데이터를 CSV 파일 형식으로 레이크하우스로 수집합니다.
  2. 실버 계층: 구체화된 레이크 뷰를 사용하여 데이터를 정리합니다.
  3. 골드 레이어: 구체화된 레이크 뷰를 사용하여 분석 및 보고를 위해 데이터를 큐레이팅합니다.

판매 분석 메달리온 아키텍처 브론즈 계층 만들기

  1. 다운로드한 데이터에서 다른 엔터티에 해당하는 CSV 파일을 Lakehouse에 로드합니다. 이렇게 하려면 레이크하우스로 이동하여 다운로드한 데이터를 레이크하우스의 Files 섹션에 업로드합니다. 자습서라는 폴더를 만듭니다.

  2. 다음으로 테이블 섹션에서 바로 가기를 만듭니다. 테이블 섹션 옆의 ...를 선택하고 새 스키마 바로 가기를 선택한 다음 Microsoft OneLake를 선택합니다. 데이터 원본 형식에서 SalesLakehouse 를 선택합니다. 파일 섹션을 확장하고 자습서 폴더를 선택하고 만들기를 선택합니다. 다른 대체 옵션을 사용하여 레이크하우스로 데이터를 가져올 수도 있습니다.

    데이터를 테이블로 가져오는 바로 가기를 만드는 방법을 보여 주는 스크린샷

  3. 테이블 섹션에서 자습서 폴더의 이름을 bronze로 바꿉니다.

    브론즈 계층 만들기를 보여 주는 스크린샷

은색과 금색의 레이어로 메달리온 아키텍처 구조를 만드세요.

  1. 다운로드한 전자 필기장 파일을 작업 영역에 업로드합니다.

    은색으로 재현된 호수 전망을 보여 주는 스크린샷

  2. 레이크하우스의 노트북을 엽니다. 자세한 내용은 Notebook을 사용하여 Lakehouse 데이터 탐색을 참조하세요.

  3. Spark SQL을 사용하여 Notebook의 모든 셀을 실행하여 데이터 품질 제약 조건이 있는 구체화된 레이크 뷰를 만듭니다. 모든 셀이 성공적으로 실행되면 SalesLakehouse 소스를 새로 고침하여실버골드 스키마의 새로 생성된 구체화된 레이크 뷰를 확인합니다.

    실행 중인 노트북을 보여 주는 스크린샷.

파이프라인 예약

  1. 은색 및 금색 레이어에 대한 구체화된 호수 전망이 만들어지면 레이크하우스로 이동하여 관리형 구체화된 호수 보기를 선택하여 계보 보기를 확인합니다. 종속성에 따라 자동으로 생성되며, 각 종속 구체화된 레이크 뷰는 계보의 노드를 형성합니다.

    호수 전망이 구현된 스크린샷.

    계보 만들기를 보여 주는 스크린샷

  2. 탐색 리본에서 일정을 선택합니다. 새로 고침을 고 일정을 구성합니다.

    구체화된 레이크 뷰 실행 예약을 보여 주는 스크린샷

모니터링 및 문제 해결

  1. 드롭다운 메뉴에는 현재 및 기록된 실행이 나열됩니다.

    실행 예약을 보여 주는 스크린샷

  2. 실행을 선택하면 오른쪽 패널에서 구체화된 레이크 뷰 세부 정보를 찾을 수 있습니다. 아래쪽 작업 패널은 노드 실행 상태에 대한 개략적인 개요를 제공합니다.

    실행 세부 정보를 보여 주는 스크린샷

  3. 계보에서 노드를 선택하여 노드 실행 세부 정보를 확인하고 자세한 로그에 연결합니다. 노드 상태가 실패하면 오류 메시지도 표시됩니다.

    실행 세부 정보 로그를 보여 주는 스크린샷

  4. 자세한 로그 링크를 선택하면 추가 문제 해결을 위해 Spark 오류 로그에 액세스할 수 있는 모니터 허브로 리디렉션됩니다.

    Spark 로그를 보여 주는 스크린샷

  5. 구체화된 레이크 뷰 페이지의 리본에서 데이터 품질 보고서 단추를 선택하여 자동 생성된 데이터 품질 보고서를 만들거나 봅니다.