다음을 통해 공유


Lakehouse 엔드 투 엔드 시나리오: 개요 및 아키텍처

Microsoft Fabric은 데이터 이동에서 데이터 과학, 실시간 분석 및 비즈니스 인텔리전스에 이르기까지 모든 것을 다루는 엔터프라이즈를 위한 올인원 분석 솔루션입니다. 데이터 레이크, 데이터 엔지니어링 및 데이터 통합을 포함한 포괄적인 서비스 제품군을 모두 한 곳에서 제공합니다. 자세한 내용은 Microsoft Fabric이란?

이 자습서에서는 데이터 취득에서 데이터 소비에 이르는 엔드 투 엔드 시나리오를 안내합니다. 다양한 환경과 통합 방법뿐만 아니라 이 플랫폼에서 작업할 때 제공되는 전문 및 시민 개발자 환경을 포함하여 패브릭에 대한 기본적인 이해를 구축하는 데 도움이 됩니다. 이 자습서는 참조 아키텍처, 기능 및 기능의 전체 목록 또는 특정 모범 사례의 권장 사항이 아닙니다.

Lakehouse 엔드 투 엔드 시나리오

일반적으로 조직은 트랜잭션 및 구조적 데이터 분석 요구 사항에 맞게 최신 데이터 웨어하우스를 구축해 왔습니다. 빅 데이터(반정형/비정형) 데이터 분석에 대한 데이터 레이크하우스도 필요합니다. 이 두 시스템은 병렬로 실행되어 사일로, 데이터 중복 및 총 소유 비용이 증가했습니다.

데이터 저장소의 통합과 Delta Lake 형식의 표준화를 사용하는 패브릭을 사용하면 사일로를 제거하고 데이터 중복을 제거하며 총 소유 비용을 크게 줄일 수 있습니다.

Fabric에서 제공하는 유연성을 통해 레이크하우스 또는 데이터 웨어하우스 아키텍처를 구현하거나 함께 결합하여 간단한 구현으로 둘 다 최대한 활용할 수 있습니다. 이 자습서에서는 소매 조직의 예를 들어 처음부터 끝까지 레이크하우스를 빌드합니다. 브론즈 계층에 원시 데이터가 있고, 실버 계층에 유효성이 검사되고 중복 제거된 데이터가 있으며, 골드 계층에 고도로 세련된 데이터가 있는 medallion 아키텍처를 사용합니다. 모든 업계의 모든 조직에 대해 레이크하우스를 구현하는 동일한 접근 방식을 취할 수 있습니다.

이 자습서에서는 소매 도메인의 가상 Wide World Importers 회사의 개발자가 다음 단계를 완료하는 방법을 설명합니다.

  1. Power BI 계정에 로그인하고 무료 Microsoft Fabric 평가판에 등록합니다. Power BI 라이선스 가 없는 경우 Power BI 무료 라이선스 에 등록한 다음 패브릭 평가판을 시작할 수 있습니다.

  2. 조직에 대한 엔드 투 엔드 레이크하우스를 빌드하고 구현합니다.

    • 패브릭 작업 영역을 만듭니다.
    • 레이크하우스를 만드세요.
    • 데이터를 수집하고, 데이터를 변환하고, 레이크하우스에 로드합니다. 레이크하우스 모드 및 SQL 분석 엔드포인트 모드에서 하나의 데이터 복사본인 OneLake를 탐색할 수도 있습니다.
    • SQL 분석 엔드포인트를 사용하여 레이크하우스에 연결하고 DirectLake 를 사용하여 Power BI 보고서를 만들어 다양한 차원의 판매 데이터를 분석합니다.
    • 필요에 따라 파이프라인을 사용하여 데이터 수집 및 변환 흐름을 오케스트레이션하고 예약할 수 있습니다.
  3. 작업 영역 및 기타 항목을 삭제하여 리소스 를 정리합니다.

아키텍처

다음 이미지는 레이크하우스 엔드 투 엔드 아키텍처를 보여줍니다. 관련된 구성 요소는 다음 목록에 설명되어 있습니다.

Microsoft Fabric의 Lakehouse 엔드 투 엔드 아키텍처 다이어그램.

  • 데이터 원본: 패브릭을 사용하면 간소화된 데이터 수집을 위해 Azure Data Services뿐만 아니라 다른 클라우드 기반 플랫폼 및 온-프레미스 데이터 원본에 빠르고 쉽게 연결할 수 있습니다.

  • 수집: 200개 이상의 네이티브 커넥터를 사용하여 조직에 대한 인사이트를 빠르게 작성할 수 있습니다. 이러한 커넥터는 패브릭 파이프라인에 통합되며 데이터 흐름을 사용하여 사용자에게 친숙한 끌어서 놓기 데이터 변환을 활용합니다. 또한 Fabric의 바로 가기 기능을 사용하면 복사하거나 이동하지 않고도 기존 데이터에 연결할 수 있습니다.

  • 변환 및 저장: 패브릭은 Delta Lake 형식으로 표준화됩니다. 즉, 모든 패브릭 엔진은 데이터를 복제하지 않고 OneLake에 저장된 동일한 데이터 세트에 액세스하고 조작할 수 있습니다. 이 스토리지 시스템은 조직의 요구 사항에 따라 medallion 아키텍처 또는 데이터 메시를 사용하여 레이크하우스를 유연하게 빌드할 수 있습니다. 코드 우선 환경을 위해 파이프라인/데이터 흐름 또는 Notebook/Spark를 활용하여 데이터 변환을 위한 하위 코드 또는 코드 없음 환경 중에서 선택할 수 있습니다.

  • 사용: Power BI는 보고 및 시각화를 위해 Lakehouse의 데이터를 사용할 수 있습니다. 각 Lakehouse에는 다른 보고 도구에서 Lakehouse 테이블의 데이터를 쉽게 연결하고 쿼리할 수 있도록 SQL 분석 엔드포인트라는 기본 제공 TDS 엔드포인트 가 있습니다. SQL 분석 엔드포인트는 사용자에게 SQL 연결 기능을 제공합니다.

샘플 데이터 세트

이 자습서에서는 다음 자습서에서 Lakehouse로 가져올 WWI(Wide World Importers) 샘플 데이터베이스 를 사용합니다. Lakehouse 엔드 투 엔드 시나리오의 경우 Fabric 플랫폼의 규모 및 성능 기능을 탐색할 수 있는 충분한 데이터를 생성했습니다.

와이드 월드 수입국 (차 세계 대전)은 샌프란시스코 베이 지역에서 운영하는 도매 참신 상품 수입 및 유통 업체입니다. 도매업자로서, 차 세계 대전의 고객은 주로 개인에게 재판매 회사를 포함한다. WWI는 전문 상점, 슈퍼마켓, 컴퓨팅 상점, 관광 명소 상점, 일부 개인을 포함하여 미국 전역의 소매 고객에게 판매합니다. WWI는 WWI를 대신하여 제품을 홍보하는 에이전트 네트워크를 통해 다른 도매업자에게도 판매합니다. 회사 프로필 및 운영에 대한 자세한 내용은 Microsoft SQL용 Wide World Importers 샘플 데이터베이스를 참조하세요.

일반적으로 데이터는 트랜잭션 시스템 또는 LOB(기간 업무) 애플리케이션에서 레이크하우스로 가져옵니다. 그러나 이 자습서의 단순성을 위해 WWI에서 제공하는 차원 모델을 초기 데이터 원본으로 사용합니다. 데이터를 레이크하우스로 수집하고 메달 아키텍처의 여러 단계(브론즈, 실버 및 골드)를 통해 변환하는 원본으로 사용합니다.

데이터 모델

WWI 차원 모델에는 수많은 팩트 테이블이 포함되어 있지만 이 자습서에서는 Sale 팩트 테이블과 관련 차원을 사용합니다. 다음 예제에서는 WWI 데이터 모델을 보여 줍니다.

이 자습서의 데이터 모델에 대한 판매 팩트 테이블 및 관련 차원의 다이어그램

데이터 및 변환 흐름

앞에서 설명한 대로 WWI(Wide World Importers) 샘플 데이터의 샘플 데이터를 사용하여 이 엔드 투 엔드 레이크하우스를 빌드합니다. 이 구현에서 샘플 데이터는 모든 테이블에 대해 Parquet 파일 형식으로 Azure Data Storage 계정에 저장됩니다. 그러나 실제 시나리오에서 데이터는 일반적으로 다양한 원본과 다양한 형식에서 발생합니다.

다음 이미지는 원본, 대상 및 데이터 변환을 보여 줍니다.

Microsoft Fabric에서 데이터가 어떻게 흐르고 변환되는지에 대한 다이어그램.

  • 데이터 원본: 원본 데이터는 Parquet 파일 형식이며 분할되지 않은 구조입니다. 각 테이블의 폴더에 저장됩니다. 이 자습서에서는 전체 기록 또는 일회성 데이터를 Lakehouse에 수집하도록 파이프라인을 설정합니다.

    이 자습서에서는 11개월 동안 기록 데이터가 있는 부모 폴더 1개(매월 하나의 하위 폴더 포함)와 3개월 동안 증분 데이터를 포함하는 다른 폴더(매월 한 하위 폴더)가 있는 판매 팩트 테이블을 사용합니다. 초기 데이터 수집 중에 11개월의 데이터가 Lakehouse 테이블에 수집됩니다. 그러나 증분 데이터가 도착하면 10월과 11월에 업데이트된 데이터가 포함되며, 12월 및 11월 데이터의 새 데이터는 기존 데이터와 병합되고 새 12월 데이터는 다음 이미지와 같이 Lakehouse 테이블에 기록됩니다.

    변경된 데이터를 레이크하우스에서 처음 수집된 데이터에 증분 방식으로 병합하는 방법을 보여 주는 다이어그램

  • Lakehouse: 이 자습서에서는 레이크하우스를 만들고, 레이크하우스의 파일 섹션에 데이터를 수집한 다음, 레이크하우스의 테이블 섹션에 델타 레이크 테이블을 만듭니다.

  • 변환: 데이터 준비 및 변환의 경우 두 가지 방법이 표시됩니다. 코드 우선 환경을 선호하고 낮은 코드 또는 코드 없음 환경을 선호하는 사용자를 위해 파이프라인/데이터 흐름을 사용하는 사용자를 위해 Notebooks/Spark를 사용하는 방법을 보여 줍니다.

  • 사용: 데이터 소비를 보여 주려면 Power BI의 DirectLake 기능을 사용하여 보고서, 대시보드를 만들고 Lakehouse에서 데이터를 직접 쿼리하는 방법을 확인할 수 있습니다. 또한 TDS/SQL 분석 엔드포인트를 사용하여 타사 보고 도구에서 데이터를 사용할 수 있도록 하는 방법을 보여 줍니다. 이 엔드포인트를 사용하면 웨어하우스에 연결하고 분석을 위해 SQL 쿼리를 실행할 수 있습니다.

다음 단계