Microsoft Fabric은 데이터 이동에서 데이터 과학, 실시간 분석 및 비즈니스 인텔리전스에 이르기까지 모든 것을 다루는 엔터프라이즈를 위한 올인원 분석 솔루션입니다. 데이터 레이크, 데이터 엔지니어링 및 데이터 통합을 포함한 포괄적인 서비스 제품군을 모두 한 곳에서 제공합니다. 자세한 내용은 Microsoft Fabric란?을 참조하세요.
이 자습서에서는 데이터 취득에서 데이터 소비에 이르는 엔드 투 엔드 시나리오를 안내합니다. 다양한 환경과 통합 방법뿐만 아니라 이 플랫폼에서 작업할 때 제공되는 전문 및 시민 개발자 환경을 포함하여 Fabric에 대한 기본적인 이해를 구축하는 데 도움이 됩니다. 이 자습서는 참조 아키텍처, 기능 및 기능의 전체 목록 또는 특정 모범 사례의 권장 사항이 아닙니다.
Lakehouse 끝에서 끝까지 시나리오
일반적으로 조직은 트랜잭션 및 구조적 데이터 분석 요구 사항에 맞게 최신 데이터 Warehouse를 구축해 왔습니다. 빅 데이터(반정형/비정형) 데이터 분석을 위한 데이터 레이크하우스를 사용합니다. 이 두 시스템이 병렬로 운영되면서 사일로 현상, 데이터 중복, 그리고 총 소유 비용 증가를 유발했습니다.
데이터 저장소의 통합과 Delta Lake 형식의 표준화를 사용하는 Fabric을 사용하면 사일로를 제거하고 데이터 중복을 제거하며 총 소유 비용을 크게 줄일 수 있습니다.
Fabric에서 제공하는 유연성을 통해 Lakehouse 또는 데이터 Warehouse 아키텍처를 구현하거나 함께 결합하여 간단한 구현으로 둘 다 최대한 활용할 수 있습니다. 이 자습서에서는 리테일 조직의 예를 들어 처음부터 끝까지 Lakehouse를 빌드합니다. 브론즈 계층에 원시 데이터가 있고, 실버 계층에 유효성이 검사되고 중복 제거된 데이터가 있으며, 골드 계층에 고도로 세련된 데이터가 있는 medallion 아키텍처를 사용합니다. 모든 업계의 모든 조직에 대해 Lakehouse를 구현하는 동일한 접근 방식을 취할 수 있습니다.
이 자습서에서는 리테일 도메인의 가상 Wide World Importers 회사의 개발자가 다음 단계를 완료하는 방법을 설명합니다.
Power BI 계정에 로그인하고 무료 Microsoft Fabric 평가판에 등록합니다. Power BI 라이선스가 없는 경우, 먼저 패브릭 무료 라이선스를 등록한 후 , 패브릭 체험판을 시작할 수 있습니다.
조직을 위한 엔드 투 엔드 레이크하우스를 구현하고 빌드합니다.
- Fabric 작업 영역 만들기.
- Lakehouse를 생성하기.
- 데이터를 수집하고, 데이터를 변환하고, Lakehouse에 로드합니다. Lakehouse 모드 및 SQL 분석 엔드포인트 모드에서 하나의 데이터 복사본인 OneLake를 탐색할 수도 있습니다.
- SQL 분석 엔드포인트를 사용하여 Lakehouse에 연결하고 의미 체계 모델을 만들고 보고서를 작성 하여 다양한 차원의 판매 데이터를 분석합니다.
- 필요에 따라 파이프라인을 사용하여 데이터 수집 및 변환 흐름을 오케스트레이션하고 예약할 수 있습니다. 파이프라인에는 Lakehouse 유지 관리 작업(OPTIMIZE 및 VACUUM을 사용하여 델타 테이블 유지 관리를 자동화하는 작업) 및 SQL 엔드포인트 새로 고침 작업(데이터 로드 후 SQL 분석 엔드포인트를 동기화된 상태로 유지)과 같은 Lakehouse 중심 작업이 포함됩니다. 파이프라인 식 작성기는 더 빠르고 정확한 식 작성을 위한 코필로트 지원도 포함합니다. 자세한 내용은 Lakehouse 유지 관리 작업을 참조하세요.
작업 영역 및 기타 항목을 삭제하여 리소스를 정리합니다.
아키텍처
다음 이미지는 Lakehouse 엔드 투 엔드 아키텍처를 보여줍니다. 다음 표에는 두 가지 해당 구성 요소가 정리되어 있습니다.
데이터 원본: Fabric을 사용하면 간소화된 데이터 수집을 위해 Azure Data Services뿐만 아니라 다른 클라우드 기반 플랫폼 및 온-프레미스 데이터 원본에 빠르고 쉽게 연결할 수 있습니다.
수집: 200개 이상의 네이티브 커넥터를 사용하여 조직에 대한 인사이트를 빠르게 작성할 수 있습니다. 이러한 커넥터는 Fabric 파이프라인에 통합되며 데이터 흐름을 사용하여 사용자에게 친숙한 끌어서 놓기 데이터 변환을 활용합니다. 또한 Fabric의 바로 가기 기능을 사용하면 복사하거나 이동하지 않고도 기존 데이터에 연결할 수 있습니다. OneLake 바로 가기는 OneLake 외부 데이터 공유를 통해 테넌트 전체에서 데이터 제품을 참조할 수 있으므로 ETL 파이프라인을 복사하거나 빌드하지 않고도 라이브 제어 운영 데이터에 액세스할 수 있습니다. 패브릭에는 수집 대기 시간을 줄이기 위해 CSV(JSON 지원 제공)와 같은 일반적인 형식에 대한 고성능 벡터화된 파일 판독기도 포함되어 있습니다.
변환 및 저장: Fabric은 Delta Lake 형식으로 표준화됩니다. 즉, 모든 Fabric 엔진은 데이터를 복제하지 않고 OneLake에 저장된 동일한 데이터 세트에 액세스하고 조작할 수 있습니다. OneLake의 통합 거버넌스 모델은 바로 가기를 통해 액세스되는 데이터가 로컬로 저장된 데이터와 동일한 보안 및 규정 준수 정책에 참여하여 조직 전체에서 단일 버전의 진실을 제공하도록 보장합니다. 이 스토리지 시스템은 조직의 요구 사항에 따라 메달리온 아키텍처 또는 데이터 메시를 활용해 레이크하우스를 유연하게 구축할 수 있습니다. 코드 우선 환경을 위해 파이프라인/데이터 흐름 또는 Notebook/Spark를 활용하여 데이터 변환을 위한 하위 코드 또는 코드 없음 환경 중에서 선택할 수 있습니다. 또한 Lakehouse 테이블은 Z 순서 지정 및 Liquid Clustering과 같은 성능 최적화를 지원하여 쿼리 성능을 개선하고 대규모로 데이터 레이아웃을 관리합니다. 또한 구체화된 레이크 뷰는 레이크하우스 데이터를 통해 결과를 미리 계산하고 캐시할 수 있으므로 반복 분석 속도가 빨라집니다. 운영화에는 파이프라인의 Lakehouse 유지 관리 작업을 통한 Lakehouse Delta 테이블의 자동화된 유지 관리 및 로드 후 단계의 일부로 SQL 분석 엔드포인트 새로 고침 트리거가 포함될 수 있습니다. 자세한 내용은 위의 시나리오 개요에서 선택적 파이프라인 오케스트레이션 단계를 참조하세요.
사용: Power BI는 보고 및 시각화를 위해 Lakehouse의 데이터를 사용할 수 있습니다. 각 Lakehouse에는 다른 보고 도구에서 Lakehouse 테이블의 데이터를 쉽게 연결하고 쿼리할 수 있도록 기본 제공 TDS 엔드포인트인 SQL 분석 엔드포인트가 있습니다. 파이프라인 오케스트레이션에는 데이터 로드 후 보고 도구에 대한 스키마 및 메타데이터가 최신 상태인지 확인하기 위해 Lakehouse SQL 분석 엔드포인트를 새로 고치는 단계가 포함될 수 있습니다. 자세한 내용은 위의 시나리오 개요에서 선택적 파이프라인 오케스트레이션 단계를 참조하세요.
테넌트 간 데이터 공유, 보고서, 의미 체계 모델 및 AI/데이터 과학 워크로드를 통해 조직 경계를 넘어 공유된 OneLake 데이터를 사용할 수 있으므로 데이터 중복 없이 공동 작업을 수행할 수 있습니다.
샘플 데이터 세트
이 자습서에서는 다음 자습서에서 레이크하우스로 가져오는 WWI(Wide World Importers) 샘플 데이터베이스 를 사용합니다. Lakehouse 엔드 투 엔드 시나리오의 경우 데이터 세트에는 Fabric 플랫폼의 규모 및 성능 기능을 탐색할 수 있는 충분한 데이터가 포함되어 있습니다.
WWI(Wide World Importers)은 샌프란시스코 베이 지역에서 운영하는 도매 참신 상품 수입 및 유통 업체입니다. 도매업자로서, WWI의 고객은 주로 개인에게 재판매하는 회사입니다. WWI는 전문 상점, 슈퍼마켓, 컴퓨팅 상점, 관광 명소 상점, 일부 개인을 포함하여 미국 전역의 소매 고객에게 판매합니다. WWI는 WWI를 대신하여 제품을 홍보하는 에이전트 네트워크를 통해 다른 도매업자에게도 판매합니다. 회사 프로필 및 운영에 대한 자세한 내용은 Microsoft SQL용 Wide World Importers 샘플 데이터베이스를 참조하세요.
일반적으로 데이터는 트랜잭션 시스템 또는 LOB(기간 업무) 애플리케이션에서 레이크하우스로 통합됩니다. 그러나 이 자습서에서는 간단히 하기 위해 WWI에서 제공하는 차원 모델을 초기 데이터 원본으로 사용합니다. 데이터를 레이크하우스로 수집하여 메달 아키텍처의 다른 단계(브론즈, 실버 및 골드)를 통해 변환합니다.
데이터 모델
WWI 차원 모델에는 수많은 팩트 테이블이 포함되어 있지만 이 자습서에서는 판매 팩트 테이블과 관련 차원을 사용합니다. 다음 예시는 WWI 데이터 모델을 보여줍니다:
데이터 및 변환 흐름
앞서 설명한 대로 이 자습서에서는 WWI(Wide World Importers) 샘플 데이터의 샘플 데이터를 사용하여 엔드 투 엔드 레이크하우스를 빌드합니다. 이 구현에서 샘플 데이터는 모든 테이블에 대해 Parquet 파일 형식으로 Azure Data Storage 계정에 저장됩니다. 그러나 실제 시나리오에서 데이터는 일반적으로 다양한 원본과 다양한 형식에서 발생합니다.
다음 이미지는 원본, 대상 및 데이터 변환을 보여 줍니다.
데이터 원본: 원본 데이터는 Parquet 파일 형식이며 분할되지 않은 구조입니다. 각 테이블의 폴더에 저장됩니다. 이 자습서에서는 전체 기록 또는 일회성 데이터를 lakehouse에 수집하도록 파이프라인을 준비합니다.
이 자습서에서는 11개월 동안 기록 데이터가 있는 부모 폴더 1개(매월 하나의 하위 폴더 포함)와 3개월 동안의 증분 데이터를 포함하는 다른 폴더(매월 한 하위 폴더)가 있는 판매 팩트 테이블을 사용합니다. 초기 데이터 수집 중에 11개월의 데이터가 Lakehouse 테이블에 수집됩니다. 증분 데이터가 도착하면 업데이트된 10월 및 11월 데이터가 기존 데이터와 병합되고, 새 12월 데이터는 다음 이미지와 같이 lakehouse 테이블에 기록됩니다.
Lakehouse: 이 자습서에서는 Lakehouse를 만들고, Lakehouse의 파일 섹션에 데이터를 수집한 다음, Lakehouse의 테이블 섹션에 Delta Lake 테이블을 만듭니다.
변환: 데이터 준비 및 변환을 위해 이 자습서에서는 코드 우선 환경을 위한 Notebook 및 Spark와 낮은 코드 또는 코드 없는 환경을 위한 파이프라인 및 데이터 흐름의 두 가지 방법을 다룹니다. 최신 패브릭 런타임에는 Notebook 및 Spark 작업 워크로드에 대한 오픈 소스 Spark에 비해 상당한 성능 향상을 제공하는 네이티브 실행 엔진이 포함되어 있습니다. 파이프라인 식 작성기는 식을 작성하고 보다 빠르고 정확한 식 생성을 위해 파이프라인 논리를 빌드하는 데 도움이 되는 Copilot 지원을 포함합니다.
사용: Power BI는 보고 및 시각화를 위해 레이크하우스의 데이터를 사용할 수 있습니다. 각 레이크하우스에는 다른 보고 도구에서 레이크하우스 테이블의 데이터를 쉽게 연결하고 쿼리할 수 있도록 SQL 분석 엔드포인트 라는 기본 제공 TDS 엔드포인트가 있습니다. OneLake를 통해 Direct Lake를 사용하여 Power BI가 가져오기 또는 전용 의미 체계 모델 새로 고침 주기 없이 레이크하우스 테이블을 직접 쿼리할 수 있습니다. 또한 TDS/SQL 분석 엔드포인트를 사용하여 분석을 위해 SQL 쿼리를 연결하고 실행하여 타사 보고 도구에서 데이터를 사용할 수 있도록 할 수 있습니다.