다음을 통해 공유


Real-Time Intelligence에서 메달리온 아키텍처를 구현하기

이 문서에서는 Microsoft Fabric에서 Real-Time Intelligence를 사용하여 medallion 아키텍처를 구현하는 방법을 설명합니다. medallion 아키텍처는 데이터가 단계를 통과할 때 원자성, 일관성, 격리성 및 내구성 등 ACID 특성을 보장합니다. 원시 데이터부터 일련의 유효성 검사 및 변환을 거쳐 효율적인 분석을 위해 최적화됩니다. 아키텍처는 브론즈 계층(원시 데이터), 실버 계층(유효성이 검사된 데이터) 및 골드 계층(보강된 데이터)의 세 단계로 구성됩니다.

자세한 내용은 메달리온 아키텍처란 무엇인가?.

어떻게 작동하나요?

Real-Time Intelligence에는 추가 인프라 없이 KQL 데이터베이스에서 메달리온 아키텍처를 쉽게 구현할 수 있는 기능이 포함되어 있습니다. 기능은 다음과 같습니다.

  • 업데이트 정책

    데이터가 Bronze 계층에 들어가면 업데이트 정책을 사용하여 변환하고 보강하여 다운스트림 분석의 향상된 데이터 품질, 일관성 및 관련성과 같은 비즈니스 가치를 추가할 수 있습니다. 업데이트 정책은 증분 처리, 검사점 및 워터마크와 같은 스트리밍 개념을 간소화하여 연속 데이터 스트림의 처리를 용이하게 합니다. 이 추상화에서는 추가 도구 없이도 스트리밍 애플리케이션 및 파이프라인을 빌드할 수 있습니다. Real-Time Intelligence의 라이브 스트리밍 데이터 수집 및 변환 기능을 통해 데이터 엔지니어와 데이터 과학자는 다양한 원본의 실시간 데이터를 처리할 수 있습니다.

    자세한 내용은 업데이트 정책참조하세요.

  • 구체화된 뷰

    구체화된 뷰는 중복 값이 도착하면 제거되므로 중복 제거된 레코드를 쿼리에 즉시 사용할 수 있습니다. 집계 뷰를 실시간으로 계산하여 성능 향상, 데이터 새로 고침 및 비용 절감을 보장합니다. 이렇게 하면 데이터 집계를 수행하는 추가 도구가 필요하지 않습니다. 원본 테이블 또는 다른 구체화된 뷰를 통해 집계 쿼리를 노출하면 항상 up-to-date 결과를 제공합니다. 구체화된 뷰를 쿼리하는 것이 원본 테이블에서 직접 집계를 실행하는 것보다 더 효율적이므로 성능이 향상됩니다. 또한 구체화된 뷰는 리소스를 적게 소비하므로 비용이 절감될 수 있습니다.

    자세한 내용은 구체화된 뷰를 참조하세요.

메달리언 아키텍처 구현

Real-Time Intelligence를 사용하면 데이터가 도착할 때 이를 처리하여 'medallion' 아키텍처를 구축할 수 있습니다. 이렇게 하면 데이터의 실시간 측면을 유지하면서 Bronze, Silver 및 Gold 계층을 빌드할 수 있습니다.

Real-Time Intelligence의 메달리온 구조를 보여 주는 다이어그램

  • 브론즈 레이어

    Bronze 계층은 들어오는 모든 원시 데이터를 위한 초기 수신 영역 역할을 합니다. Real-Time Intelligence에서 Bronze 계층은 Eventstream이나 Eventhouse의 테이블을 통해 데이터를 수집하여 Silver 및 Gold 계층에서의 데이터 보강 및 분석의 기초를 제공합니다.

    변경 캡처 목적 및 데이터 재생 기능을 위해 이 데이터를 유지할 수 있습니다. Bronze 계층에서 Eventstream을 사용하는 경우 이벤트 처리에서 변환 또는 향상된 기능을 수행하기 전에 OneLake에 데이터를 출력할 수 있습니다. Bronze 계층에서 테이블을 사용하는 경우 데이터를 OneLake에 미러링할 수 있습니다.

  • 실버 레이어

    Silver 계층에는 레코드 중복 제거를 포함하여 비즈니스 가치를 추가하기 위해 변환 및 보강되는 데이터가 포함됩니다. 이 계층은 다음과 같이 이벤트 처리 및 업데이트 정책과 같은 메서드를 사용하여 Bronze 계층의 데이터를 처리합니다.

    • 이벤트 처리: Eventstream의 데이터는 이벤트 처리를 사용하여 강화하고 비즈니스 가치를 더한 후 Eventhouse의 Silver 계층 테이블에 결과를 삽입합니다.
    • 업데이트 정책: Bronze 계층 테이블의 데이터는 업데이트 정책사용하여 즉시 처리됩니다. 결과는 Eventhouse의 Silver 레이어 테이블에 삽입됩니다. 중복 제거는 구체화된 뷰사용하여 발생하며, 데이터가 up-to유지되도록 하고 솔루션의 실시간 측면을 유지합니다.

    일반적으로 이 계층에는 변환 및 향상된 기능을 위한 테이블과 중복 제거를 위한 구체화된 뷰라는 두 개의 테이블이 있습니다. 첫 번째 테이블의 경우 보존 정책을 0일로 설정할 수 있습니다. 이는 데이터가 테이블에 표시되지 않지만, 여전히 구체화된 뷰를 통해 중복이 제거된다는 것을 의미합니다. 중복 제거된 구체화된 뷰는 세분성이 높은 분석에 사용됩니다. 보존 정책 쿼리 패턴에 따라 데이터를 유지할 기간과 캐싱 정책을 설정하여 비용을 최적화할 수 있습니다. 골드 레이어만큼 실버 레이어가 필요하지 않은 경우가 많습니다.

  • 골드 레이어

    골드 계층에는 데이터의 실시간 측면을 유지하면서 시각화 요구 사항에 최적화된 데이터가 포함되어 있습니다. 이 계층은 구체화된 뷰사용하여 도착하는 데이터를 집계하고 계산하여 데이터 세트에 따라 수신된 최신 값에 빠르게 액세스할 수 있도록 합니다. 골드 계층은 데이터가 고급 분석 및 시각화 도구에 대해 준비되도록 보장하여 의사 결정을 위한 up-to최신 정보 및 고품질 인사이트를 제공합니다.

    이 계층은 집계 및 최신 값 구체화 뷰를 사용하여 시각화에 최적화되어 있습니다. 대부분의 시나리오에서 이 다운 샘플링된 데이터는 Silver 계층보다 더 긴 기간 동안 보존 및 쿼리됩니다. 보존 정책 활용하여 쿼리 패턴에 따라 데이터 및 캐싱 정책을 유지할 기간을 결정함으로써 이 프로세스는 기본적으로 처리됩니다.

시각화 및 행동

Real-Time Intelligence의 성능 기능을 사용하면 Power BI, Real-Time 대시보드 또는 KQL 쿼리 세트와 같은 구성 요소를 사용하여 데이터를 시각화할 수 있습니다. 집계된 뷰를 위해 골드 레이어와 실버 계층 모두에서 데이터를 끌어와 고도의 세분화된 분석을 수행할 수 있습니다. 또한 Activator을 사용하여 각 계층에 있는 데이터에 대해 작업할 수 있는 기능을 활용할 수 있습니다. 이를 통해 Eventstream에 도착한 즉시 데이터에 대응하고, 실버 계층에서의 세분화된 데이터, 그리고 골드 계층에서 집계된 데이터에 대해 조치를 취할 수 있는 능력을 제공합니다.

주요 이점

Real-Time Intelligence의 medallion 아키텍처는 다음을 비롯한 몇 가지 이점을 제공합니다.

  • 실시간 데이터 처리를 위해 의도적으로 빌드

    Microsoft Fabric의 Real-Time Intelligence는 높은 세분성 데이터와 함께 지속적으로 흐르는 데이터를 처리하도록 빌드되었습니다. 브론즈에서 골드 레이어로의 전체 흐름이 제품에 기본 제공됩니다. 일정이 없으면 도착하자마자 브론즈에서 실버에서 골드로 데이터를 처리할 수 있습니다. 이 작업은 다음을 통해 수행할 수 있습니다.

  • 융통성

    일반적인 medallion 아키텍처에서 데이터는 골드 계층에서만 소비되어 개별 레코드가 손실되고 세분화된 분석을 수행할 수 없습니다. Eventhouse를 사용하면 골드 계층과 실버 계층의 데이터를 모두 사용할 수 있으므로 세분성이 높은 분석의 잠금을 해제할 수 있습니다. Eventhouse는 수십억 개의 레코드에 대한 쿼리를 몇 초 만에 처리하도록 빌드되었습니다.

  • 기본 제공 데이터 관리

    각 계층의 데이터에는 보존 및 쿼리에 대한 요구 사항이 다릅니다. 이 프로세스는 기본 제공 기능을 통해 쉽게 구현됩니다.

  • 네이티브 시각화 계층

    단일 작업을 사용하면 골드 또는 실버 계층의 쿼리를 새 또는 기존 Power BI 보고서 또는 Real-Time 대시보드에 고정할 수 있습니다.

  • OneLake 가용성

    Silver Layer에서 데이터를 가져와서 OneLake 가용성통해 OneLake에서 Delta Parquet로 노출합니다. 조직의 여러 이해 관계자가 다른 도구를 사용합니다. 예를 들어 데이터 과학자는 기계 학습 모델 학습에 기록 데이터를 사용합니다. OneLake에서 데이터를 사용할 수 있게 함으로써 각 관련자는 추가 스토리지 비용 없이 데이터와 쉽게 상호 작용할 수 있습니다.