분석 데이터 처리 살펴보기

완료됨

분석 데이터 처리에서는 일반적으로 방대한 양의 과거 데이터나 비즈니스 메트릭을 저장하는 읽기 전용(또는 읽기-위주) 시스템을 사용합니다. 분석은 특정 시점의 데이터 스냅샷 또는 일련의 스냅샷을 기반으로 할 수 있습니다.

분석 처리 시스템의 구체적인 세부 사항은 솔루션에 따라 다를 수 있으나, 엔터프라이즈 규모 분석의 공통적인 아키텍처는 다음과 같습니다.

아래에 설명된 번호가 매겨진 요소가 있는 분석 데이터베이스 아키텍처를 보여 주는 다이어그램.

  1. 작동 데이터는 분석을 위해 ETL(추출, 변환 및 로드)을 데이터 레이크로 추출하거나, 나중에 적용된 변환을 사용하여 먼저 추출 및 로드되며, 최신 레이크하우스에서 공통적인 ELT 라는 패턴입니다.

  2. 데이터는 테이블 스키마로 로드됩니다. 일반적으로 데이터 레이크의 파일에 대한 테이블 형식 추상화가 있는 데이터 레이크하우스 또는 완전히 관계형 SQL 엔진이 있는 데이터 웨어 하우스에서 로드됩니다.

  3. 데이터 웨어하우스의 데이터를 집계하여 OLAP(온라인 분석 처리) 모델로 로드할 수 있습니다. 오늘날에는 의미 체계 모델 (지금까지 큐브)이라고도 합니다. 팩트 테이블의 집계된 수치 값(측정값)은 차원 테이블의 차원들의 교차 지점에 대해 계산됩니다. 예를 들어, 판매 수익을 날짜, 고객, 제품을 기준으로 합산할 수 있습니다. Power BI 의미 체계 모델이 가장 일반적인 예제입니다.

  4. 데이터 레이크, 데이터 웨어하우스 및 분석 모델의 데이터를 쿼리하여 보고서, 시각화 및 대시보드를 생성할 수 있습니다.

데이터 레이크는 대규모 데이터 분석 처리 시나리오에서 공통으로 나타나는 요소로, 대량의 파일 기반 데이터가 수집되어 분석되는 곳입니다.

데이터 웨어 하우스는 읽기 작업에 최적화된 관계형 스키마(주로 보고 및 데이터 시각화를 지원하는 쿼리)에 데이터를 저장하는 확립된 방법입니다.

Data Lakehouses 는 데이터 레이크의 유연하고 확장 가능한 스토리지와 데이터 웨어하우스의 관계형 쿼리 의미 체계를 결합한 최신 혁신입니다. 테이블 스키마는 OLTP 데이터 원본에 있는 데이터의 비정규화(쿼리가 더 빠르게 수행되도록 얼마간의 중복을 도입하는 작업)를 요구할 수 있습니다

OLAP 모델(또는 의미 체계 모델)은 분석 워크로드에 최적화된 집계된 데이터 스토리지 형식입니다. 데이터 집계는 서로 다른 수준의 차원에 걸쳐 있으므로 여러 계층 수준에서 집계를 볼 수 있도록 드릴업/다운 할 수 있습니다. 예를 들어 지역별, 도시별 또는 개별 주소별 총 매출을 찾으려면 데이터가 미리 집계되므로 포함된 요약을 반환하는 쿼리를 신속하게 실행할 수 있습니다.

전체 아키텍처의 여러 스테이지에서 다양한 유형의 사용자가 데이터 분석 작업을 수행할 수 있습니다. 예:

  • 데이터 과학자는 데이터 레이크에 있는 데이터 파일로 직접 작업하여 데이터를 살펴보고 모델링할 수 있습니다.
  • 데이터 분석가는 데이터 웨어하우스에 있는 테이블을 직접 쿼리하여 복합적인 보고서 및 시각화를 생성할 수 있습니다.
  • 비즈니스 사용자는 보고서 또는 대시보드의 형태로 분석 모델에서 사전 집계된 데이터를 사용할 수 있습니다.

최신 분석 플랫폼

Azure 원시 데이터 수집에서 대화형 보고서에 이르기까지 전체 분석 파이프라인을 다루는 여러 관리되는 서비스를 제공합니다. 두 개의 "올인원" 플랫폼은 이러한 기능의 대부분을 단일 작업 영역에서 함께 제공합니다. Microsoft FabricAzure Databricks 두 플랫폼입니다. 세 번째 서비스인 Microsoft Purview는 모든 원본의 데이터 거버넌스에 중점을 둡니다. 이러한 서비스에 대해 잘 알고 있을 필요는 없습니다. 다음 설명을 통해 각 서비스에 대해 개략적으로 이해할 수 있습니다.

Microsoft Fabric 단일 작업 영역에서 스토리지, 데이터 엔지니어링, 데이터 웨어하우징 및 보고 기능을 함께 제공하는 SaaS(통합 소프트웨어 서비스) 분석 플랫폼입니다. Azure DatabricksDelta Lake Parquet과 버전 관리 및 ACID 트랜잭션을 사용하는 트랜잭션 로그를 표준 스토리지 형식으로 사용하여 대규모 데이터 엔지니어링 및 데이터 과학용으로 빌드된 클라우드 분석 플랫폼입니다. Microsoft Purview 통합 데이터 보안, 거버넌스 및 규정 준수를 제공하여 모든 데이터 원본에서 데이터를 검색, 분류, 보호 및 관리하는 데 도움이 됩니다.

최신 분석 플랫폼 Microsoft Fabric, Azure Databricks 및 Microsoft Purview를 보여 주는 다이어그램.

medallion 아키텍처를 사용하여 데이터 구성

레이크하우스에서 데이터를 구성하는 일반적인 패턴은 세 개의 레이어를 사용하는 medallion 아키텍처입니다.

  • Bronze: 원본 시스템에서 as-is 수집한 원시 데이터로 변환이 적용되지 않고 원래 레코드를 다시 처리할 수 있습니다.
  • Silver: 중복이 제거되고 데이터 형식이 표준화된 정리되고 준수된 데이터입니다.
  • 골드: 특정 보고 및 분석 사용 사례를 모델링한 집계된 비즈니스 준비 데이터입니다.

메달리온 아키텍처를 보여주는 다이어그램

팀은 각 계층에서 명확한 품질 경계를 만들므로 이 패턴을 사용하며 요구 사항이 변경되면 항상 원래 Bronze 레코드에서 데이터를 다시 처리할 수 있습니다.

Fabric Databricks에는 자연어를 사용하여 데이터를 탐색할 수 있는 Copilot 환경이 모두 포함됩니다.