다음을 통해 공유


SQL Database를 운영 데이터 저장소로 사용

적용 대상:Microsoft Fabric의 SQL 데이터베이스

이 문서에서는 Fabric에서 SQL 데이터베이스를 사용하여 ODS(운영 데이터 저장소) 를 구현하는 방법을 간략하게 설명합니다. 보안, 성능 및 관리되는 ODS를 빌드하기 위한 아키텍처 지침, 디자인 패턴, 워크로드 특성 및 패브릭 관련 고려 사항을 제공합니다.

ODS(운영 데이터 저장소)로 패브릭의 SQL 데이터베이스에 대한 사용 사례 다이어그램

ODS란?

ODS(운영 데이터 저장소)는 일반적으로 정규화된 스키마에서 여러 운영 시스템의 데이터를 가볍게 조정되고 정규화된 모델로 통합하는 주체 지향적이고 통합된 근 실시간 저장소입니다. 운영 보고, 경량 분석, API 제공 및 패브릭 웨어하우스 또는 레이크하우스와 같은 분석 계층으로의 다운스트림 전파를 지원합니다.

ODS는 원본 OLTP(온라인 트랜잭션 처리) 시스템 또는 차원 웨어하우스가 아닙니다 .

대신 원본 시스템과 분석 플랫폼 간에 지난 N 분, 시간 또는 며칠 동안 "뜨겁고 조화로운 진실"의 역할을 합니다.

ODS의 주요 특징

Microsoft Fabric의 ODS(운영 데이터 저장소)는 강력한 거버넌스 및 성능 보장을 통해 운영 데이터를 거의 실시간으로 볼 수 있도록 설계되었습니다.

  • 대기 시간이 짧은 여러 원본 시스템에서 데이터를 수집합니다.
  • 스키마는 일반적으로 유연성과 추적 가능성을 지원하기 위해 세 번째 정규화 형식(3NF)으로 정규화됩니다.
  • 데이터 품질은 중복 제거, ID 확인 및 지연 도착 또는 일시 삭제된 레코드 처리를 통해 적용되며 운영 보고 및 다운스트림 분석을 위한 신뢰할 수 있는 기반을 만듭니다.
  • 서비스 패턴에는 SQL 기반 쿼리, 운영 대시보드, 경고 및 API가 포함되며 패브릭 거버넌스 기능은 데이터 수명 주기 전반에 걸쳐 규정 준수 및 보안을 보장합니다.

Fabric의 SQL 데이터베이스는 운영 데이터와 분석 플랫폼 간의 안전하고 효율적인 통로 역할을 합니다.

Components

다음 구성 요소는 패브릭의 SQL 데이터베이스를 운영 데이터 저장소로 사용하는 데 포함됩니다.

  • 제약 조건 및 키: 비즈니스 논리 및 참조 무결성(자연 키, 서로게이트 키, 외화 키)을 적용합니다.
  • ID 확인: 여러 원본에서 중복 제거; 은 생존자 규칙을 적용합니다.
  • 서비스: GraphQL 엔드포인트 노출 및/또는 Power BI 대시보드 빌드

데이터 수집 및 워크로드 모범 사례

패브릭에서 SQL 데이터베이스에 ODS를 빌드하려면 새로 고침, 안정성 및 성능의 균형을 맞추는 수집 전략이 필요합니다.

  • 일괄 처리 및 증분 로드는 일반적으로 일관성을 보장하기 위해 워터마크 및 재시도 논리와 함께 변경 데이터 캡처 사용 커넥터를 사용하여 패브릭 데이터 파이프라인을 통해 오케스트레이션됩니다.
    • 데이터 새로 고침에 대한 서비스 수준 목표를 충족하는 동안 SQL 데이터베이스가 최대 부하 중에 크기를 조정할 수 있도록 파이프라인 동시성을 조정합니다.
    • 워터마킹은 증분 복사 프로세스에서 중요한 개념입니다. 증분 로드가 마지막으로 중지된 위치를 쉽게 식별할 수 있습니다.
  • Dataflow Gen2 또는 Spark Notebook에서 고급 변환 업스트림을 수행합니다. 제약 조건을 적용하고 OLTP와 유사한 성능을 유지하는 최종 MERGE 작업을 위해 SQL 계층을 예약합니다.
  • 안전한 재시작과 운영 탄력성을 위해 변경 감지, 워터마크, T-SQL MERGE, 제어 테이블을 결합하여 멱등 설계 패턴을 사용합니다.

엔진 및 환경

Fabric의 SQL Database는 Azure SQL Database와 동일한 SQL Database 엔진을 기반으로 하며, 표준 클라이언트 도구에 대한 완전한 호환성을 갖춘 친숙한 T-SQL 환경을 제공합니다.

Microsoft Fabric에서 SQL 데이터베이스를 사용하면 Microsoft Fabric의 다른 기능을 사용하여 수집에서 분석까지 엔드 투 엔드 워크플로를 만들 수 있습니다.

  • 데이터 파이프라인
  • 데이터 흐름 Gen2
  • Notebooks
  • 실시간 인텔리전스
  • Power BI
  • Git 기반 CI/CD를 사용하여 DevOps 프로세스를 간소화하는 모든 것