데이터 웨어하우스 기본 사항 이해

완료됨

최신 데이터 웨어하우스를 빌드하는 프로세스는 일반적으로 다음과 같이 구성됩니다.

  • 데이터 수집 - 원본 시스템에서 데이터 웨어하우스로 데이터 이동
  • 데이터 스토리지 - 분석에 최적화된 형식으로 데이터 저장
  • 데이터 처리 - 분석 도구에서 사용할 수 있는 형식으로 데이터 변환
  • 데이터 분석 및 제공 - 데이터를 분석하여 인사이트를 얻고 이러한 인사이트를 비즈니스에 전달

Microsoft Fabric을 사용하면 데이터 엔지니어와 분석가가 로우 코드와 기존 환경을 모두 사용하여 하나의 도구에서 데이터를 수집, 저장, 변환, 시각화할 수 있습니다.

Fabric의 데이터 웨어하우스 환경 이해

Fabric의 데이터 웨어하우스는 엔터프라이즈 데이터 웨어하우스에서 기대할 수 있는 전체 트랜잭션 T-SQL 기능을 지원하는 관계형 데이터 웨어하우스입니다. Lakehouse에서 데이터를 저장하고 쿼리하는 데 사용할 수 있는 완전 관리형, 확장성, 고가용성 데이터 웨어하우스입니다. 데이터 웨어하우스를 사용하면 Fabric 포털 또는 T-SQL 명령을 사용하여 테이블 만들기, 로드, 변환, 쿼리를 완전히 제어할 수 있습니다. SQL을 사용하여 데이터를 쿼리 및 분석하거나 Spark를 사용하여 데이터를 처리하고 기계 학습 모델을 만들 수 있습니다.

Fabric의 데이터 웨어하우스는 데이터 엔지니어와 데이터 분석가 간의 협업을 용이하게 하며 동일한 환경에서 함께 작업합니다. 데이터 엔지니어는 Lakehouse의 데이터 위에 관계형 계층을 빌드하는데 여기서 분석가는 T-SQL 및 Power BI를 사용하여 데이터를 탐색할 수 있습니다.

데이터 웨어하우스 디자인

모든 관계형 데이터베이스와 마찬가지로 Fabric의 데이터 웨어하우스에는 나중에 분석할 수 있도록 데이터를 저장할 테이블이 포함되어 있습니다. 가장 일반적으로 이러한 테이블은 다차원 모델링에 최적화된 스키마로 구성됩니다. 이 접근 방식에서 이벤트(예: 판매 주문)와 관련된 숫자 데이터는 다양한 특성(예: 날짜, 고객, 매장)으로 그룹화됩니다. 예를 들어 특정 날짜 또는 특정 매장에서 발생한 판매 주문에 대해 지불한 총 금액을 분석할 수 있습니다.

데이터 웨어하우스의 테이블

데이터 웨어하우스의 테이블은 일반적으로 대량의 데이터에 대한 효율적이고 효과적인 분석을 지원하는 방식으로 구성됩니다. 이 조직은 테이블을 팩트 테이블과 차원 테이블로 구조화하는 차원 모델링이라고도 합니다.

팩트 테이블는 분석하려는 숫자 데이터가 포함됩니다. 팩트 테이블은 일반적으로 많은 수의 행이 있으며 분석을 위한 데이터의 기본 원본입니다. 예를 들어 팩트 테이블에는 특정 날짜 또는 특정 매장에서 발생한 판매 주문에 대해 지불된 총 금액이 포함될 수 있습니다.

차원 테이블는 팩트 테이블의 데이터에 대한 설명 정보가 포함되어 있습니다. 차원 테이블은 일반적으로 적은 수의 행이 있으며 팩트 테이블의 데이터에 대한 컨텍스트를 제공하는 데 사용됩니다. 예를 들어 차원 테이블에는 판매 주문을 한 고객에 대한 정보가 포함될 수 있습니다.

특성 열 외에도 차원 테이블에는 테이블의 각 행을 고유하게 식별하는 고유 키 열이 포함되어 있습니다. 실제로 차원 테이블에는 두 개의 키 열이 포함되는 것이 일반적입니다.

  • 서로게이트 키는 차원 테이블의 각 행에 대한 고유 식별자입니다. 새 행이 테이블에 삽입될 때 데이터베이스 관리 시스템에서 자동으로 생성되는 정수 값인 경우가 많습니다.
  • 대체 키는 제품 코드 또는 고객 ID와 같은 트랜잭션 원본 시스템에서 엔터티의 특정 인스턴스를 식별하는 자연 키 또는 비즈니스 키인 경우가 많습니다.

서로 다른 용도로 사용되므로 데이터 웨어하우스에 서로게이트 키와 대체 키가 모두 필요합니다. 서로게이트 키는 데이터 웨어하우스와 관련이 있으며 데이터의 일관성과 정확도를 유지하는 데 도움이 됩니다. 반면에 대체 키는 원본 시스템과 관련이 있으며 데이터 웨어하우스와 원본 시스템 간의 추적 가능성을 유지하는 데 도움이 됩니다.

특수 유형의 차원 테이블

특수 유형의 차원은 추가 컨텍스트를 제공하고 보다 포괄적인 데이터 분석을 가능하게 합니다.

시간 차원은 이벤트가 발생한 기간에 대한 정보를 제공합니다. 이 테이블을 사용하면 데이터 분석가가 temporal 간격에 대한 데이터를 집계할 수 있습니다. 예를 들어 시간 차원에는 판매 주문이 접수된 연도, 분기, 월, 일의 열이 포함될 수 있습니다.

느린 변경 차원은 고객 주소 또는 제품 가격 변경과 같이 시간이 지남에 따라 차원 특성의 변경 내용을 추적하는 차원 테이블입니다. 사용자가 시간이 지남에 따라 데이터 변경 내용을 분석하고 이해할 수 있도록 하기 때문에 데이터 웨어하우스에서 중요합니다. 느린 변경 차원은 데이터를 최신 상태로 정확하게 유지되므로 올바른 비즈니스 의사 결정을 내리는 데 필수적입니다.

데이터 웨어하우스 스키마 디자인

비즈니스 애플리케이션에서 사용되는 대부분의 트랜잭션 데이터베이스에서 데이터는 중복을 줄이기 위해 정규화됩니다. 그러나 데이터 웨어하우스에서 차원 데이터는 일반적으로 정규화되지 않아서 데이터를 쿼리하는 데 필요한 조인 수를 줄입니다.

데이터 웨어하우스는 다음 예제와 같이 팩트 테이블이 차원 테이블과 직접 관련되는 별모양 스키마로 구성되는 경우가 많습니다.

Diagram of a star schema design displaying a FactSales table with five dimensions that form the shape of a star.

어떤 것의 특성을 사용하여 팩트 테이블의 숫자를 서로 다른 수준으로 그룹화할 수 있습니다. 예를 들어 전체 지역 또는 한 고객의 총 판매 수익을 찾을 수 있습니다. 각 수준에 대한 정보를 동일한 차원 테이블에 저장할 수 있습니다.

Fabric용 별모양 스키마 디자인에 대한 자세한 내용은 별모양 스키마란?을 참조하세요.

수준이 많거나 일부 정보가 다른 항목에서 공유되는 경우 대신 눈송이 스키마를 사용하는 것이 합리적일 수 있습니다. 예를 들면 다음과 같습니다.

Diagram of a snowflake schema design displaying multiple dimensions.

이 경우 DimProduct 테이블이 분할(정규화)되어 제품 범주 및 공급자를 위한 별도의 차원 테이블을 만듭니다.

  • DimProduct 테이블의 각 행에는 DimCategoryDimSupplier 테이블의 해당 행에 대한 키 값이 포함되어 있습니다.

고객 및 매장이 있는 위치에 대한 정보가 포함된 DimGeography 테이블이 추가되었습니다.

  • DimCustomerDimStore 테이블의 각 행에는 DimGeography 테이블의 해당 행에 대한 키 값이 포함되어 있습니다.