다음을 통해 공유


Azure Databricks의 데이터 웨어하우징이란?

데이터 웨어하우징은 비즈니스 인사이트 및 보고를 위해 신속하게 액세스할 수 있도록 여러 원본에서 데이터를 수집하고 저장하는 것을 의미합니다. 이 문서에는 데이터 레이크하우스에서 데이터 웨어하우스를 빌드하기 위한 주요 개념이 포함되어 있습니다.

레이크하우스의 데이터 웨어하우징

레이크하우스 아키텍처 및 Databricks SQL은 클라우드 데이터 웨어하우징 기능을 데이터 레이크에 제공합니다. 친숙한 데이터 구조, 관계 및 관리 도구를 사용하여 데이터 레이크에서 직접 실행되는 매우 성능이 뛰어난 비용 효율적인 데이터 웨어하우스를 모델링할 수 있습니다. 자세한 내용은 데이터 레이크하우스란?

데이터 웨어하우징, 데이터 엔지니어링, 데이터 스트리밍, 데이터 과학 및 ML을 포함하는 최상위 계층이 있는 Lakehouse 아키텍처

기존 데이터 웨어하우스와 마찬가지로 비즈니스 요구 사항에 따라 데이터를 모델링한 다음 분석 및 보고서를 위해 최종 사용자에게 제공합니다. 기존 데이터 웨어하우스와 달리 비즈니스 분석 데이터를 사일로 처리하거나 부실해지는 중복 복사본을 만드는 것을 방지할 수 있습니다.

Lakehouse 내에 데이터 웨어하우스를 빌드하면 모든 데이터를 단일 시스템으로 가져오고 Unity 카탈로그 및 Delta Lake와 같은 기능을 활용할 수 있습니다.

Unity 카탈로그 는 데이터 액세스를 보호하고 감사하고 다운스트림 테이블에 계보 정보를 제공할 수 있도록 통합 거버넌스 모델을 추가합니다. Delta Lake 는 데이터를 안정적이고 확장 가능하며 고품질로 유지하기 위한 다른 강력한 도구 중에서 ACID 트랜잭션 및 스키마 진화를 추가합니다.

Databricks SQL이란?

참고 항목

Databricks SQL Serverless는 Azure 중국에서 사용할 수 없습니다. Databricks SQL은 Azure Government 지역에서 사용할 수 없습니다.

Databricks SQL은 기존 데이터 레이크에 데이터 웨어하우징 기능 및 성능을 제공하는 서비스 컬렉션입니다. Databricks SQL은 개방형 형식 및 표준 ANSI SQL을 지원합니다. 플랫폼 내 SQL 편집기 및 대시보드 도구를 사용하면 팀 구성원이 작업 영역에서 직접 다른 Databricks 사용자와 공동 작업할 수 있습니다. 또한 Databricks SQL은 분석가가 새 플랫폼에 적응하지 않고도 즐겨 찾는 환경에서 쿼리 및 대시보드를 작성할 수 있도록 다양한 도구와 통합됩니다.

Databricks SQL은 레이크하우스의 테이블에 대해 실행되는 일반 컴퓨팅 리소스를 제공합니다. Databricks SQL은 SQL 웨어하우스에서 구동되며 스토리지에서 분리된 확장 가능한 SQL 컴퓨팅 리소스를 제공합니다.

SQL Warehouse 기본값 및 옵션에 대한 자세한 내용은 SQL 웨어하우스란?을 참조하세요.

Databricks SQL은 Unity 카탈로그와 통합되어 한 곳에서 데이터 자산을 검색, 감사 및 제어할 수 있습니다. 자세한 내용은 Unity 카탈로그란?

Azure Databricks의 데이터 모델링

레이크하우스는 다양한 모델링 스타일을 지원합니다. 다음 이미지는 레이크하우스의 여러 층을 통과할 때 데이터를 큐레이팅하고 모델링하는 방법을 보여 줍니다.

medallion Lakehouse 보관의 각 수준에서 다양한 데이터 모델을 보여 주는 다이어그램입니다.

Medallion 아키텍처

medallion 아키텍처는 레이크하우스의 기본 구조를 제공하는 일련의 증분 구체화된 데이터 계층을 설명하는 데이터 디자인 패턴입니다. 브론즈, 실버 및 골드 레이어는 최고 품질을 나타내는 금으로 각 수준에서 데이터 품질이 향상되는 것을 의미합니다. 자세한 내용은 medallion Lakehouse 아키텍처란?을 참조하세요.

레이크하우스 내에서 각 레이어에는 하나 이상의 테이블이 포함될 수 있습니다. 데이터 웨어하우스는 실버 계층에서 모델링되며 골드 계층의 특수 데이터 마트를 공급합니다.

브론즈 레이어

데이터는 배치 또는 증기 트랜잭션의 조합을 통해 모든 형식으로 레이크 하우스를 입력 할 수 있습니다. 브론즈 계층은 원래 형식의 모든 원시 데이터에 대한 방문 공간을 제공합니다. 해당 데이터는 델타 테이블로 변환됩니다.

실버 레이어

실버 계층은 서로 다른 원본의 데이터를 함께 제공합니다. 데이터 과학 및 기계 학습 애플리케이션에 중점을 둔 비즈니스의 경우 의미 있는 데이터 자산을 큐레이팅하기 시작합니다. 이 프로세스는 속도와 민첩성에 중점을 두는 경우가 많습니다.

또한 실버 계층은 서로 다른 원본의 데이터를 신중하게 통합하여 기존 비즈니스 프로세스에 맞게 데이터 웨어하우스를 빌드할 수 있습니다. 이 데이터는 종종 3NF(세 번째 표준 양식) 또는 Data Vault 모델을 따릅니다. 기본 및 외래 키 제약 조건을 지정하면 최종 사용자가 Unity 카탈로그를 사용할 때 테이블 관계를 이해할 수 있습니다. 데이터 웨어하우스는 데이터 마트에 대한 단일 진리 원본 역할을 해야 합니다.

데이터 웨어하우스 자체는 쓰기 시 스키마이며 원자성입니다. 변경에 최적화되어 있으므로 비즈니스 프로세스가 변경되거나 진화할 때 현재 요구 사항에 맞게 데이터 웨어하우스를 신속하게 수정할 수 있습니다.

골드 레이어

골드 레이어는 하나 이상의 데이터 마트를 포함할 수 있는 프레젠테이션 계층입니다. 데이터 마트는 특정 비즈니스 관점을 포착하는 관련 테이블 집합 형식의 차원 모델인 경우가 많습니다.

또한 골드 레이어에는 부서 및 데이터 과학 샌드박스가 포함되어 기업 전체에서 셀프 서비스 분석 및 데이터 과학을 사용할 수 있습니다. 이러한 샌드박스와 자체 컴퓨팅 클러스터를 제공하면 비즈니스 팀이 레이크하우스 외부에서 데이터 복사본을 만들지 못하게 됩니다.

다음 단계

Databricks를 사용하여 레이크하우스를 구현하고 운영하기 위한 원칙과 모범 사례에 대해 자세히 알아보려면 잘 설계된 데이터 레이크하우스 소개를 참조하세요.