레이크 데이터베이스 개념 이해

완료됨

기존 관계형 데이터베이스에서 데이터베이스 스키마는 테이블, 뷰 및 기타 개체로 구성됩니다. 관계형 데이터베이스의 테이블은 데이터가 저장되는 엔터티를 정의합니다. 예를 들어 소매 데이터베이스에는 제품, 고객 및 주문에 대한 테이블이 포함될 수 있습니다. 각 엔터티는 테이블의 열로 정의된 특성 집합으로 구성되며 각 열에는 이름과 데이터 형식이 있습니다. 테이블의 데이터는 데이터베이스에 저장되고 테이블 정의와 밀접하게 결합되어 관련 키 간에 데이터 형식, Null 허용 여부, 키 고유성 및 참조 무결성을 적용합니다. 모든 쿼리 및 데이터 조작은 데이터베이스 시스템을 통해 수행해야 합니다.

데이터 레이크에는 고정된 스키마가 없습니다. 데이터는 구조화되거나 반구조화되거나 구조화되지 않은 파일에 저장됩니다. 애플리케이션 및 데이터 분석가는 자신이 선택한 도구를 사용하여 관계형 데이터베이스 시스템의 제약 조건 없이 데이터 레이크의 파일로 직접 작업할 수 있습니다.

레이크 데이터베이스는 데이터 레이크에 있는 하나 이상의 파일에 관계형 메타데이터 계층을 제공합니다. 열 이름 및 데이터 형식뿐만 아니라 기본 및 외래 키 열 간의 관계를 비롯해 테이블에 대한 정의를 포함하는 레이크 데이터베이스를 만들 수 있습니다. 테이블은 데이터 레이크의 파일을 참조하므로 관계형 의미 체계를 데이터 작업에 적용하고 SQL을 사용하여 쿼리할 수 있습니다. 그러나 데이터 파일의 스토리지는 데이터베이스 스키마에서 분리됩니다. 일반적으로 관계형 데이터베이스 시스템에서 제공하는 것보다 더 많은 유연성을 사용할 수 있습니다.

파일 저장소에 파일을 오버레이하는 연결된 테이블의 관계형 스키마 다이어그램

레이크 데이터베이스 스키마

Azure Synapse Analytics에서 레이크 데이터베이스를 만들고 데이터를 저장해야 하는 엔터티를 나타내는 테이블을 정의할 수 있습니다. 입증된 데이터 모델링 원칙을 적용하여 테이블 간의 관계를 만들고 테이블, 열, 그 외 데이터베이스 개체에 적절한 명명 규칙을 사용할 수 있습니다.

Azure Synapse Analytics에는 기존 데이터베이스에 적용할 데이터베이스 디자인과 동일한 여러 모범 사례를 사용하여 복잡한 데이터베이스 스키마를 모델링하는 데 사용할 수 있는 그래픽 데이터베이스 디자인 인터페이스가 포함되어 있습니다.

레이크 데이터베이스 스토리지

레이크 데이터베이스의 테이블에 대한 데이터는 데이터 레이크에 Parquet 또는 CSV 파일로 저장됩니다. 이 파일은 데이터베이스 테이블과 상관없이 독립적으로 관리할 수 있으므로 다양한 데이터 처리 도구 및 기술을 사용하여 데이터 수집 및 조작을 더욱 쉽게 관리할 수 있습니다.

레이크 데이터베이스 컴퓨팅

정의한 테이블을 통해 데이터를 쿼리하고 조작하려면 Azure Synapse 서버리스 SQL 풀을 사용하여 SQL 쿼리를 실행하거나 Azure Synapse Apache Spark 풀을 사용하여 Spark SQL API를 이용한 테이블 작업을 수행할 수 있습니다.