Azure Databricks는 다양한 데이터 관리 요구 사항을 충족하기 위해 여러 테이블 형식 및 스토리지 형식을 제공합니다. 이 섹션에서는 원자성, 일관성, 격리 및 ACID(내구성) 트랜잭션 및 시간 이동과 같은 고급 기능을 구동하는 Delta Lake 및 Apache Iceberg 스토리지 형식과 함께 관리형, 외부 및 외장 테이블을 다룹니다.
핵심 개념
테이블 형식, 스토리지 형식 및 Unity 카탈로그 통합의 기본 사항에 대해 알아봅니다.
| 주제 | Description |
|---|---|
| 테이블 개념 | 테이블 형식, 스토리지 형식 및 Unity 카탈로그 통합에 대한 핵심 개념 및 기본 정보입니다. |
테이블 형식
다양한 데이터 관리 시나리오에 대한 다양한 테이블 형식 및 해당 기능을 살펴봅니다.
| 테이블 형식 | Description |
|---|---|
| 관리되는 테이블 | Azure Databricks가 메타데이터 및 데이터 파일을 모두 관리하는 테이블입니다. 최적화된 성능 및 스토리지가 있는 새 테이블에 권장됩니다. |
| 외부 테이블 |
Unity 카탈로그에서 메타데이터를 관리하는 동안 외부 스토리지 시스템에 저장된 데이터를 참조하는 테이블입니다. |
| 외세 테이블 | Lakehouse Federation을 통해 연결된 외부 시스템의 데이터를 나타내는 읽기 전용 테이블입니다. |
스토리지 형식
고급 데이터 관리 기능을 제공하는 개방형 테이블 형식으로 작업합니다.
| 포맷 | Description |
|---|---|
| Delta Lake | 관리 및 외부 테이블에 대한 ACID 트랜잭션, 시간 이동 및 스키마 적용을 제공하는 기본 스토리지 형식입니다. |
| Apache Iceberg | 고급 메타데이터 관리를 지원하는 Iceberg 에코시스템과의 통합을 위한 테이블 형식을 엽니다. |
테이블 관리
테이블 동작, 구조 및 성능을 구성하고 최적화합니다.
| 특징 | Description |
|---|---|
| 테이블 제약 조건 | null 제약 조건이 아닌 check 제약 조건을 사용하여 데이터 품질 규칙을 정의하고 적용합니다. |
| 스키마 적용 | Azure Databricks가 쓰기 중에 스키마 변경 및 데이터 형식 적용을 처리하는 방법을 제어합니다. |
| 테이블 분할 | 파티션 키로 데이터를 구성하여 쿼리 성능 및 데이터 관리를 개선합니다. |
| 테이블 크기 모니터링 | 테이블 스토리지 사용량 및 증가 패턴을 모니터링하고 분석합니다. |
| 외부를 관리형으로 변환 | 성능 및 관리를 개선하기 위해 외부 테이블을 관리 테이블로 마이그레이션합니다. |
| 외부 파티션 검색 | 클라우드 스토리지에 저장된 외부 테이블에서 파티션을 자동으로 검색하고 등록합니다. |