Azure Databricks의 Delta Lake에서 지원되는 테이블에 대해 보고된 테이블 크기는 클라우드 개체 스토리지에 있는 해당 파일 디렉터리 전체 크기와 다릅니다. 이 문서에서는 이러한 차이점이 존재하는 이유와 비용 제어를 위한 권장 사항을 설명합니다.
델타 테이블 크기가 디렉터리 크기와 일치하지 않는 이유는 무엇인가요?
UI 및 DESCRIBE 명령을 통해 Azure Databricks에서 보고되는 테이블 크기는 현재 버전의 Delta 테이블에서 참조되는 파일의 디스크에 있는 데이터 파일의 총 크기를 나타냅니다. 테이블에 쓰는 대부분의 작업에는 기본 데이터 파일을 다시 작성해야 하지만 이전 데이터 파일은 일정 기간 동안 보존되어 시간 이동 쿼리를 지원합니다.
참고 항목
테이블에서 레코드를 정기적으로 삭제하거나 업데이트하는 경우 삭제 벡터는 쿼리를 가속화하고 데이터 파일의 총 크기를 줄일 수 있습니다. 삭제 벡터란?을 참조하세요.
테이블의 스토리지 지표 계산
적용 대상:
Databricks Runtime 18.0 이상
총 스토리지 크기가 테이블 크기와 다른 이유를 이해하려면 ANALYZE TABLE … COMPUTE STORAGE METRICS를 사용하세요. 이 명령은 스토리지 할당에 대한 자세한 분석을 제공하여 다음을 지원합니다.
-
비용 최적화 기회 식별: 여기에서 얼마나 많은 스토리지를 회수할 수 있는지 확인
VACUUM - 시간 이동 오버헤드 분석: 기록 데이터 보존 비용 이해
- 스토리지 패턴 추적: 주기적으로 명령을 실행하여 Table Storage가 시간이 지남에 따라 어떻게 진화하는지 모니터링합니다.
- 테이블 간 스토리지 분석: 명령을 반복 실행하여 전체 데이터베이스 분석
이 명령은 다음을 포함한 포괄적인 메트릭을 반환합니다.
- 총 스토리지 크기: 모든 데이터, 메타데이터 및 로그를 포함한 전체 공간
- 활성 데이터: 현재 테이블 버전의 크기
- 진공 가능 데이터: 회수할 수 있는 공간
- 시간 여행 데이터: 롤백을 위한 역사적 데이터
이는 Azure Databricks가 예측 최적화를 통해 스토리지를 자동으로 관리하는 Unity 카탈로그 관리 테이블에 특히 유용합니다.
COMPUTE STORAGE 메트릭을 참조하여 전체 구문 및 예제를 확인하세요.
예측 최적화를 사용하여 데이터 크기 제어
Databricks는 예측 최적화를 사용하도록 설정된 Unity 카탈로그 관리 테이블을 사용하는 것이 좋습니다. Databricks는 관리 테이블과 예측 최적화를 통해 사용되지 않는 데이터 파일의 축적을 방지하기 위해 자동으로 OPTIMIZE 명령과 VACUUM 명령을 실행합니다. 현재 버전의 테이블과 클라우드 개체 스토리지의 총 데이터 파일 크기 사이에는 항상 크기가 차이가 있을 것으로 예상합니다. 시간 이동 쿼리를 지원하려면 현재 버전에서 참조되지 않은 데이터 파일이 필요하기 때문입니다. Unity 카탈로그 관리 테이블에 대한
어떤 파일 메트릭을 보고하나요 VACUUM ?
VACUUM 사용하여 사용하지 않는 데이터 파일을 정리하거나 DRY RUN 사용하여 제거를 위해 설정된 파일을 미리 보는 경우 메트릭은 제거된 파일 수와 데이터 크기를 보고합니다.
VACUUM 의해 제거된 파일의 크기와 수는 크게 다르지만 제거된 파일의 크기가 현재 테이블 버전의 총 크기를 초과하는 것은 드문 일이 아닙니다.
어떤 파일 메트릭을 보고하나요 OPTIMIZE ?
OPTIMIZE 대상 테이블에서 실행되면 새 데이터 파일은 기존 데이터 파일의 레코드를 결합합니다.
OPTIMIZE 변경 내용은 데이터 조직에만 영향을 미치며 기본 데이터 콘텐츠는 변경되지 않습니다. 압축된 새 파일이 포함된 디렉터리에 더 이상 참조되지 않는 데이터 파일과 공존하므로 테이블과 연결된 데이터 파일의 총 크기는 OPTIMIZE 실행 후 증가합니다.
OPTIMIZE 후에 보고된 테이블의 크기는 일반적으로 OPTIMIZE 실행 전의 크기보다 작습니다. 현재 테이블 버전에서 참조하는 데이터 파일의 총 크기는 데이터 압축으로 감소하기 때문입니다. 기본적인 데이터 파일을 제거하려면 보존 임계값을 넘은 후에 VACUUM이 실행되어야 합니다.
참고 항목
같은 REORG TABLE 작업에 대해 유사한 메트릭이 표시될 DROP FEATURE수 있습니다. 데이터 파일을 다시 작성해야 하는 모든 작업은 VACUUM 현재 테이블 버전에서 더 이상 참조되지 않는 데이터 파일을 제거할 때까지 포함하는 디렉터리의 총 데이터 크기를 증가합니다.