OPTIMIZE

적용 대상: 확인 표시 예 Databricks SQL Databricks 런타임

이 페이지에서는 OPTIMIZE Delta Lake 데이터의 레이아웃을 최적화하는 명령에 대해 설명합니다. 데이터의 하위 집합을 최적화하거나 열별로 데이터를 정렬할 수 있습니다. 배치를 지정하지 않고 테이블에서 액체 클러스터링을 사용하지 않는 경우 Delta Lake는 빈 압축 최적화를 수행합니다.

구문

OPTIMIZE table_name [FULL] [WHERE predicate]
  [ZORDER BY (col_name1 [, ...] ) ]

참고

Bin-packing 최적화는 idempotent입니다. 동일한 데이터 집합에서 두 번 실행하면 두 번째 실행은 효과가 없습니다. 디스크의 크기와 관련하여 균등하게 분산된 데이터 파일을 생성하지만 파일당 튜플 수가 반드시 있는 것은 아닙니다. 두 측정값은 가장 자주 상관 관계가 있습니다.

Z 순서는 idempotent가 아니지만 증분 방식으로 작동합니다. Z-Ordering에 걸리는 시간이 여러 실행에서 감소하도록 보장되지는 않습니다. 그러나 Z-Ordered인 파티션에 새 데이터가 추가되지 않은 경우 해당 파티션에서 Z-Ordering을 다시 실행해도 효과가 없습니다. Z 순서 지정은 튜플 수와 관련하여 균등하게 분산된 데이터 파일을 생성하지만 반드시 디스크의 데이터 크기는 아닙니다. 두 측정값은 가장 자주 상관 관계가 있지만 최적화 작업 시간의 기울이기는 서로 다각화될 때 발생할 수 있습니다.

참고

Databricks 런타임을 사용하는 경우 출력 파일 크기를 제어하려면 Spark 구성spark.databricks.delta.optimize.maxFileSize을 설정합니다. 기본값은 (1GB)입니다 1073741824 . 지정하면 104857600 파일 크기가 100MB로 설정됩니다.

매개 변수

table_name

기존 델타 테이블을 식별합니다. 이름에는 임시 사양 또는 옵션 사양이 포함되어서는 안됩니다.
FULL

적용 대상: Databricks Runtime 16.0 이상

테이블의 모든 데이터 파일을 다시 작성합니다. 다음을 수행 OPTIMIZE table_name FULL 합니다.
- 이전에 클러스터링된 데이터( 액체 클러스터링을 사용하는 테이블의 경우)를 포함하여 전체 테이블을 최적화합니다.
- 속성을 사용하여 테이블의 압축 코덱을 변경할 때 기존 데이터 파일을 다시 압축합니다 delta.parquet.compression.codec .
압축 코덱을 변경한 후 기존 데이터를 다시 압축하려면 다음을 실행 OPTIMIZE table_name FULL합니다.
```
-- Change compression codec
ALTER TABLE table_name SET TBLPROPERTIES ('delta.parquet.compression.codec' = 'ZSTD');

-- Recompress all existing data files
OPTIMIZE table_name FULL;
```
액체 클러스터링을 사용하도록 설정된 테이블의 파일 하위 집합을 최적화하려면 조건자(Databricks Runtime 18.1 이상)와 FULL 결합 WHERE 합니다. 단일 클러스터링 열의 단순 범위 조건자만 지원됩니다. 범위의 일부가 조건자와 겹치는 경우 파일이 포함됩니다. 예를 들어 OPTIMIZE events FULL WHERE date > 15 파일의 범위가 조건자와 겹치므로 범위 (col_min = 10, col_max = 20) 가 있는 파일을 포함합니다.
WHERE

파티션/클러스터링 조건자와 일치하는 행의 하위 집합을 최적화합니다. 파티션/클러스터링 키 특성에 대한 필터만 지원됩니다.

액체 클러스터링을 사용하는 테이블의 경우 대신 (Databricks Runtime 18.1 이상)을 사용합니다 OPTIMIZE table_name FULL WHERE predicate .
ZORDER BY

참고

Databricks는 Z 순서 지정 대신 모든 새 테이블에 액체 클러스터링을 권장합니다. 테이블에 대한 액체 클러스터링 사용을 참조하세요.

동일한 파일 집합에 열 정보를 배치합니다. Delta Lake 데이터 건너뛰기 알고리즘은 공동 지역성을 사용하여 읽어야 하는 데이터의 양을 줄입니다. 여러 열을 쉼표로 구분된 목록으로 지정할 수 있지만 추가 열마다 공동 지역성의 효율성이 감소합니다.

액체 클러스터링을 사용하는 테이블에서는 이 절을 사용할 수 없습니다.

예제

> OPTIMIZE events;

> OPTIMIZE events FULL;

> -- Partitioned table
> OPTIMIZE events WHERE date >= '2017-01-01';

> -- Table with liquid clustering enabled (DBR 18.1 and above)
> OPTIMIZE events FULL WHERE date >= '2025-01-01';

> OPTIMIZE events
    WHERE date >= current_timestamp() - INTERVAL 1 day
    ZORDER BY (eventType);

자세한 내용은 데이터 파일 레이아웃 최적화를 참조하세요.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-04-24

OPTIMIZE

구문

매개 변수

예제

피드백

추가 리소스