데이터 파일 크기 제어

참고

이 문서의 권장 사항은 Unity 카탈로그 관리 테이블에 적용되지 않습니다. Databricks는 모든 새 테이블에 대한 기본 설정과 함께 Unity 카탈로그 관리 테이블을 사용하는 것이 좋습니다.

Databricks Runtime 13.3 이상에서 Databricks는 테이블 레이아웃에 클러스터링을 사용하는 것이 좋습니다. 테이블에 대한 액체 클러스터링 사용을 참조하세요.

Databricks는 예측 최적화를 사용하여 OPTIMIZE 및 VACUUM을 테이블에서 자동으로 실행하는 것을 권장합니다. Unity 카탈로그 관리 테이블에 대한 예측 최적화를 참조하세요.

Databricks Runtime 10.4 LTS 이상에서는 MERGE, UPDATE, 및 DELETE 작업에 대해 자동 압축 및 최적화된 쓰기가 항상 활성화됩니다. 이 기능을 사용하지 않도록 설정할 수 없습니다.

쓰기 및 OPTIMIZE 작업에 대한 대상 파일 크기를 수동으로 또는 자동으로 구성하는 옵션이 있습니다. Azure Databricks는 이러한 많은 설정을 자동으로 조정하고 적절한 크기의 파일을 검색하여 테이블 성능을 자동으로 향상시키는 기능을 사용하도록 설정합니다.

Unity 카탈로그 관리 테이블의 경우 SQL 웨어하우스 또는 Databricks Runtime 11.3 LTS 이상을 사용하는 경우 Databricks는 이러한 구성의 대부분을 자동으로 조정합니다.

Databricks Runtime 10.4 LTS 이하에서 워크로드를 업그레이드하는 경우 백그라운드 자동 압축으로 업그레이드를 참조하세요.

실행 시기 `OPTIMIZE`

자동 압축 및 최적화된 쓰기는 각각 작은 파일 문제를 줄이지만 OPTIMIZE에 대한 완전한 대체는 아닙니다. 특히 1TB보다 큰 테이블의 경우 Databricks는 파일을 추가로 통합하기 위해 일정에 따라 실행하는 OPTIMIZE 것이 좋습니다. Azure Databricks는 테이블에서 ZORDER을(를) 자동으로 실행하지 않습니다. 따라서 향상된 데이터 건너뛰기를 활성화하려면 OPTIMIZE과 ZORDER을(를) 실행해야 합니다. 데이터 건너뛰기 참조

Azure Databricks에서 자동 최적화란?

자동 최적화라는 용어는 가끔 및 autoOptimize.autoCompact 설정에 의해 제어되는 기능을 설명하는 데 사용됩니다. 이 용어는 각 설정을 개별적으로 설명하기 위해 사용 중지되었습니다. 자동 압축 및 최적화된 쓰기를 참조하세요.

자동 압축

자동 압축은 작은 파일 문제를 자동으로 줄이기 위해 테이블 파티션 내의 작은 파일을 결합합니다. 자동 압축은 테이블에 대한 쓰기가 성공한 후 발생하고 쓰기를 수행한 클러스터에서 동기적으로 실행됩니다. 자동 압축은 이전에 압축되지 않은 파일만 압축합니다.

Delta의 경우 Spark 구성spark.databricks.delta.autoCompact.maxFileSize을 설정하거나 Iceberg의 경우 spark.databricks.iceberg.autoCompact.maxFileSize을 설정하여 출력 파일 크기를 제어합니다. Databricks는 워크로드 또는 테이블 크기에 따라 자동 조정을 사용하는 것이 좋습니다. 워크로드에 따른 Autotune 파일 크기와 테이블 크기에 따른 Autotune 파일 크기를 참조하세요.

자동 압축은 적어도 특정 개수의 작은 파일이 있는 파티션 또는 테이블에 대해서만 트리거됩니다. 선택적으로 Delta에 대해 spark.databricks.delta.autoCompact.minNumFiles을(를), 또는 Iceberg에 대해 spark.databricks.iceberg.autoCompact.minNumFiles을(를) 설정하여 자동 압축을 트리거하는 데 필요한 최소 파일 수를 변경하십시오.

다음 설정을 사용하여 테이블 또는 세션 수준에서 자동 압축을 사용하도록 설정합니다.

Table 속성: autoOptimize.autoCompact
SparkSession 설정: spark.databricks.delta.autoCompact.enabled (Delta) 또는 spark.databricks.iceberg.autoCompact.enabled (Iceberg)

이러한 설정은 다음 옵션을 허용합니다.

옵션	행동
`auto` (권장)	다른 자동 조정 기능을 유지하면서 대상 파일 크기를 조정합니다. Databricks Runtime 10.4 LTS 이상이 필요합니다.
`legacy`	`true`의 별칭입니다. Databricks Runtime 10.4 LTS 이상이 필요합니다.
`true`	대상 파일 크기로 128MB를 사용합니다. 동적 크기 조정이 없습니다.
`false`	자동 압축을 해제합니다. 워크로드에서 수정된 모든 테이블에 대한 자동 압축을 재정의하도록 세션 수준에서 설정할 수 있습니다.

중요

Databricks Runtime 9.1 LTS에서 다른 작성자가 같은 DELETEMERGEUPDATE작업을 수행하거나 OPTIMIZE 동시에 수행할 때 자동 압축으로 인해 트랜잭션 충돌과 함께 다른 작업이 실패할 수 있습니다. Databricks Runtime 10.4 LTS 이상에서는 문제가 되지 않습니다.

최적화된 쓰기

최적화된 쓰기는 데이터가 작성될 때 파일 크기를 개선하고 테이블의 후속 읽기에 도움이 됩니다.

최적화된 쓰기는 각 파티션에 기록되는 작은 파일의 수를 줄이기 때문에 분할된 테이블에 가장 효과적입니다. 적은 수의 큰 파일을 작성하는 것이 많은 작은 파일을 작성하는 것보다 더 효율적이지만, 데이터를 쓰기 전에 순서가 섞이기 때문에 쓰기 대기 시간이 증가할 수 있습니다.

다음 이미지는 최적화된 쓰기의 작동 방식을 보여 줍니다.

최적화된 쓰기

참고

작성된 파일 수를 제어하기 위해 데이터를 쓰기 직전에 실행되는 coalesce(n)repartition(n) 코드가 있을 수 있습니다. 최적화된 쓰기는 이 패턴을 사용할 필요가 없습니다.

최적화된 쓰기는 Databricks Runtime 9.1 LTS 이상에서 다음 작업에 대해 기본적으로 사용하도록 설정됩니다.

MERGE
하위 쿼리를 사용한 UPDATE
하위 쿼리를 사용한 DELETE

SQL 웨어하우스를 사용할 때 CTAS 문과 INSERT 작업에 대해서도 최적화된 쓰기가 활성화됩니다. Databricks Runtime 13.3 LTS 이상에서 Unity 카탈로그에 등록된 모든 테이블은 파티셔닝된 테이블의 CTAS 문 및 INSERT 작업에 대해 최적화된 쓰기를 지원합니다.

다음 설정을 사용하여 테이블 또는 세션 수준에서 최적화된 쓰기를 사용하도록 설정할 수 있습니다.

Table 속성: autoOptimize.optimizeWrite
SparkSession 설정: spark.databricks.delta.optimizeWrite.enabled (Delta) 또는 spark.databricks.iceberg.optimizeWrite.enabled (Iceberg)

이러한 설정은 다음 옵션을 허용합니다.

옵션	행동
`true`	대상 파일 크기로 128MB를 사용합니다.
`false`	최적화된 쓰기를 해제합니다. 워크로드에서 수정된 모든 테이블에 대한 자동 압축을 재정의하도록 세션 수준에서 설정할 수 있습니다.

대상 파일 크기 설정

테이블의 파일 크기를 조정하려면 테이블 속성을targetFileSize 원하는 크기로 설정합니다. 이 속성이 설정되면 모든 데이터 레이아웃 최적화 작업은 지정된 크기의 파일을 가장 효율적인 방법으로 생성하려고 시도합니다. 여기에 최적화 또는 Z 순서, 자동 압축 및 최적화된 쓰기가 있습니다.

참고

Unity 카탈로그 관리 테이블과 SQL 웨어하우스 또는 Databricks Runtime 11.3 LTS 이상을 사용하는 경우, OPTIMIZE 명령만 targetFileSize 설정을 준수합니다.

재산	Description
`delta.targetFileSize` (델타) `iceberg.targetFileSize` (빙산)	형식: 크기(바이트 이상) 설명: 대상 파일 크기입니다. 예를 들어 `104857600`(바이트) 또는 `100mb`입니다. 기본값: 없음

기존 테이블의 경우 SQL 명령 ALTER TABLESET TBL PROPERTIES사용하여 속성을 설정 및 해제할 수 있습니다. Spark 세션 구성을 사용하여 새 테이블을 만들 때 이러한 속성을 자동으로 설정할 수도 있습니다. 자세한 내용은 테이블 속성 참조 를 참조하세요.

워크로드를 기반으로 하는 Autotune 파일 크기

Databricks는 Databricks 런타임, Unity 카탈로그 또는 기타 최적화에 관계없이 여러 tuneFileSizesForRewrites 또는 DML 작업의 대상이 되는 모든 테이블에 대해 테이블 속성을 trueMERGE 설정하는 것이 좋습니다. 테이블 true의 대상 파일 크기가 훨씬 낮은 임계값으로 설정되어 쓰기 집약적 작업을 가속화합니다.

명시적으로 설정하지 않으면 Azure Databricks는 테이블에 대한 마지막 10개 작업 중 9개가 MERGE 작업인지 자동으로 탐지하고, 이 경우 이 테이블 속성을 true로 설정합니다. 이 동작을 방지하려면 이 속성을 false 명시적으로 설정해야 합니다.

재산	Description
`delta.tuneFileSizesForRewrites` (델타) `iceberg.tuneFileSizesForRewrites` (빙산)	형식: `Boolean` 설명: 데이터 레이아웃 최적화를 위해 파일 크기를 조정할지 여부입니다. 기본값: 없음

테이블 크기에 따라 자동 조정 파일 크기

수동 튜닝의 필요성을 최소화하기 위해 Azure Databricks는 테이블 크기에 따라 테이블의 파일 크기를 자동으로 조정합니다. Azure Databricks는 테이블의 파일 수가 너무 커지지 않도록 더 작은 테이블에는 더 작은 파일 크기를 사용하고 더 큰 테이블에는 더 큰 파일 크기를 사용합니다. Azure Databricks는 특정 대상 크기로 튜닝하거나 빈번하게 다시 쓰는 워크로드에 따라 튜닝한 테이블을 자동 튜닝하지 않습니다.

대상 파일 크기는 테이블의 현재 크기를 기반으로 합니다. 2.56TB보다 작은 테이블의 경우 자동 튜닝된 대상 파일 크기는 256MB입니다. 크기가 2.56TB~10TB인 테이블의 경우 대상 크기는 256MB에서 1GB로 선형적으로 증가합니다. 10TB보다 큰 테이블의 경우 대상 파일 크기는 1GB입니다.

참고

테이블의 대상 파일 크기가 커지면 기존 파일이 OPTIMIZE 명령을 통해 더 큰 파일로 다시 최적화되지 않습니다. 따라서 큰 테이블에는 항상 대상 크기보다 작은 일부 파일이 있을 수 있습니다. 이러한 작은 파일을 더 큰 파일로 최적화해야 하는 경우 targetFileSize 테이블 속성을 사용하여 테이블에 대한 고정 대상 파일 크기를 구성할 수 있습니다.

테이블이 증분 방식으로 작성되는 경우 대상 파일 크기와 파일 수는 테이블 크기를 기준으로 다음 숫자에 가깝습니다. 이 표의 파일 수는 예일 뿐이며, 실제 결과는 여러 요인에 따라 달라집니다.

테이블 크기	대상 파일 크기	테이블의 대략적인 파일 수
10GB	256MB	40
1TB	256MB	4096
2.56TB	256MB	10240
3 테라바이트	307MB	12108
5TB	512MB	17339
7TB	716MB	20,784
10TB	1GB	24437
20TB	1GB	34437
50TB	1GB	64437
100TB	1GB	114437

데이터 파일에 기록된 행 제한

경우에 따라 데이터가 좁은 테이블에는 지정된 데이터 파일의 행 수가 Parquet 형식의 지원 제한을 초과하는 오류가 발생할 수 있습니다. 이 오류를 방지하려면 SQL 세션 구성 spark.sql.files.maxRecordsPerFile 을 사용하여 테이블에 대한 단일 파일에 쓸 최대 레코드 수를 지정할 수 있습니다. 값 0 또는 음수 값을 지정하면 제한이 없습니다.

Databricks Runtime 11.3 LTS 이상에서는 DataFrame API를 사용하여 테이블에 쓸 때 DataFrameWriter 옵션을 maxRecordsPerFile 사용할 수도 있습니다. maxRecordsPerFile이 지정된 경우 SQL 세션 구성 spark.sql.files.maxRecordsPerFile의 값은 무시됩니다.

참고

앞서 언급한 오류를 방지할 필요가 없는 경우 Databricks는 이 옵션을 사용하지 않는 것이 좋습니다. 이 설정은 매우 좁은 데이터가 있는 일부 Unity 카탈로그 관리 테이블에 여전히 필요할 수 있습니다.

백그라운드 자동 압축으로 업그레이드

백그라운드 자동 압축은 Databricks Runtime 11.3 LTS 이상의 Unity 카탈로그 관리 테이블에 사용할 수 있습니다. 레거시 워크로드 또는 테이블을 마이그레이션할 때 다음을 수행합니다.

클러스터 또는 Notebook 구성 설정에서 Spark 구성 spark.databricks.delta.autoCompact.enabled (델타) 또는 spark.databricks.iceberg.autoCompact.enabled (Iceberg)을 제거합니다.
각 테이블에 대해 ALTER TABLE <table_name> UNSET TBLPROPERTIES (delta.autoOptimize.autoCompact) (델타) 또는 ALTER TABLE <table_name> UNSET TBLPROPERTIES (iceberg.autoOptimize.autoCompact) (Iceberg)를 실행하여 레거시 자동 압축 설정을 제거합니다.

이러한 레거시 구성을 제거한 후에는 모든 Unity 카탈로그 관리 테이블에 대해 자동으로 트리거되는 백그라운드 자동 압축이 표시됩니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-01-09

다음을 통해 공유

데이터 파일 크기 제어

실행 시기 OPTIMIZE

Azure Databricks에서 자동 최적화란?

자동 압축

최적화된 쓰기

대상 파일 크기 설정

워크로드를 기반으로 하는 Autotune 파일 크기

테이블 크기에 따라 자동 조정 파일 크기

데이터 파일에 기록된 행 제한

백그라운드 자동 압축으로 업그레이드

피드백

추가 리소스

실행 시기 `OPTIMIZE`