Delta Lake에 대한 데이터 정렬 지원

델타 테이블의 문자열 필드에 데이터 정렬을 지정하여 대/소문자를 구분하지 않는 일치 또는 로캘 인식 순서 지정과 같은 문자열 비교 및 정렬 동작 방식을 제어할 수 있습니다. 이를 위해서는 Databricks Runtime 16.4 LTS 이상이 필요합니다.

데이터 정렬 형식, 명명 규칙 및 우선 순위 규칙에 대한 전체 설명은 데이터 정렬을 참조하세요.

기본적으로 Delta Lake는 문자열 필드에 대한 정렬 규칙을 UTF8_BINARY으로 설정합니다.

중요합니다

데이터 정렬을 사용하도록 설정하면 델타 테이블에 기록자 테이블 기능collations이 추가되어 외부 리더기 및 기타 플랫폼 기능과의 호환성에 영향을 미칩니다. 프로덕션 테이블에서 데이터 정렬을 사용하도록 설정하기 전에 제한 사항 섹션을 검토합니다.

데이터 정렬을 사용하여 테이블 만들기

새 테이블을 만들 때 열 수준에서 데이터 정렬을 지정할 수 있습니다. 데이터 정렬은 중첩 형식 내의 최상위 문자열 열 및 문자열 필드에 적용할 수 있습니다.

CREATE TABLE catalog.schema.my_table (
  id BIGINT,
  name STRING COLLATE UTF8_LCASE,
  metadata STRUCT<label: STRING COLLATE UNICODE>,
  tags ARRAY<STRING COLLATE UTF8_LCASE>,
  properties MAP<STRING, STRING COLLATE UTF8_LCASE>
) USING delta

메모

MAP 키는 데이터 정렬을 사용할 수 없습니다. MAP 값만 데이터 정렬된 문자열을 지원합니다.

기존 열의 데이터 정렬 변경

다음을 사용하여 ALTER TABLE기존 열의 데이터 정렬을 변경할 수 있습니다.

-- Set a column to case-insensitive collation
ALTER TABLE my_table ALTER COLUMN name TYPE STRING COLLATE UTF8_LCASE

-- Revert a column to the default binary collation
ALTER TABLE my_table ALTER COLUMN name TYPE STRING COLLATE UTF8_BINARY

데이터 정렬을 변경한 후 통계 및 데이터 레이아웃 업데이트

열의 데이터 정렬을 변경해도 기존 데이터를 다시 작성하거나 통계를 업데이트하지 않습니다. 쿼리는 새 데이터 정렬에서 즉시 올바른 결과를 반환하지만, 다음 단계를 수행할 때까지 파일 건너뛰기 및 클러스터링의 효율성이 저하될 수 있습니다.

열의 파일 건너뛰기 통계를 업데이트합니다.

   ANALYZE TABLE my_table COMPUTE DELTA STATISTICS

테이블에서 액체 클러스터링을 사용하는 경우 클러스터링 레이아웃을 다시 작성합니다.

   OPTIMIZE FULL my_table

테이블에서 ZORDER를 사용하는 경우 증분 최적화를 사용하지 않도록 설정하고 모든 파일을 다시 작성합니다.

   SET spark.databricks.optimize.incremental = false;
   OPTIMIZE my_table ZORDER BY zorder_column;

이러한 단계를 건너뛰면 잘못된 결과가 발생하지 않지만 다음 전체 다시 작성될 때까지 기록 데이터에 대한 쿼리 성능이 저하될 수 있습니다.

쿼리 결과에서 데이터 정렬은 항상 Azure Databricks에 의해 준수됩니다.

테이블에 대한 데이터 정렬 사용 안 함

데이터 정렬 테이블 기능을 제거하려면 먼저 정렬된 모든 열을 UTF8_BINARY로 원래대로 설정합니다.

-- Repeat for each collated column
ALTER TABLE my_table ALTER COLUMN name TYPE STRING COLLATE UTF8_BINARY

그런 다음 테이블 기능을 삭제합니다.

ALTER TABLE my_table DROP FEATURE collations

자세한 내용은 Delta Lake 테이블 기능 삭제 및 테이블 프로토콜 다운그레이드 를 참조하세요.

스키마 진화 및 데이터 정렬

스키마 진화가 데이터 정렬이 지정된 열을 추가하거나 병합하는 경우 다음 규칙이 적용됩니다.

원본 열이 대상 테이블에 이미 있는 경우 해당 열에 대한 대상 테이블의 데이터 정렬이 유지됩니다. 원본 열의 데이터 정렬은 무시됩니다.
원본 열이 새 열이고 데이터 정렬이 지정된 경우 대상 테이블은 새 열에 대한 데이터 정렬을 채택합니다.
대상 테이블에 아직 collations 테이블 기능이 사용되지 않은 경우, 정렬된 열을 추가하면 자동으로 이 기능이 활성화됩니다.

제한

데이터 정렬을 사용하도록 설정된 델타 테이블에는 다음과 같은 제한 사항이 적용됩니다.

호환성 및 상호 운용성:

collations 테이블 기능을 인식하지 못하는 외부 판독기가 기본적으로 UTF8_BINARY를 사용하게 되어, 잘못된 정렬 순서 또는 비교 결과를 초래할 수 있습니다.
델타 공유는 기본이 아닌 데이터 정렬 열에서 개별 파티션 공유를 지원하지 않습니다. 대신 테이블을 공유합니다.
데이터 정렬이 있는 테이블에는 UniForm이 지원되지 않습니다.
Databricks 런타임에서 인식할 수 없는 데이터 정렬을 사용하여 외부에서 만든 델타 테이블은 쿼리할 때 예외를 throw합니다.
Scala 또는 Python OSS Delta Lake API는 데이터 정렬을 지원하지 않습니다. Spark SQL 또는 DataFrame API를 사용합니다.

쿼리 및 기능 제한 사항:

제약 조건에서는 정렬된 CHECK 열을 사용할 수 없습니다.
정렬된 열은 생성된 열 표현식에서 참조할 수 없습니다.
데이터 정렬된 열은 블룸 필터 인덱스와 함께 사용할 수 없습니다(사용되지 않음).
구조적 스트리밍 상태 저장 쿼리(집계, 조인, 중복 제거)에서 정렬되고 모아진 열을 참조할 수 없습니다.
MAP 키는 정렬된 문자열이 될 수 없습니다. MAP 값만 데이터 정렬을 지원합니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-04-03