Delta Lake에는 선택적 덮어쓰기를 위한 다음과 같은 고유한 옵션이 있습니다.
-
replaceWhere옵션은 지정된 조건자와 일치하는 모든 레코드를 원자성으로 바꿉니다. - 동적 파티션 덮어쓰기를 사용하여 테이블을 분할하는 방법에 따라 데이터 디렉터리를 바꿀 수 있습니다.
대부분의 작업에서 Databricks는 덮어쓸 데이터를 지정하는 데 사용하는 replaceWhere 것이 좋습니다.
Important
데이터가 실수로 덮어쓰여진 경우 복원 을 사용하여 변경 내용을 실행 취소할 수 있습니다.
replaceWhere를 사용하여 임의 선택적 덮어쓰기
임의의 식과 일치하는 데이터만 선택적으로 덮어쓸 수 있습니다.
Note
SQL에는 Databricks Runtime 12.2 LTS 이상이 필요합니다.
예를 들어 1월의 이벤트를 start_date에 의해 분할된 대상 테이블에서 replace_data 데이터로 원자적으로 교체합니다.
Python
(replace_data.write
.mode("overwrite")
.option("replaceWhere", "start_date >= '2017-01-01' AND end_date <= '2017-01-31'")
.saveAsTable("events")
)
Scala
replace_data.write
.mode("overwrite")
.option("replaceWhere", "start_date >= '2017-01-01' AND end_date <= '2017-01-31'")
.saveAsTable("events")
SQL
INSERT INTO TABLE events REPLACE WHERE start_date >= '2017-01-01' AND end_date <= '2017-01-31' SELECT * FROM replace_data
이 샘플 코드는 replace_data데이터를 작성하고, 모든 행이 조건자와 일치하는지 확인하고, 의미 체계를 사용하여 overwrite 원자성 대체를 수행합니다. 작업의 값이 제약 조건을 벗어나면 기본적으로 오류가 발생하여 이 작업이 실패합니다.
이 동작을 overwrite 조건자 범위 내의 값과 insert 지정된 범위를 벗어난 레코드로 변경할 수 있습니다. 이렇게 하려면 다음 설정 중 하나를 사용하여 spark.databricks.delta.replaceWhere.constraintCheck.enabled를 false로 설정하고 제약 조건 검사를 비활성화합니다.
Python
spark.conf.set("spark.databricks.delta.replaceWhere.constraintCheck.enabled", False)
Scala
spark.conf.set("spark.databricks.delta.replaceWhere.constraintCheck.enabled", false)
SQL
SET spark.databricks.delta.replaceWhere.constraintCheck.enabled=false
Note
REPLACE WHERE 는 boolean_expression 몇 가지 제한 사항을 허용합니다. SQL 언어 참조를 참조하세요 INSERT .
레거시 작동 방식
레거시 동작을 replaceWhere사용하는 경우 쿼리는 파티션 열에 대한 조건자와만 일치하고 조건자 범위를 벗어난 모든 데이터를 무시합니다. 다음 명령은 date로 분할된 대상 테이블에서 1월을 원자적으로 df의 데이터로 대체합니다.
Python
(df.write
.mode("overwrite")
.option("replaceWhere", "birthDate >= '2017-01-01' AND birthDate <= '2017-01-31'")
.saveAsTable("people10m")
)
Scala
df.write
.mode("overwrite")
.option("replaceWhere", "birthDate >= '2017-01-01' AND birthDate <= '2017-01-31'")
.saveAsTable("people10m")
레거시 동작을 사용하려면 플래그를 spark.databricks.delta.replaceWhere.dataColumns.enabled 다음으로 false설정합니다.
Python
spark.conf.set("spark.databricks.delta.replaceWhere.dataColumns.enabled", False)
Scala
spark.conf.set("spark.databricks.delta.replaceWhere.dataColumns.enabled", false)
SQL
SET spark.databricks.delta.replaceWhere.dataColumns.enabled=false
동적 파티션 덮어쓰기
동적 파티션 덮어쓰기에서는 쓰기가 새 데이터를 커밋하고 다른 파티션을 변경하지 않은 상태로 두는 파티션만 업데이트합니다.
Azure Databricks 동적 파티션 덮어쓰기를 트리거하려면 REPLACE USING 권장합니다. 이 모드는 Databricks SQL 웨어하우스, 서버리스 컴퓨팅 및 클래식 컴퓨팅을 비롯한 모든 컴퓨팅 유형에서 작동하며 Spark 세션 구성을 설정할 필요가 없습니다.
를 사용하여 동적 파티션 덮어쓰기를 REPLACE USING참조하세요.
partitionOverwriteMode 는 클래식 컴퓨팅을 사용하고 Spark 세션 구성을 설정해야 하는 동적 파티션 덮어쓰기의 레거시 모드입니다. Databricks SQL 또는 서버리스 컴퓨팅에서는 지원되지 않습니다.
(레거시)를 사용한 partitionOverwriteMode 동적 파티션 덮어쓰기를 참조하세요.
아래 섹션에서는 각 모드를 사용하는 방법을 보여 줍니다.
동적 파티션 덮어쓰기 REPLACE USING
Databricks Runtime 16.3 이상에서는 .를 사용하여 REPLACE USING테이블에 대한 동적 파티션 덮어쓰기를 지원합니다. Spark 세션 구성을 설정하지 않고도 모든 컴퓨팅 형식에서 데이터를 선택적으로 덮어쓸 수 있습니다.
REPLACE USING 는 Databricks SQL 웨어하우스, 서버리스 컴퓨팅 및 클래식 컴퓨팅에서 작동하는 컴퓨팅 독립적 원자성 덮어쓰기 동작을 사용하도록 설정합니다.
REPLACE USING 들어오는 데이터가 대상으로 하는 파티션만 덮어씁니다. 다른 모든 파티션은 변경되지 않은 상태로 유지됩니다.
REPLACE USING 는 SQL에서만 지원됩니다. 자세한 내용은 SQL 언어 참조를 참조 INSERT 하세요.
다음 예제에서는 다음을 사용합니다.REPLACE USING
INSERT INTO TABLE events
REPLACE USING (event_id, start_date)
SELECT * FROM source_data
동적 파티션 덮어쓰기를 위해 다음 제약 조건 및 동작을 염두에 두세요.
- Databricks Runtime 17.2 이상에서는 분할된 테이블, 분할되지 않은 테이블 및 액체 클러스터링이 있는 테이블이 지원됩니다.
- Databricks Runtime 16.3~17.1에서는 분할된 테이블만 지원되며 절에서
USING테이블 파티션 열의 전체 집합을 지정해야 합니다. - 기록된 데이터가 예상 파티션에만 영향을 주는지 항상 확인합니다. 잘못된 파티션의 단일 행은 의도치 않게 전체 파티션을 덮어쓸 수 있습니다.
사용자 지정 가능한 일치 논리가 REPLACE USING의 지원을 넘어서 필요한 경우, 예를 들어 NULL 값을 동일하게 처리해야 한다면, 대신 보완적인 REPLACE ON을/를 사용하세요. 자세한 내용은 INSERT를 참조하세요.
동적 파티션 덮어쓰기 partitionOverwriteMode (레거시 시스템)
Important
이 기능은 공개 미리보기 단계에 있습니다.
Databricks Runtime 11.3 LTS 이상에서는 SQL의 INSERT OVERWRITE 또는 DataFrame의 df.write.mode("overwrite")을 사용하여 덮어쓰기 모드로 분할된 테이블에 대한 동적 파티션 덮어쓰기를 지원합니다. 이 유형의 덮어쓰기는 Databricks SQL 웨어하우스 또는 서버리스 컴퓨팅이 아닌 클래식 컴퓨팅에만 사용할 수 있습니다.
경고
가능하면 파티션을 덮어쓰는 대신 INSERT OVERWRITE REPLACE USING를 사용하고 INSERT OVERWRITE PARTITION와 spark.sql.sources.partitionOverwriteMode=dynamic를 사용하십시오. 파티션 구성이 변경될 때 파티션 덮어쓰기가 오래된 데이터를 사용할 수 있습니다.
동적 파티션 덮어쓰기 모드를 사용하려면 Spark 세션 구성 spark.sql.sources.partitionOverwriteMode 을 .로 dynamic설정합니다. 또는 DataFrameWriter 옵션 partitionOverwriteMode을 dynamic로 설정할 수 있습니다. 있는 경우 쿼리별 옵션은 세션 구성에 정의된 모드를 재정의합니다.
spark.sql.sources.partitionOverwriteMode 의 기본값은 static입니다.
다음 예제에서는 partitionOverwriteMode를 사용합니다.
SQL
SET spark.sql.sources.partitionOverwriteMode=dynamic;
INSERT OVERWRITE TABLE default.people10m SELECT * FROM morePeople;
Python
(df.write
.mode("overwrite")
.option("partitionOverwriteMode", "dynamic")
.saveAsTable("default.people10m")
)
Scala
df.write
.mode("overwrite")
.option("partitionOverwriteMode", "dynamic")
.saveAsTable("default.people10m")
다음 제약 조건 및 동작을 partitionOverwriteMode에 유의하세요.
-
overwriteSchema를true로 설정할 수 없습니다. - 동일한
partitionOverwriteMode작업에서replaceWhere와DataFrameWriter를 둘 다 지정할 수 없습니다. - 옵션을 사용하여
replaceWhere조건을 지정DataFrameWriter하는 경우 Delta Lake는 해당 조건을 적용하여 덮어쓸 데이터를 제어합니다. 이 옵션은 세션 수준 구성보다partitionOverwriteMode우선합니다. - 기록된 데이터가 예상 파티션에만 영향을 주는지 항상 확인합니다. 잘못된 파티션의 단일 행은 의도치 않게 전체 파티션을 덮어쓸 수 있습니다.