使用 Delta Lake 选择性地覆盖数据

2024-07-26

Azure Databricks 利用 Delta Lake 功能支持两种不同的选择性覆盖选项：

replaceWhere 选项以原子方式替换与给定谓词匹配的所有记录。
可以根据表的分区方式使用动态分区覆盖来替换数据目录。

对于大多数操作，Databricks 建议使用 replaceWhere 来指定要覆盖的数据。

重要

如果意外覆盖数据，可以使用还原来撤消更改。

使用 `replaceWhere` 进行的任意选择性覆盖

可以有选择性地只覆盖与任意表达式匹配的数据。

注意

SQL 需要 Databricks Runtime 12.2 LTS 或更高版本。

以下命令以原子方式替换目标表中一月的事件，该表按照 start_date 分区，数据位于 replace_data 中：

Python

(replace_data.write
  .mode("overwrite")
  .option("replaceWhere", "start_date >= '2017-01-01' AND end_date <= '2017-01-31'")
  .table("events")
)

Scala

replace_data.write
  .mode("overwrite")
  .option("replaceWhere", "start_date >= '2017-01-01' AND end_date <= '2017-01-31'")
  .table("events")

SQL

INSERT INTO TABLE events REPLACE WHERE start_date >= '2017-01-01' AND end_date <= '2017-01-31' SELECT * FROM replace_data

此示例代码在 replace_data中写出数据，验证所有行是否与谓词匹配，并使用 overwrite 语义执行原子替换。如果操作中的任何值都超出约束范围，则此操作默认失败，并显示错误。

可以将此行为更改为谓词范围内的 overwrite 值和指定范围外的 insert 记录。为此，请使用以下设置之一将 spark.databricks.delta.replaceWhere.constraintCheck.enabled 设置为 false 来禁用约束检查：

Python

spark.conf.set("spark.databricks.delta.replaceWhere.constraintCheck.enabled", False)

Scala

spark.conf.set("spark.databricks.delta.replaceWhere.constraintCheck.enabled", false)

SQL

SET spark.databricks.delta.replaceWhere.constraintCheck.enabled=false

旧行为

在旧的默认行为中，replaceWhere 仅覆盖与分区列上的谓词匹配的数据。在此旧模型中，以下命令以原子方式替换目标表中的一月，该表按照 date 分区，数据位于 df 中：

Python

(df.write
  .mode("overwrite")
  .option("replaceWhere", "birthDate >= '2017-01-01' AND birthDate <= '2017-01-31'")
  .table("people10m")
)

Scala

df.write
  .mode("overwrite")
  .option("replaceWhere", "birthDate >= '2017-01-01' AND birthDate <= '2017-01-31'")
  .table("people10m")

如果要回退到旧行为，可以禁用 spark.databricks.delta.replaceWhere.dataColumns.enabled 标志：

Python

spark.conf.set("spark.databricks.delta.replaceWhere.dataColumns.enabled", False)

Scala

spark.conf.set("spark.databricks.delta.replaceWhere.dataColumns.enabled", false)

SQL

SET spark.databricks.delta.replaceWhere.dataColumns.enabled=false

动态分区覆盖

重要

此功能目前以公共预览版提供。

Databricks Runtime 11.3 LTS 及更高版本支持分区表的“动态”分区覆盖模式。对于具有多个分区的表，Databricks Runtime 11.3 LTS 及更低版本仅在所有分区列的数据类型相同时才支持动态分区覆盖。

在动态分区覆盖模式下，操作会覆盖每个逻辑分区中的所有现有数据，写入操作会为这些分区提交新数据。写入不包含数据的任何现有逻辑分区都保持不变。仅当以覆盖模式写入数据时，此模式才适用：在 SQL 中为 INSERT OVERWRITE，或者 DataFrame 使用 df.write.mode("overwrite") 写入。

通过将 Spark 会话配置 spark.sql.sources.partitionOverwriteMode 设置为 dynamic 来配置动态分区覆盖模式。也可通过将 DataFrameWriter 选项 partitionOverwriteMode 设置为 dynamic 来启用此模式。如果存在，查询特定选项将覆盖会话配置中定义的模式。 partitionOverwriteMode 的默认值是 static。

重要

验证使用动态分区覆盖写入的数据是否仅触及预期分区。错误分区中的单个行可能会导致意外覆盖整个分区。

以下示例演示如何使用动态分区覆盖：

SQL

SET spark.sql.sources.partitionOverwriteMode=dynamic;
INSERT OVERWRITE TABLE default.people10m SELECT * FROM morePeople;

Python

(df.write
  .mode("overwrite")
  .option("partitionOverwriteMode", "dynamic")
  .saveAsTable("default.people10m")
)

Scala

df.write
  .mode("overwrite")
  .option("partitionOverwriteMode", "dynamic")
  .saveAsTable("default.people10m")

注意

动态分区覆盖与分区表的选项 replaceWhere 冲突。
- 如果 Spark 会话配置中启用了动态分区覆盖，并且 replaceWhere 作为 DataFrameWriter 选项提供，则 Delta Lake 会根据 replaceWhere 表达式覆盖数据（查询特定选项覆盖会话配置）。
- 如果 DataFrameWriter 选项同时启用动态分区覆盖和 replaceWhere，则会收到错误。
使用动态分区覆盖时，不能将 overwriteSchema 指定为 true。

通过

使用 Delta Lake 选择性地覆盖数据

使用 replaceWhere 进行的任意选择性覆盖

Python

Scala

SQL

Python

Scala

SQL

旧行为

Python

Scala

Python

Scala

SQL

动态分区覆盖

SQL

Python

Scala

反馈

其他资源

使用 `replaceWhere` 进行的任意选择性覆盖