将数据从 Delta Live Tables 管道发布到 Hive 元存储

通过将数据集发布到 Hive 元存储,可以使管道的输出数据可被发现并可供查询。 若要将数据集发布到元存储,请在创建管道时在“目标”字段中输入架构名称。 还可以将目标数据库添加到现有管道。

默认情况下,在 Delta Live Tables 中创建的所有表和视图对于管道来说都是本地的。 必须将表发布到目标架构,才能在声明表时所在的管道之外查询或使用 Delta Live Tables 数据集。

若要将表从管道发布到 Unity Catalog,请参阅将 Unity Catalog 与 Delta Live Tables 管道配合使用

如何将 Delta Live Tables 数据集发布到架构

可以使用“管道设置”和“创建管道”UI 中的“目标架构”字段为 Delta Live Tables 管道中的所有表声明目标架构。

还可以通过设置 target 值在 JSON 配置中指定架构。

必须运行管道更新才能将结果发布到目标架构。

你可以将此功能与多个环境配置结合使用,以根据环境将结果发布到不同的架构。 例如,你可以发布到用于开发的 dev 架构和用于生产数据的 prod 架构。

如何在 Delta Live Tables 中查询数据集

更新完成后,可以查看架构和表、查询数据或使用下游应用程序中的数据。

发布后,可以从有权访问目标架构的任何环境查询 Delta Live Tables 表。 这包括 Databricks SQL、笔记本和其他 Delta Live Tables 管道。

重要

创建 target 配置时,只会发布表和关联的元数据。 视图不会发布到元存储。

从目标架构中排除表

如果需要计算不供外部使用的中间表,可以使用 TEMPORARY 关键字阻止将其发布到架构。 临时表仍然根据 Delta Live Tables 语义存储和处理数据,但你不应在当前管道之外访问临时表。 临时表在创建它的管道的生存期内保持不变。 使用以下语法声明临时表:

SQL

CREATE TEMPORARY LIVE TABLE temp_table
AS SELECT ... ;

Python

@dlt.table(
  temporary=True)
def temp_table():
  return ("...")