本文概述了 Azure Databricks 中的表、视图、流式处理表和具体化视图。
表
表是存储在特定位置的结构化数据集。 在 Azure Databricks 中创建的默认表类型是 Unity 目录托管表。 可以使用 SQL 命令或 DataFrame API 查询和操作表,支持的操作包括INSERT、UPDATE、DELETE和MERGE INTO。 请参阅 Azure Databricks 表
查看
视图是由查询定义的虚拟表,该查询不存储数据,并且可以以特定格式或抽象形式呈现来自一个或多个表的数据。 视图可用于简化复杂的查询、封装业务逻辑,以及为底层数据提供一致的接口,而无需复制存储。 请参阅 什么是视图?
具体化视图
与视图类似,具体化视图由查询定义。 但是,与视图不同,具体化视图预计算并存储查询的结果。 查询在物化视图上运行的速度往往比在普通视图上更快,但会占用额外的存储空间。 可以使用 Databricks SQL 创建和刷新独立的具体化视图,或使用 Lakeflow Spark 声明性管道来创建和刷新一个或多个具体化视图、流式处理表和视图。 请参阅 在Databricks SQL中使用具体化视图 和 具体化视图。
流式处理表
流式处理表是 Unity 目录托管表的类型,它包括使用 流 来定义它的处理逻辑。 可以使用 Databricks SQL 创建和刷新独立的流式处理表,或使用 Lakeflow Spark 声明性管道来创建和刷新一个或多个流式处理表、具体化视图和视图。 请参阅 在 Databricks SQL 中使用流式处理表 和 流式处理表。
具体化视图与流表
具体化视图和流式处理表是用于数据工程的两个常见数据对象。 物化视图使用批处理语义,流式表使用流式语义。 有关批处理和流式处理之间的比较,以及为数据工程工作负荷选择它们的注意事项,请参阅 Azure Databricks 中的 Batch 与流式处理。