配置无服务器增量实时表管道
本文介绍无服务器增量实时表管道的配置。
Databricks 建议使用无服务器开发新管道。 某些工作负荷可能需要配置经典计算或使用旧版 Hive 元存储。 请参阅 配置增量实时表管道 的计算,以及 将增量实时表管道与旧版 Hive 元存储配合使用。
注意
无服务器管道始终使用 Unity 目录。 Delta 实时表的 Unity 目录以公共预览版提供,但存在一些限制。 请参阅将 Unity Catalog 与 Delta Live Tables 管道配合使用。
不能在无服务器管道的 JSON 配置中的对象中
clusters
手动添加计算设置。 如果尝试这样做,将会导致错误。有关无服务器 DLT 管道的资格和启用的信息,请参阅启用无服务器计算。
如果你需要为无服务器 DLT 管道使用 Azure 专用链接连接,请联系你的 Databricks 代表。
要求
工作区必须启用 Unity 目录才能使用无服务器管道。
工作区必须位于启用了无服务器的区域。
针对无服务器管道的建议配置
重要
配置无服务器管道不需要群集创建权限。 默认情况下,所有工作区用户都可以使用无服务器管道。
无服务器管道会删除大多数配置选项,因为 Azure Databricks 管理所有基础结构。 若要配置无服务器管道,请执行以下操作:
- 单击 边栏中的增量实时表 。
- 单击“ 创建管道”。
- 提供唯 一的管道名称。
- 选中无服务器旁边的框。
- 使用 文件选取器将笔记本和工作区文件配置为 源代码。
- 必须至少添加一个源代码资产。
- 使用“ 添加源代码 ”按钮添加其他源代码资产。
- 选择要发布数据的目录。
- 在目录中选择架构。 在此架构中创建管道中定义的所有流式处理表和具体化视图。
- 单击 “创建” 。
这些建议的配置创建配置为在触发模式和当前通道中运行的新管道。 对于许多用例(包括开发和测试)建议使用此配置,并且非常适合按计划运行的生产工作负荷。 有关计划管道的详细信息,请参阅 作业的增量实时表管道任务。
还可以将配置有 Unity 目录的现有管道转换为使用无服务器管道。 请参阅 “转换现有管道以使用无服务器”。
其他配置注意事项
以下配置选项也可用于无服务器管道:
- 在生产环境中运行管道时,可以选择使用 连续 管道模式。 请参阅 “已触发”和“连续管道”模式。
- 根据成功或失败条件为电子邮件更新添加 通知 。 请参阅为管道事件添加电子邮件通知。
- 使用“配置”字段为管道设置键值对。 这些配置有两个用途:
- 设置可在源代码中引用的任意参数。 请参阅 将参数与增量实时表管道配合使用。
- 配置管道设置和 Spark 配置。 请参阅 Delta Live Tables 属性参考。
- 使用预览频道测试管道,以针对挂起的 Delta Live Tables 运行时更改和试用新功能。
预算策略
重要
此功能目前以公共预览版提供。
预算策略允许组织对无服务器使用情况应用自定义标记,以实现精细计费归因。 选中“无服务器”复选框后,将显示“预算”策略设置,可在其中选择要应用于管道的策略。 标记继承自预算策略,只能由工作区管理员编辑。
注意
分配预算策略后,现有管道不会自动使用策略进行标记。 如果要将策略附加到现有管道,则必须手动更新这些管道。
有关预算策略的详细信息,请参阅 具有预算策略的属性无服务器使用情况。
无服务器管道功能
除了简化配置外,无服务器管道还具有以下功能:
- 具体化视图的增量刷新:尽可能以增量方式刷新具体化视图的更新。 增量刷新的结果与完全重新计算的结果相同。 如果无法以增量方式计算结果,更新将使用完全刷新。 请参阅 具体化视图的增量刷新。
- 流管道化:为了提高流数据工作负载(例如数据引入)的利用率、吞吐量和改善延迟,将对微批进行管道化。 换句话说,无服务器 DLT 管道无需按顺序运行 microbatche,而是像标准 Spark 结构化流式处理一样,同时运行 microbatche,从而提高计算资源利用率。 无服务器 DLT 管道中默认已启用流管道化。
- 垂直自动缩放:无服务器 DLT 管道通过将 Databricks 增强的自动缩放提供的水平自动缩放添加到自动缩放,方法是自动分配最经济高效的实例类型,这些实例类型可以运行 Delta Live Tables 管道,而不会因为内存不足错误而失败。 请参阅什么是垂直自动缩放?
什么是垂直自动缩放?
无服务器 DLT 管道垂直自动缩放会自动分配最经济高效的可用实例类型来运行增量实时表管道更新,而不会因内存不足错误而失败。 当需要较大的实例类型来运行管道更新时,垂直自动缩放会纵向扩展;当确定可以使用较小的实例类型来运行更新时,垂直自动缩放还会纵向缩减。 垂直自动缩放确定是否应纵向扩展或缩减驱动程序节点、工作器节点或者这两种节点。
垂直自动缩放用于所有无服务器 DLT 管道,包括 Databricks SQL 具体化视图和流式处理表使用的管道。
垂直自动缩放的工作方式是检测因内存不足错误而失败的管道更新。 根据从失败的更新收集的内存不足数据检测到这些故障时,垂直自动缩放会分配更大的实例类型。 在生产模式下,使用新计算资源的新更新会自动启动。 在开发模式下,当你手动启动新的更新时,将使用新的计算资源。
如果垂直自动缩放检测到分配的实例的内存始终未得到充分利用,在下一次管道更新时,它将纵向缩减所要使用的实例类型。
将现有管道转换为使用无服务器
可以将配置有 Unity 目录的现有管道转换为无服务器管道。 请完成下列步骤:
- 单击 边栏中的增量实时表 。
- 单击列表中的所需管道的名称。
- 单击“设置”。
- 选中无服务器旁边的框。
- 单击“ 保存”并启动。
重要
启用无服务器时,为管道配置的任何计算设置都将被删除。 如果将管道切换回非无服务器更新,则必须将所需的计算设置重新配置为管道配置。
如何查找无服务器管道的 DBU 使用情况?
可通过查询计费使用情况表(Azure Databricks 系统表的一部分)来查找无服务器 DLT 管道的 DBU 使用情况。 请参阅无服务器 DLT 管道的 DBU 消耗量是多少?。