重要
Google Analytics 原始数据连接器处于公共预览阶段。
本页介绍用于维护 Google Analytics 数据导入管道的持续操作。
常规管道维护
本部分中的管道维护任务适用于 Lakeflow Connect 中的所有托管连接器。
完全刷新目标数据表
完全刷新数据引入管道会清除表中的数据和状态信息,然后重新处理来自数据源的所有记录。
若要完全刷新所选表,请:
a。 在 Azure Databricks 工作区的边栏中,单击 “管道”。 a。 选择管道。 a。 在管道详细信息页上,单击 选择用于刷新引入管道的表。 a。 选择所需的表,然后单击完全刷新选择。
- 若要改为完全刷新引入管道中的所有表,请单击 “开始 ”按钮旁边的下拉菜单,然后单击“ 全部完全刷新”。
重要
引入管道更新可能会在 Initializing
或 Resetting tables
阶段失败。 Lakeflow Connect 将自动重试管道几次。 如果自动重试手动中断或最终失败,请从前面手动启动新的管道更新,并从前面选择表刷新。 未能执行此操作可能会导致目标表处于与部分数据不一致的状态。 如果手动重试也失败,请创建支持票证。
更改引入管道计划
- 在 Azure Databricks 工作区的边栏中,单击 “管道”。
- 选择管道,然后单击“ 计划”。
自定义警报和通知
Lakeflow Connect 会自动为所有引入管道和计划作业设置通知。 可以在 UI 中或使用管道 API 自定义通知。
UI
- 在左侧面板中,单击“ 管道”。
- 选择管道。
- 单击“日程”。
- 如果你已经有了想要接收通知的计划:a. 识别列表中的日程。 a。 单击烤肉串菜单,然后单击“ 编辑”。 a。 单击 “更多”选项,然后添加通知。
- 如果你需要新的计划:a。 单击“添加计划”。 a。 设置您的日程。 a。 单击 “更多”选项,然后添加通知。
API
请参阅 PUT /api/2.0/pipelines/{pipeline_id} 文档中的通知。
指定要引入的表
Pipelines API 提供了两种方法,用于指定在 objects
的 ingestion_definition:
字段中要引入的表。
- 表规范:将单个表从指定的源目录和架构引入到指定的目标目录和架构。
- 架构规范:将指定源目录和架构中的所有表引入到指定的目录和架构中。
如果你选择引入整个架构,则应查看连接器每个管道的表数限制。
CLI 命令
若要编辑管道,请运行以下命令:
databricks pipelines update --json "<<pipeline_definition OR json file path>"
若要获取管道定义,请运行以下命令:
databricks pipelines get "<your_pipeline_id>"
若要删除管道,请运行以下命令:
databricks pipelines delete "<your_pipeline_id>"
获取更多信息,您可以随时运行以下命令:
databricks pipelines --help
databricks pipelines <create|update|get|delete|...> --help