重要
MICROSOFT SQL Server 连接器为 公共预览版。
本文概述了使用 Lakeflow Connect 从 SQL Server 引入 Azure Databricks 所需的源设置。
更改跟踪与变更数据捕获
更改跟踪和更改数据捕获(CDC)使 Databricks 能够跟踪源表中的更改。 Databricks 建议对具有主键的任何表使用更改跟踪,以最大程度地减少源数据库上的负载。 如果同时启用了更改跟踪和 CDC,SQL Server 连接器将使用更改跟踪。
更改跟踪:捕获表中行已更改的事实,但未捕获实际的操作。 更改跟踪确实要求表具有主键,但它是一个轻量级进程,对源数据库没有太大影响。
CDC: 捕获对表的每个操作,并保存一段时间内修改的历史视图。 CDC 不需要表具有主键,但它可能会对源数据库的性能产生更大的影响。
有关这些选项的详细信息,请参阅 SQL Server 文档中的跟踪数据更改 (SQL Server)。
源设置任务概述
在将数据引入 Azure Databricks 之前,必须在 SQL Server 中完成以下任务:
验证是否满足 SQL Server 版本要求:
- 若要使用更改跟踪,必须安装 SQL Server 2012 或更高版本。
- 若要使用 CDC,必须具有 SQL Server 2012 Service Pack 1 (SP1) 累积更新包 3 (CU3) 或更高版本。 对于低于 SQL Server 2016 的版本,还需要 Enterprise Edition。
根据需要配置防火墙设置。
在 SQL Server 中创建一个专用于 Databricks 引入的、满足权限要求的数据库用户。
启用更改跟踪或 CDC: