Microsoft Fabric 提供了多种将数据引入 Fabric 的方法,具体取决于所需内容。 现在,可以在管道中使用 镜像、 复制活动或 复制作业。 每个选项提供不同的控制和复杂性级别,因此你可以选择最适合你的方案的内容。
镜像设计为一种简单且免费的解决方案,用于将数据库镜像到 Fabric,但它不会涵盖每个复杂场景。 管道中的复制活动赋予您完全可自定义的数据摄取功能,但需要您自行构建和管理管道。 复制作业填补了这两种选项间的差距。 它提供比镜像更多的灵活性和控制,以及对批处理和增量复制的本机支持,而无需生成管道的复杂性。
对于实时流式引入和事件驱动方案,请尝试 Fabric Eventstreams。 它们提供低延迟的数据移动,使你能够转换没有代码或 SQL 转换的数据,并支持基于内容的路由到多个目标。
重要概念
镜像 提供了一种 简单且免费的 方式来将运营数据镜像到 Fabric 进行分析。 它经过优化,便于使用,只需设置最少,即可写入 OneLake 中的单个只读目标。
管道中的复制活动 是为需要 协调的基于管道的数据引入工作流的用户构建的。 可以广泛自定义它并添加转换逻辑,但需要自行定义和管理管道组件,包括跟踪上次运行增量复制的状态。
Copy Job 通过本机支持多种传递方式(包括大容量复制、增量复制和更改数据捕获(CDC)复制),使数据引入更轻松,你无需生成管道,并且仍可以访问许多高级选项。 它支持许多源和目标,并且当您需要比镜像更多的控制但比使用复制活动管理管道简单时,它效果良好。
事件流:专为实时引入、转换和处理流数据而设计。 支持低延迟管道、模式管理,并通过路由将数据传输至目标,如 Eventhouse、Lakehouse、Activator 和自定义终结点(AMQP、Kafka 和 HTTP 终结点)。
数据移动决策指南
| 镜像 | 复制作业 | 复制活动(管道) | Eventstreams | |
|---|---|---|---|---|
| 来源 | 数据库 + 第三方集成到 Open Mirroring | 所有支持的数据源和格式 | 所有支持的数据源和格式 | 25 个以上的源和所有格式 |
| 目的地 | Fabric OneLake 中的表格格式(只读) | 所有受支持的目标和格式 | 所有受支持的目标和格式 | 超过四个目的地 |
| 灵活性 | 具有固定行为的简单设置 | 易于使用 + 高级选项 | 高级和完全可自定义的选项 | 简单且可自定义的选项 |
| 能力 | 镜像 | 复制作业 | 复制活动(管道) | Eventstreams |
|---|---|---|---|---|
| 自定义计划 | 是的 | 是的 | 连续 | |
| 表和列管理 | 是的 | 是的 | 是(架构、事件及字段管理) | |
| 复制行为:Append、Upsert、Override | 是的 | 是的 | Append | |
| 高级可观测性 + 审核 | 是的 | 是的 | ||
| 复制模式 | ||||
| 基于 CDC 的连续复制 | 是的 | 是的 | 是的 | |
| 批处理或大容量复制 | 是的 | 是的 | 是(CDC 初始快照复制) | |
| 对增量复制的本机支持(基于水印) | 是的 | |||
| 使用用户定义的查询进行复制 | 是的 | 是的 | ||
| 用例 | ||||
| 用于分析和报告的连续复制 | 是的 | 是的 | 是的 | |
| 数据仓库的元数据驱动 ELT/ETL | 是的 | 是的 | ||
| 数据合并 | 是的 | 是的 | 是的 | |
| 数据迁移/数据备份/数据共享 | 是的 | 是的 | 是的 | |
| 免费 | 是的 | |||
| 可预测的性能 | 是的 | 是的 | 是的 |
Scenarios
查看这些方案,帮助你选择哪种数据移动策略最适合你的需求。
场景 1
詹姆斯是一家保险公司的财务经理。 他的团队使用 Azure SQL 数据库跨多个业务部门跟踪策略数据、声明和客户信息。 执行团队希望为业务性能监视创建实时仪表板,但 James 不允许分析查询减慢处理数千个日常事务的作系统。
James 需要连续数据复制,而无需任何设置复杂性或持续维护。 他不想管理计划、配置增量负载或担心表选择 - 他需要自动镜像的所有内容。 由于这是仅用于执行报告,因此在 OneLake 中以只读格式提供数据完全有效。 解决方案还需要经济高效,因为它即将从部门预算中拿出来。
詹姆斯查看选项并选择 “镜像”。 镜像提供所需的基于 CDC 的连续复制,无需任何配置即可自动处理所有表。 简单的设置意味着他不需要技术专业知识,免费成本符合他的预算。 OneLake 中的只读表格格式为团队提供实时分析访问权限,而不会影响运营性能。
场景 2
丽莎是一家物流公司的商业分析师。 她需要将多个 Snowflake 数据库的发货数据复制到 Fabric Lakehouse 表中,以便进行供应链分析。 这些数据包括初始负载的历史记录以及全天到达的新货物的历史记录。 Lisa 希望按照自定义计划运行此过程 - 在工作时间每 4 小时运行一次。
Lisa 需要从每个 Snowflake 实例中选择特定的表,将列映射到标准化名称,并使用更新插入行为来处理对现有发货记录的更新。 她需要表和列管理功能才能跨区域处理不同的架构,并且她希望高级监视来跟踪数据质量和处理性能。
Lisa 查看选项并选择 “复制作业”。 复制作业提供其工作时间要求所需的自定义计划,支持包括 Snowflake 在内的所有数据源,并为她的多区域设置提供表和列管理功能。 通过具有高级配置选项的易于使用的接口,她可以使用基于水印的检测和更新插入行为来处理增量复制,而无需生成管道。
方案 3
David 是一家电信公司的高级数据工程师。 他正在构建复杂的数据引入工作流,该工作流需要使用自定义 SQL 查询从 Oracle 提取客户使用情况数据,应用业务转换,并将其加载到多个目标,包括 Fabric Warehouse 和外部系统。 工作流还需要与其他管道活动(如数据验证和通知步骤)协调。
David 需要完全控制复制过程,包括能够使用用户定义的查询来联接表和筛选源中的数据。 他需要高级且完全自定义的配置选项、大量数据的可预测性能,以及将复制过程集成到更广泛的管道业务流程工作流以及依赖项和错误处理的能力。
David 查看可用的选项,并选择 管道中的复制活动。 此方法为他提供了他所需的高级且完全可自定义的配置,支持用户定义查询来提取复杂的数据,并提供工作流所需的基于管道的业务流程。 高级监视和审核功能可帮助他跟踪复杂的过程,而管道框架使他能够与其他数据处理步骤协调复制活动。
方案 4
Ash 是一家电信公司的产品经理。 她的团队需要实时监视客户支持指标,例如呼叫量、等待时间和代理性能,以确保 SLA 合规性并提高客户满意度。 数据来自多个作系统,包括 CRM 平台、呼叫中心日志和代理分配数据库,并全天以高频率到达。
Ash 使用 Fabric 事件流 引入和转换此数据。 她将流式处理连接器配置为从各种源拉取数据,通过无需编程的方式应用转换,然后将处理后的事件路由到 Eventhouse 进行实时分析。 她集成了 数据激活器 ,以便在 SLA 阈值被违反时触发警报和自动化工作流,以便她可以向主管发送通知或动态调整人员配备级别。
结果是一个实时仪表板,可在几秒钟内更新,使 Ash 的团队能够了解实时性能指标并实现快速的数据驱动决策。 此流式处理体系结构消除了批处理管道的延迟,使企业能够立即响应客户需求。
开始
现在,你已了解要使用的数据移动策略,接下来可以开始使用以下资源: