什么是 Microsoft Fabric 中的数据工厂?
数据工厂使你能够使用新式数据集成体验从一组丰富的数据源(例如数据库、数据仓库、Lakehouse、实时数据等)中引入、准备和转换数据。 无论你是普通用户还是专业开发人员,都可以通过智能转换来转换数据,并利用一组丰富的活动。 我们可以创建管道来执行一个或多个活动、通过链接服务访问数据源或服务。此外我们还可以在创建管道后添加触发器,以便在特定时间或响应不断变化的场景自动运行进程。 借助 Microsoft Fabric 中的数据工厂,我们将快速复制(数据移动)功能引入数据流和数据管道。 使用快速复制,可以在喜欢的数据存储之间快速移动数据。 最重要的是,快速复制使你能够将数据引入 Microsoft Fabric 中的湖屋和数据仓库进行分析。
数据工厂实现有两个主要高级功能:数据流和管道。
- 数据流使你能够利用数据流设计器中的 300 多个转换,让你能够比任何其他工具(包括基于 AI 的智能数据转换)更轻松、更灵活地转换数据。
- 数据管道使你能够利用现成的丰富数据业务流程功能来组合满足企业需求的灵活数据工作流。
数据流
数据流提供了一个低代码接口,用于从数百个数据源引入数据,使用 300 多个数据转换来转换数据。 然后,可以将生成的数据加载到多个目标,例如 Azure SQL 数据库等。 数据流可以使用手动或计划的刷新重复运行,也可以作为数据管道业务流程的一部分运行。
数据流是使用熟悉的 Power Query 体验构建的,该体验目前可用于多个 Microsoft 产品和服务,例如 Excel、Power BI、Power Platform、Dynamics 365 Insights 应用程序等。 Power Query 使所有用户(从普通用户到专业数据集成用户)能够跨其数据资产执行数据引入和数据转换。 通过易于使用、高度可视化、低代码的 UI 执行联接、聚合、数据清理、自定义转换等。
数据管道
数据管道在云规模上实现强大的工作流功能。 借助数据管道,可以生成复杂的工作流,这些工作流可以刷新数据流、移动 PB 大小的数据以及定义复杂的控制流管道。
使用数据管道生成复杂的 ETL 和数据工厂工作流,这些工作流可以大规模执行许多不同的任务。 控制流功能内置于数据管道中,可用于生成提供循环和条件的工作流逻辑。
将配置驱动的复制活动与低代码数据流刷新一起添加到端到端 ETL 数据管道的单个管道中。 甚至可以为 Spark Notebook、SQL 脚本、存储的 procs 等添加代码优先活动。
相关内容
若要开始使用 Microsoft Fabric,请转到快速入门:创建第一个 Dataflow Gen2 以获取和转换数据。