组织通常依赖于多个断开连接的服务来引入、存储、转换、分析和可视化数据。 数据碎片化会导致数据孤岛、增加集成开销,并延缓洞察生成时间。 Microsoft Fabric 通过将数据生命周期的每个阶段统一到基于共享基础构建的单一平台来解决这些挑战。
此体系结构的核心是 OneLake,这是一个单一的组织数据湖,以开放的 Delta Parquet 格式存储所有数据。 OneLake 会自动为每个 Fabric 租户预配。 由于每个 Fabric 工作负荷都会从 OneLake 读取和写入数据,因此数据不会在引擎之间移动。 通过数据管道输入的数据集,在笔记本中精化,并在 Power BI 报表中进行可视化处理,整个过程中始终保持在一个地方。
数据生命周期由六个阶段组成,Fabric 为每个阶段提供专用的工具:
获取数据:实时、按计划、通过连续数据库复制或通过引用外部存储,从数百个源将数据引入 OneLake。
存储数据:以针对工作负荷优化的存储格式保存数据,无论是灵活的大数据分析、结构化 SQL 查询、实时事件分析、事务处理还是受治理的业务报告。
准备和转换:使用低代码视觉转换或代码优先笔记本和可重用函数清理、重塑和扩充数据,而无需将数据移出 OneLake。
分析和训练:构建和操作机器学习模型、以编程方式运行高级分析、以编程方式查询数据,并通过自然语言 AI 代理探索见解。
跟踪和可视化:通过交互式报表查看 Surface 见解、在实时仪表板上监视实时数据流,并在满足条件时触发自动操作。
外部集成:安全连接到外部服务,实现自动化、协作、治理、开发人员工具和 CI/CD。
下图显示了这些阶段如何连接,以及每个阶段的 Fabric 项参与方式。 每个阶段都在一篇专用文章中深入介绍。 使用每个部分中的链接浏览该阶段提供的功能和工具。
获取数据
不同类型的数据集来自不同数据方案的各种数据源,包括数据复制、外部存储引用、批处理数据集和实时数据流。 通过 Fabric 的集成工具引入和转换这些数据集。 数据位于 OneLake 中,这是所有 Fabric 的集中式数据存储。 关键引入方法包括:
- 用于实时事件引入和路由的事件流。
- 批处理和计划数据移动的数据管道,支持超过 200 个连接器。
- 镜像技术用于从操作数据库进行连续复制,而无需构建 ETL 管道。
- 从外部存储(例如 Azure Data Lake、Amazon S3 或 Google Cloud Storage)中无复制数据虚拟化的快捷方式。
有关详细信息,请参阅 将数据传入 Microsoft Fabric。
存储数据
引入后,所有数据以开放式 Delta Parquet 格式降落在 OneLake 中。 OneLake 为整个组织提供一个数据湖,无需单独的预配。 Fabric 提供了针对不同工作负荷优化的多个存储项:
- Lakehouse 用于灵活的大数据存储,可将文件和托管的 Delta 表与自动 SQL 终结点相结合。
- 包含完整 T-SQL 支持、存储过程和 ACID 事务的结构化关系分析的仓库。
- Eventhouse 提供使用 Kusto 查询语言(KQL)对流媒体和遥测数据进行实时分析服务。
- 用于事务工作负荷和操作分析的 SQL 数据库。
- 用于支持报表和 AI 的特选业务逻辑、度量值和层次结构的语义模型。
有关详细信息,请参阅 在 Microsoft Fabric 中存储数据。
准备和转换数据
在 OneLake 中后,可以使用代码优先引擎或低代码工具进一步转换数据,所有这些工具都在 Fabric 中,引擎之间没有数据移动:
- 数据流 Gen2 提供低代码 Power Query 接口,用于数据清理、转换和扩充。
- 笔记本 为基于 Python、T-SQL 和 Scala 的数据工程提供了类似于 Jupyter 的环境。
- 用户数据函数 允许嵌入可从管道、笔记本和激活器规则调用的可重用自定义 Python 逻辑。
有关详细信息,请参阅 准备和转换数据。
分析数据和训练模型
使用准备好的数据来训练 ML 模型并执行高级分析。 Fabric 的数据科学工作负载提供了用于生成、训练和操作 ML 模型的环境:
- MLflow 实验通过自动记录超参数、指标和项目来跟踪模型训练运行。
- ML 模型 在 MLflow 支持的注册表中注册,用于版本控制、元数据跟踪和可重现性。
- 数据代理 和 操作代理 允许你使用自然语言与数据交互,并处理找到的条件和模式。
- GraphQL API 为开发人员提供了灵活的数据访问层,用于通过单个终结点查询多个 Fabric 数据源。
- Copilot for Power BI 使用生成式 AI 进行临时分析、DAX 生成和自然语言数据探索。
有关详细信息,请参阅 Microsoft Fabric 中的分析和训练数据。
跟踪和可视化数据
使用已准备和建模的数据创建报表、仪表板和实时警报:
- Power BI 报表 提供基于语义模型构建的交互式数据可视化效果,并在 Microsoft 365 应用(如 Teams、SharePoint、PowerPoint 和 Excel)中进行分发。
- 跨事务任务流 使用户能够通过调用用户数据函数直接从 Power BI 报表执行操作。
- 实时智能仪表板使用 KQL 查询和可视化创作来监视流数据,其延迟为亚秒级。
- 激活器 可检测流数据中的特定条件,并触发自动操作,比如发送 Teams 警报、电子邮件或启动 Power Automate 流。
- Fabric IQ 将企业数据映射到共享业务本体,并使 AI 代理能够通过完整的业务上下文对数据进行推理。
有关详细信息,请参阅 “跟踪和可视化数据”。
外部集成
Fabric 与外部系统集成,用于数据引入和见解传递:
- Power Automate 和 Data Activator 基于数据条件实现实时工作流自动化。
- Microsoft 365 集成在 Teams、SharePoint、PowerPoint 和 Excel 中呈现见解。
- REST API 和 客户端库 提供对 Fabric 资源的编程访问。
- Microsoft Entra ID 处理身份验证、条件访问和服务主体支持。
- 将 Git 与 Azure DevOps 和 GitHub 集成,可以对 Fabric 项目实现版本控制和 CI/CD。
- Microsoft Purview 提供跨 Fabric 数据资产的统一数据治理、编录和合规性。
有关详细信息,请参阅 外部集成和平台连接。
自然语言和 AI 支持
自然语言支持以 Power BI Copilot、数据代理和 Operations Agent 的形式提供,这些代理可以推理 OneLake 中的企业数据,并根据用户可以访问的数据项生成答案。 可以将数据代理集成到 Microsoft 365 Copilot、Microsoft Foundry 和 Copilot Studio 中,以便用户可以在不同的应用程序中从 OneLake 获取其现有工作流中的见解。