将数据引入 Microsoft Fabric 后,通常需要在分析之前清理、调整和扩充数据。 无论你的目标是在 Lakehouse 中准备精心准备的表还是在仓库中准备适合建模的数据,Fabric 都提供低代码和代码优先的转换选项。
本文介绍如何使用数据流 Gen2 进行可视化、低代码数据准备,以及如何将笔记本和用户数据函数用于高级代码驱动的转换。 选择最适合角色、技能集和工作负荷要求的方法。
使用数据流 Gen2 转换数据
对于低代码数据准备,请使用 数据流 Gen2。 数据流 Gen2 使用熟悉的 Power Query 体验,与 Excel 和 Power BI 中使用的技术相同。
使用 Power Query 接口,可以应用筛选器、派生列、聚合数据、合并查询,以及通过视觉对象分步工作流执行其他转换。 在 Fabric 中,数据流 Gen2 可以作为独立的 ETL 进程或 管道中的活动运行。
例如,将原始销售数据引入 Lakehouse 后,可以使用数据流删除重复项、标准化列名称、应用业务规则,并将清理的结果写入 Lakehouse 黄金层或仓库中的特选表。
数据流 Gen2 使用 Fabric 容量在云中运行,使数据流能够扩展到大型数据集和复杂转换,而无需自定义代码。 数据分析师和 BI 开发人员可以独立准备数据,同时仍将输出写入 Lakehouse 或 Warehouse 表作为 Fabric 统一存储基础的一部分。
使用笔记本和用户数据函数进行代码优先准备
对于具有代码的高级转换方案,请使用数据工程体验中的笔记本、Spark 作业和用户数据函数。
Fabric 笔记本在 Fabric 门户中提供类似 Jupyter 环境的样式。 可以使用 Python、 T-SQL 或 Scala 等语言编写代码,以处理 OneLake 中存储的数据。
笔记本非常适合复杂的转换、自定义算法、数据科学工作流以及与外部库的集成。 例如,可以将原始 JSON 或 Parquet 文件从 Lakehouse 加载到 Spark 数据帧,将它们与其他数据集联接,应用窗口聚合,扩充数据,并将结果保存回 OneLake 中的 Delta 表。
笔记本可直接与同一工作区中的数据湖和数据仓库集成。 无需其他凭据配置即可读取和写入数据,因为操作在 Fabric 安全上下文中运行。 还可以通过在数据工厂管道中使用 笔记本活动 来编排和调度笔记本。
使用 Fabric 用户数据函数 可以在 Fabric 中封装可重用的 Python 逻辑。 可以使用它们实现高级业务规则、调用外部服务或构建模块化转换组件。 用户数据函数支持 PyPI 库,可以连接到 Fabric 数据源,并且可以公开 REST 终结点进行外部集成。 这些功能使它们适用于需要可重用、受治理的转换逻辑的企业方案。
可以从 笔记本、管道、激活器规则以及在 Power BI 报表中的 Translytical(跨事务分析)任务流中调用用户数据函数。