小窍门
Power BI 数据流 Gen1 现在处于旧状态,不会收到新功能投资。 对于具有 Fabric 访问权限的高级客户, Dataflow Gen2 是推荐的路径,提供性能、缩放、可靠性、功能和内置 AI 方面的改进。 Pro/PPU 客户可以继续使用 Gen1,因为针对这些场景的 Gen2 指导方案正在不断完善。 有关升级指南,请参阅 从 Dataflow Gen1 升级到 Dataflow Gen2 。
数据流实现的最佳做法之一是将数据流的责任分为两个层:数据引入和数据转换。 处理一个数据流中数据源较慢的多个查询或查询同一数据源的多个数据流时,此模式特别有用。 而不是每次查询都从缓慢的数据源获取数据,数据引入过程可以一次性完成,然后在此基础上进行转换。 本文介绍该过程。
本地数据源
在许多情况下,本地数据源是一个缓慢的数据源。 特别是考虑到网关作为数据流和数据源之间的中间层存在。
使用分析数据流进行数据引入可最大程度地减少从源获取数据的过程,并重点介绍如何将数据加载到 Azure Data Lake Storage。 进入存储后,可以创建其他数据流,以利用引入数据流的输出。 数据流引擎可以直接从 Data Lake 读取数据并执行转换,而无需联系原始数据源或网关。
数据源缓慢
当数据源速度缓慢时,相同的过程有效。 由于 API 调用的限制,某些软件即服务(SaaS)数据源的执行速度缓慢。
数据引入和数据转换数据流的分离
两个层(数据引入和转换)的分离在数据源速度缓慢的情况下非常有用。 这有助于最大程度地减少与数据源的交互。
由于性能改进,这种分离不仅有用,还有助于将旧旧数据源系统迁移到新系统的情况。 在这些情况下,只需更改数据引入数据流。 对于此类更改,数据转换数据流保持不变。
在其他工具和服务中重复使用
在许多方案中,将数据引入数据流与数据转换数据流分离非常有用。 此模式的另一个用例场景是想要在其他工具和服务中使用此数据。 为此,最好使用分析数据流并使用自己的 Data Lake Storage 作为存储引擎。 详细信息: 分析数据流
优化数据引入数据流
请考虑尽可能优化数据引入数据流。 例如,如果不需要来自源的所有数据,并且数据源支持查询折叠,则筛选数据并仅获取所需的子集是一个很好的方法。 若要了解有关查询折叠的详细信息,请转到 Power Query 中的查询评估和查询折叠概述。
将数据摄取数据流创建为分析型数据流
请考虑将您的数据摄取数据流创建为分析数据流。 这特别有助于其他服务和应用程序使用此数据。 这也使数据转换数据流更容易从分析引入数据流中获取数据。 若要了解详细信息,请转到 分析数据流。