本文介绍如何在 Microsoft Fabric 中使用 Real-Time Intelligence 实现奖牌体系结构。 奖牌体系结构确保了数据在各个阶段流动时具备原子性、一致性、隔离性和持久性 (ACID) 属性。 从原始数据开始,它将经历一系列验证和转换,以针对高效分析进行优化。 该体系结构由三个阶段组成:青铜层(原始数据)、白银层(已验证的数据)和黄金层(已扩充的数据)。
有关详细信息,请参阅什么是奖牌体系结构?
工作原理
Real-Time Intelligence 具有有助于在不需要额外基础结构的 KQL 数据库中创建奖牌体系结构的功能。 这些功能包括:
更新策略
当数据进入青铜层时,你可以使用更新策略来转换和扩充数据,从而添加业务价值,例如改进的数据质量、一致性和下游分析的相关性。 通过简化增量处理、检查点和水印等流处理概念,更新策略有助于处理连续数据流。 借助这种抽象,无需额外工具即可生成流式处理应用程序和管道。 Real-Time Intelligence 引入和转换实时流式数据的能力使数据工程师和数据科学家能够处理来自各种源的实时数据。
有关详细信息,请参阅更新策略。
具体化视图
物化视图在数据到达时删除重复值,使去重后的记录立即可用于查询。 它们实时计算聚合视图,确保性能增强、数据新鲜度和成本降低。 这消除了通过额外的工具来执行数据聚合的需求。 通过在源表或其他具体化视图上公开聚合查询,它们始终提供最新的结果。 查询物化视图比直接在源表上执行聚合更高效,从而提高性能。 此外,具体化视图消耗的资源更少,这可以节省成本。
有关详细信息,请参阅具体化视图。
实现奖牌体系结构
Real-Time Intelligence 允许你通过处理到达的数据来构建奖牌体系结构。 这使你能够构建青铜层、白银层和黄金层,同时维护数据的实时性。
青铜层
铜层是所有传入原始数据的初始着陆区。 在 Real-Time Intelligence 中,铜层可以通过使用 Eventstream 或 Eventhouse 中的表来引入数据,从而为银层和金层后续的扩充和分析提供基础。
提示
可能需要保留此数据,以用于变更捕获目的和实现数据重播。 如果铜牌服务层使用 Eventstream,可以在事件处理执行任何转换或增强之前将数据输出到 OneLake。 如果青铜层使用表,则可以将数据镜像到 OneLake。
白银层
银牌服务层包含经过转换和增强的数据,以增加业务价值,包括对记录的重复数据删除。 此层使用事件处理和更新策略等方法处理青铜层中的数据,如下所示:
黄金层
黄金层包含针对可视化需求进行优化的数据,同时维护数据的实时性。 此层使用具体化视图来聚合和计算到达的数据,从而可以基于你的数据集快速访问最新接收的值。 金牌服务层确保数据已准备好用于高级分析和可视化工具,为决策提供最新的高质量见解。
此层使用聚合和最新值具体化视图针对可视化进行优化。 在大多数情况下,这些下采样的数据会保留一段时间供查询,且时间比银牌服务层更长。 通过使用用于确定数据保留时间的保留策略以及基于你的查询模式的缓存策略,此过程是本机处理的。
可视化和操作
借助 Real-Time Intelligence 的性能功能,可以使用 Power BI、实时仪表板或 KQL 查询集等组件来可视化数据。 可以从黄金层提取聚合视图数据,并从银层提取数据以解锁高粒度分析。 此外,可以使用 Activator(它可解锁对 Eventstream 中到达的数据、白银层中的高粒度数据以及黄金层中的聚合数据进行操作的能力)在任何层级上对数据进行操作。
主要优势
Real-Time Intelligence 中的奖牌体系结构提供了多项优势,包括:
专为实时数据处理而构建
Microsoft Fabric 中的 Real-Time Intelligence 旨在处理持续流动的数据以及高粒度数据。 从青铜层到黄金层的整个流都内置在产品中。 无需调度,它就能够在数据到达时立即处理数据,并且处理范围包括铜牌、银牌和金牌服务层。 这是通过以下方式实现的:
灵活性
在典型的勋章架构中,数据仅被提取自‘黄金层’,从而丢失了单个记录,并阻止进行高粒度分析。 借助 Eventhouse,您可以使用来自黄金层和白银层的数据,从而实现细粒度分析。 Eventhouse 旨在在几秒钟内处理数十亿条记录的查询。
内置数据管理
每层的数据对于保留和查询都有不同的要求。 此过程可通过内置功能轻松实现。
本机可视化层
通过单一操作,你可以将金牌服务层或银牌服务层中的任何查询固定到新的或现有的 Power BI 报表或实时仪表板中。
OneLake 可用性
从白银层获取数据,并通过 OneLake 可用性将其公开为 OneLake 中的 Delta Parquet。 组织中的不同利益干系人使用不同的工具,例如数据科学家使用历史数据进行机器学习模型训练。 通过在 OneLake 中提供数据,每个利益干系人都可以轻松地与数据进行交互,而无需额外的存储成本。
相关内容
- Microsoft Fabric 决策指南:选择数据存储
- 有疑问? 尝试询问 Fabric 社区。
- 有建议? 提供改进 Fabric 的想法。