Microsoft Fabric 是一个 AI 支持的 SaaS 平台,用于端到端企业分析。 它有效地支持整个组织的各种数据角色。 为了优化数据一致性和可访问性,Microsoft使用 Fabric 在快速 AI 改进过程中增强其内部分析基础结构。 Microsoft建立 IDEAS(Insights、Data、Engineering、Analytics、Systems)组织,以构建和维护全面的数据分析平台。 IDEAS 旨在统一数据源,消除孤岛,并创建单一事实来源,提高Microsoft的生产力和 AI 采用。 IDEAS 最初支持 Office 产品,现在支持跨 Microsoft 365、安全性以及 600 多个内部团队的数据驱动见解,从而推动 AI 采用和工作效率。 本文详细介绍了 IDEAS 采用 Fabric 的过程。
IDEAS 的关键功能是充当体验和设备(E+D)和安全部门的核心数据和增长引擎。 IDEAS 还充当所有 Copilot 体验的中心数据平面,通过聚合关键见解、实现研究和支持跨Microsoft的 AI 体验来推动 Copilot 的成功。 它管理着来自 2700 个来源的 420 PiB(pebibyte)数据,个性化定制体验覆盖超过 350 个产品界面,每年处理数十亿次客户互动。
由于其规模和作用为科皮洛特等关键Microsoft举措提供支持,IDEAS 是新兴数据技术的实际测试场。 IDEAS 是 Microsoft Fabric 的试点用户和战略性“零号客户”。 它提供有价值的反馈,并验证 Fabric 在不同级别的功能。 IDEAS 提供了塑造 Fabric 开发的关键见解,而 Fabric 使 IDEAS 能够实现其 AI 驱动数据平台未来的愿景。 具体而言,Fabric 在以下四个关键领域提供关键优势:
激活 AI 创新数据: Fabric 与 Office 和 Azure AI 等Microsoft工具无缝集成可加速创建自定义 AI 模型和解决方案。
使用统一的工具链简化分析: 通过为所有数据角色提供统一的工具链,Fabric 使 IDEAS 中的每个人都能够增强协作、简化工作流并最大化数据价值。
提高协作和灵活性: Fabric 支持使用相同数据集和工具跨不同数据角色进行协作。 这种灵活性简化了使用各种数据格式、位置、优化工程流程,并使团队能够更有效地工作。
降低成本和风险: Fabric 的统一 Data Lake 可最大程度地减少数据移动,从而通过允许多个计算引擎在同一数据副本上运行,从而降低工程成本和合规性风险。 通过维护单个数据副本,团队可以有效地将其用于多个目的,从而支持有效的数据治理和合规性。
此伙伴关系旨在通过创建一个现代数据平台来满足当今的技术需求,实现巨大的业务和生产力价值。 本文介绍 IDEAS 采用 Fabric 的过程。
使用 OneLake 和 Delta Lake 构建可缩放的数据基础
强大的可缩放基础是任何新式数据平台的关键。 Microsoft Fabric 的核心是 Delta Lake,这是一个开源存储层,可确保数据湖的可靠性、性能和数据管理。 它与数据分析工具的广泛兼容性支持统一的数据生态系统。
Delta Lake 是 OneLake 的基础,Fabric 的统一逻辑数据湖。 OneLake 通过消除重复并确保单个事实来源来优化数据值。 所有 Fabric 体验都使用 Delta Lake 格式在 OneLake 中自动存储或镜像数据。 OneLake 与现有 ADLS Gen2 存储无缝集成,为现有数据集实现平稳过渡。 ADLS Gen2 的快捷方式可避免大规模数据迁移,并通过集中式访问和管理增强可管理性。 它还支持各种分析工具,包括 Spark、SQL 和 Power BI。
Power BI 的 Direct Lake 模式通过直接从 OneLake 快速查询和可视化数据,消除了数据移动和传统数据市场的需求,从而增强了这种统一体验。 对 Delta Lake 的直接访问简化了分析工作流。 Fabric 还在所有界面上与 Copilot 和 AI 完全集成。 这些功能通过 AI 辅助编码和数据分析来提高工作效率,支持数据驱动的决策。
若要在 IDEAS 中应用这些功能,第一步是确保数据集成管道可以无缝生成 Delta Lake 表。 IDEAS 使用以下两个 ISO 认证的数据工程系统:
法罗斯: 用于数据准备和暂存的低代码平台。 它通过专注于具有一致元数据的明确定义的数据形状,以及用于输出生成的声明性定义,来简化数据转换。
Nitro Hubs: 用于管道创作和管理的综合数据工程系统,具有强大的数据隐私和合规性控制。
IDEAS 增强了这些服务,以使用 Fabric Spark 引擎生成优化的 Delta Lake 输出,并采用 v 顺序、分区和适当的行组大小等技术。 存储数据时,IDEAS 侧重于组织数据以快速高效检索,因为工作负荷是读取密集型的。 将此功能与管理数千个管道的核心服务集成,可快速将数千个数据资产写入 ADLS Gen2 存储。
IDEAS 分析需要 13 个月的历史数据,但由于个人标识符,我们必须遵守一般数据保护条例(GDPR)。 为了符合要求,我们扩展了 Nitro Hubs GDPR 处理功能,以处理 Delta Lake 表中的删除请求,并在 Fabric Spark 笔记本中使用合并命令。 我们还为日期分区的 Delta 表实现生存时间 (TTL) 过期机制,确保在 GDPR 规定时限内删除个人数据。 相比之下,我们的黄金层数据(使用 奖牌体系结构)是聚合的,没有个人标识符。 我们目前在 IDEAS OneLake 中存储了超过 4 PiB 的数据。
使用 Fabric 为 Microsoft 365 Copilot 分析提供支持
IDEAS 在Microsoft内管理 600 多个团队的 420 PiB 数据。 数据平台完全构建在 Azure 上,以便为 600 多人的团队使用可伸缩性。 通过扩展 Azure 的功能,IDEAS 开发了一个可靠且适应性强的系统。 若要详细了解推动数据生命周期的核心系统,请参阅 数据工作效率
高效数据访问对于 IDEAS 至关重要,Microsoft Fabric 已成为策略的关键启用者。 我们希望缩短交互式查询的反馈循环,并更快地创建报表和仪表板。 我们的基础是 统一数据模型(UDM),这是一组持久且可扩展的数据资产,专为公司范围的重用而设计。 这种可重用性是保持一致性和效率的关键。
IDEAS 采用 奖牌体系结构 跨三个层组织数据:铜牌(原始数据)、银牌(清理和扩充数据进行分析),以及黄金(使用 Power BI 和 Excel 等工具进行商业智能和报告的特选聚合数据)。
我们通过 Delta Lake 将金牌层和银牌层作为 UDM 资产在 Fabric 中提供,增强了 Microsoft 365 Copilot 的分析平面。 我们以 Delta Lake 表形式在 OneLake 中提供预处理后的银层 Microsoft 365 Copilot 数据,可供直接访问。 它通过消除重复转换极大地提高了查询性能和仪表板呈现。
此外,将我们黄金层的 Microsoft 365 Copilot 指标作为 Delta Lake 表公开,简化了数据发现和可用性。 它支持创建丰富的仪表板,通过 Copilot 的采用、性能和增长来支持业务领导者和产品团队。 此方法减少了数据移动,简化了数据图,并降低了基础结构成本。 因此,现由 Fabric 提供支持的 Microsoft 365 Copilot 分析在几个 Microsoft 项目中发挥着重要作用。
在 Fabric 中扩展治理和自动化
我们的下一个优先事项是组织工作区、优化 Lakehouse 结构,以及在 Fabric 中管理的数千个资产上实现自动化操作。 在我们的规模下,治理要求严格遵守这些策略,而这些策略仅在合法的数据使用场景下授予访问权限,使手动操作变得不可行。 为了解决此问题,我们与 Fabric SDK/API 团队密切合作,以确保 API 的可用性,使我们可以以编程方式创建 Fabric 项目并将精细权限应用于相应的标识。 这种完全自动化的方法提供一致性和可伸缩性。
我们已将工作区组织到生产、开发和探索环境中。 生产数据可通过生产工作区中的快捷方式进行访问。 只有专用工作区标识具有创建和修改它们的特权访问权限,而所有其他用户都具有只读访问权限。 湖屋驻留在具有广泛读取访问权限的生产工作区中,并由探索工作区内部的内部快捷方式引用。 此方法可有效地隔离生产数据,同时允许用户在非生产设置中与其交互。
后续部分将深入探讨专用于托管语义模型和报表的语义工作区。 语义模型背后的湖屋位于生产工作区中,用于版本控制和变更管理。 随着 Fabric 的统一安全功能的发展,我们将继续优化 Lakehouse 访问配置,以进一步简化访问治理流程。 这种自动化的 API 驱动的方法对于大规模数据管理和一致的安全访问至关重要。
使用 Direct Lake 简化报告
IDEAS 早期采用 Fabric 的主要驱动因素之一是 Direct Lake 语义模型。 此功能支持统一报告,无需管理单独的 SQL 和 SSAS 基础结构,并允许用户在集成的 Fabric 界面中工作。
IDEAS 将语义模型用于各种用例,其中包括:
- 单表报表
- Azure Analysis Services 多维数据集
- 导入具有多个维度的模式星型架构
- Microsoft 365 Copilot 分析平面的队列分析
我们对 Direct Lake 方法的验证涉及将现有报表和模型迁移到 Fabric,从而生成多个关键发现,其中包括:
有效数据建模的重要性。 对于包含数十亿行的模型,具有数值键的可靠星型架构对于实现最佳查询性能至关重要。
在使用 Fabric Spark 创建数据时应用 V-Order 对其进行优化,对于最大化 Direct Lake 的性能至关重要。
适当的 Delta 表分区和行组大小调整对于优化冷缓存和暖缓存查询性能至关重要。
这一努力导致2024年12月将Microsoft 365 Copilot 分析飞机全面迁移到 Fabric。 此平面现在为全 Microsoft 范围的 Microsoft 365 Copilot 提供关键业务见解。
管理 Fabric 开发生命周期,实现合规性和可靠性
IDEAS 通过严格的变更管理、生产隔离和验证来确保合规性和可靠性。 为了在 Fabric 中满足这些要求,我们使用 Git 集成和定义完善的工作区组织实现了可靠的开发生命周期。 此方法可确保在到达生产环境之前对更改进行彻底测试和验证,尽量减少中断并保留数据完整性。
我们为语义模型和报告项目创建了专用的“语义工作区”,确保明确分离关注点。 如前所述,湖屋工件驻留在安全的只读生产工作区中,而语义工作区会引用这些集中式数据资产。 此体系结构支持合规性和性能。
语义模型生命周期涉及个人在专用于此类别开发的工作区中进行更改。 验证后,Fabric 的 Git 集成将这些更改提交到相应的预生产分支。 通过 Azure DevOps(ADO)发布管道,这些更改随后会提升到生产 Git 分支,后来同步到生产语义工作区。这可确保生产语义工作区(面向最终用户的模型和报表所在的位置)始终反映经过验证和批准的更改。 这样,它就有助于服务的稳定性和可靠性。
为了进一步提高 Fabric 部署的可靠性,我们使用工作区遥测开发了用户体验和性能仪表板。 Fabric 工作区分析日志在语义模型和 Power BI 报表中提供有关查询执行时间和错误的数据。 我们的仪表板基于 Fabric 事件屋构建,跟踪关键查询性能指标,并监视每个查询的错误类别和速率。
除了识别和解决潜在问题外,我们还监视问题的影响以及受影响的用户数。 这种双重方法使我们能够在问题传播之前主动解决问题,并通过用户反馈了解和趋势报告和语义模型的可靠性。 通过监视用户报告问题的频率和广度,我们可以直接将可靠性目标与实际使用情况相关联,并随着时间的推移减少用户的影响。
随着 Fabric 产品组改进遥测和日志数据,我们将更丰富的 KPI 和指标合并到仪表板中。 这些增强功能提高了主动检测问题的能力,确保最佳性能和可靠性。 在下一阶段,我们计划将此监控过程扩展到包括 Lakehouse SQL 接口和 Spark 笔记本在内的其他 Fabric 元素。
使用 Fabric 实现交互式分析
数据用户通常从 Power BI 报表开始,但需要更深入地探索报表层之外。 Fabric 提供了两个功能强大的交互式分析选项:Fabric Spark 和 SQL 分析终结点,使用户能够浏览统一数据模型(UDM)的银层和黄金层中的数据。 OneLake Data Hub、Lakehouse Explorer 和世系视图提供对数据依赖项和上游源的快速访问。 然而,随着数据复杂性和规模从金级到铜级的增加,查询变得更加具有挑战性。
为了构建可缩放的数据平台并防止碎片化,IDEAS 为关键的 UDM 银层资产实施了联合策略,充当权威事实来源。 这允许合作伙伴团队使用特定于域的属性扩展这些资产。 一个可靠的治理过程,包括评审、扩展设计优化、数据接口定义和公开控制,可确保数据完整性和合规性。
虽然扩展功能解决了数据瓶颈,并将核心数据与外部属性分开,但它们为交互式查询带来了性能挑战,而交互式查询通常需要低于60秒的响应时间。 对基础数据和扩展之间的重复联接的依赖造成了瓶颈。 为了克服这一挑战,我们增强了数据工程系统以将视图具体化,通过扩展预先联接基础数据,以最大程度地减少查询时联接操作。 Delta Lake 的合并和锁定功能使每个实体能够高效更新和合并扩展数据。 现在,这些预计算的 Delta 表会在湖屋中公开为快捷方式,可供 Fabric SQL 和 Spark 访问。 我们还与 Fabric 产品组协作,探讨此功能的潜在原生集成。 此外,我们开发了具有多参数输入的 Python 模块,以优化行筛选和列选择,从而快速访问笔记本环境中的列说明和数据新鲜度。
对这些具体化资产使用 Fabric Spark 查询进行初始测试,性能明显提升超过 30 倍。
保护 Fabric 环境:数据治理的整体方法
在过去的一年里,我们从探索构造工作区发展到管理多个 F2048 生产工作区,其中 4 PiB 以上的数据采用 Delta Lake 格式。 但是,数据发现和合规性仍然是复杂的挑战,特别是随着隐私法规的发展。 随着 IDEAS 在 Fabric 中提供更多数据,我们的合规性义务不仅限于 GDPR,还包括 Microsoft 对于在欧盟数据边界内保障数据驻留的承诺,确保商业个人数据仅在欧洲存储和处理。
Microsoft敏感数据的全球规模和处理都推动了 IDEAS 对数据隐私和治理的坚定承诺。 这超出了基线要求,符合各种国际和行业特定的标准。 它转换为用于管理数据访问的可靠控件和流程。
在 IDEAS 中,我们强烈建议遵循最低特权和基于方案的数据使用原则,以确保安全性和合规性。 此原则意味着仅向经过合法批准的用户或标识授予对特定用例的数据访问权限。 为了防止未经授权的数据传输,IDEAS 会主动监视 Fabric 工作区中的数据外泄。 虽然 Fabric 提供租户级监视,但Microsoft需要在工作区级别进行更精细的控制。
为了解决此问题,IDEAS 开发了数据外泄监视(DEM),这是一项自定义功能,可将 Fabric 遥测数据收集到集中式元数据存储中,并应用规则来检测冲突。 检测到冲突时,DEM 会触发纠正措施,例如通知用户、撤销访问权限或阻止将来的访问。 这样,IDEAS 就可以在 Fabric 中提供敏感数据,同时保持严格的合规性。 结合我们在自动化工作区预配方面的投资,我们可以跨扩展数据边界管理合规的工作区。 数据外泄保护是 Fabric 产品组的重点领域,我们期待着在此空间中进一步增强功能。
归根结底,我们认为,数据隐私和治理不仅仅是合规性负担,而且是构建信任的基本组成部分,也是当今数据驱动型世界中具有重大竞争优势的基本组成部分。 Microsoft优先信任,强调数据隐私、用户控制和所有服务和产品的负责任的数据处理。 IDEAS 完全订阅了这一精神,认识到可靠的数据治理对于数据平台的成功和可持续性至关重要。
结论
将 Microsoft Fabric 集成到 IDEAS 数据平台增强了数据访问,提高了数据科学家和工程师的工作效率。 通过与 OneLake 和 Delta Lake 建立统一的基础,实现交互式分析并建立强大的治理,Fabric 提供了可靠的数据分析环境。 随着我们继续探索和实施 Fabric 的功能,特别是在实时分析和高级 AI 集成等领域,我们相信,我们正在构建一个统一的创新平台,以推动Microsoft的更深入的见解和影响。