你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

面向受管控行业的云规模分析简介

云规模分析建立在 Azure 登陆区域基础之上,可便于部署和治理。 Azure 登陆区域的主要用途是确保当应用程序或工作负荷登陆到 Azure 时,所需的基础结构已就位。 在部署云规模分析登陆区域之前,必须已经通过云采用框架来部署带有平台登陆区域的 Azure 登陆区域体系结构

对于主权工作负荷,Microsoft 提供了主权登陆区域 (SLZ),它是企业级 Azure 登陆区域的一种变体,适用于需要高级主权控制的组织。 云规模分析可通过 Azure 登陆区域的这一变体来进行部署。

云规模分析涉及部署到应用程序登陆区域。 这些区域通常位于登陆区域管理组下,其策略向下筛选到 Microsoft 提供的示例模板。

Microsoft 提供了示例模板来帮助你入门,可将其用于数据湖屋和数据网格部署。

云规模分析评估

通常,企业在开始为特定用例、项目或端到端云规模分析制定技术细节之前,会寻求明确的规定或规范性指导。 当企业制定总体数据策略时,确保考虑当前使用范围内的所有战略和必需原则可能具有挑战性。

为了加快这一端到端见解旅程的交付,同时牢记这些挑战,Microsoft 开发了一个用于云规模分析的规范性方案。 该方案与制定云规模分析的计划中所述的关键主题相符。

云规模分析在 Microsoft 云采用框架的基础上构建,同时应用 Microsoft Azure 架构良好的框架可重用功能区。 Microsoft 云采用框架提供有关云操作模型、参考体系结构和平台模板的规范性指导和最佳做法。 它基于我们从一些最具挑战性、最精细和最复杂的环境中获得的实际经验。

云规模分析有助于客户生成和操作登陆区域以托管和运行分析工作负荷。 在安全性、治理和合规性基础上构建登陆区域。 它们可缩放,模块化,同时支持自治和创新。

数据体系结构的历史

1980 年代后期推出了第一代数据仓库,它结合了整个企业的不同数据源。 2000 年代后期又诞生了 Gen2,引入了 Hadoop 和数据湖等大数据生态系统。 2010 年代中期推出了云数据平台。 它与前几代类似,但引入了流数据,如 kappa 或 lambda 体系结构。 2020 年代初我们引入了数据湖库、数据网格、数据结构和以数据为中心的运营模式的概念。

尽管取得了这些进步,但许多组织仍在使用第一代集中式单体平台。 此系统在一定程度上运作良好。 但是,由于相互依赖的流程、紧密耦合的组件和超专业化的团队,可能会出现瓶颈。 提取、转换和加载 (ETL) 作业可能变得突出并减慢交付时间。

数据仓库和数据湖仍然很有价值,并将在整个体系结构中发挥重要作用。 在随后的文档中,我们强调了使用这些传统做法进行缩放时可能出现的一些挑战。 在数据源、需求、团队和输出不断变化的复杂组织中,这些挑战尤其会带来影响。

转向云规模分析

当前的分析数据架构和运营模式可以包括数据仓库、数据湖和数据湖屋结构、数据结构或数据网格。

每个数据模型都有自己的优点和挑战。 云规模分析可帮助你从当前设置转变为数据管理方法,使其能够与基础结构一起发展。

可以支持任何数据平台和方案来创建充当基础并允许缩放的端到端云规模分析框架。

新式数据平台和预期成果

首要关注领域之一是通过以迭代方式构建可缩放且敏捷的新式数据平台来激活数据策略以应对挑战。

新式数据平台不会被服务票证所淹没并试图满足竞争业务需求,而是让你能够腾出时间专注于更有价值的工作,从而发挥更偏向于顾问的作用。 为业务线提供平台和系统,以满足自助式数据和分析需求。

最初关注的建议领域是:

  • 提高数据质量、促进信任并获取见解以制定数据驱动的业务决策。

  • 在组织中大规模无缝实现整体数据、管理和分析。

  • 建立可靠的数据治理,为业务线提供自助服务和灵活性。

  • 在完全集成的环境中保持安全性和法律合规性。

  • 借助架构良好的可重复模块化模式的现成解决方案,快速为高级分析功能奠定基础。

治理分析资产

第二个考虑因素是确定组织如何实现数据治理。

数据治理可确保业务操作、报表和分析中所用的数据是可发现的、准确的、受信任的,以及可受保护的。

许多公司的期望是数据和 AI 增大竞争优势。 因此,高管们渴望支持 AI 计划,决心转向数据驱动型。 但是,为确保有效,AI 所用的数据必须是可信的。 否则,决策准确性可能会受到影响,决策可能会延迟,也就是可能会错失行动时机,影响盈亏。 公司不希望自己的数据质量是“无用输入输出”级别。了解数字化转型对数据的影响之前,一开始你可能会认为修复数据质量很简单。

由于数据分布在混合多云和分布式数据环境中,组织难以查找其数据所在位置并对其进行治理。 未治理的数据可能会对业务产生巨大影响。 糟糕的数据质量会影响业务操作,因为数据错误会导致流程错误和延迟。 糟糕的数据质量也会影响业务决策和保持合规的能力。 从源头确保数据质量通常是首选做法,因为在分析系统中解决质量问题可能比在早期引入阶段应用数据质量规则更加复杂和代价高昂。 为帮助跟踪和治理数据活动,数据治理必须包括以下内容:

  • 数据发现
  • 数据质量
  • 策略创建
  • 数据共享
  • 元数据

保护分析资产

数据治理的另一个主要驱动力是数据保护。 数据保护可帮助你遵守监管法规,并可以防止数据泄露。 数据隐私以及越来越多的数据泄露事件使数据保护成为了董事会的重中之重。 这些数据泄露事件使敏感数据(例如个人可识别客户数据)所面临的风险显得尤为突出。 违反数据隐私或数据安全缺失的后果很多,可能包括以下内容:

  • 品牌形象丢失或严重受损
  • 丢失客户信心和市场份额
  • 股价下跌,影响利益干系人的投资回报率和高管薪酬
  • 因审计或合规失败而遭受重大经济处罚
  • 法律诉讼
  • 数据安全缺失的多米诺骨牌效应,例如,客户可能会遭受身份盗用

大多数情况下,上市公司必须对这些数据安全缺失进行声明。 如果发生数据安全缺失,客户更有可能先责怪公司,而不是黑客。 客户可能会在几个月内拒绝与公司合作,甚至可能永不合作。

不遵守与数据隐私相关的监管法规可能会遭受重大经济处罚。 治理数据有助于避免此类风险。

操作模型和优势

采用新式数据策略平台不仅会改变组织使用的技术,还会改变其运营方式。

云规模分析提供规范性指导,帮助你考虑如何组织和培养人员与团队,包括:

  • 角色、职能和职责定义
  • 敏捷、垂直、跨领域团队的建议结构
  • 技能资源,包括 Azure 数据和通过 Microsoft Learn 的 AI 认证

在整个现代化过程中让最终用户参与进来,同时持续发展平台并加入新用例也非常重要。

体系结构

Azure 登陆区域代表了你的环境的战略设计路径和目标技术状态。 使用登陆区域可以方便进行部署和治理,以提供更高的敏捷性和合规性。 Azure 登陆区域还确保当新的应用程序或工作负荷进入环境时,适当的基础结构已经到位。 与 Microsoft 软件即服务治理和分析解决方案集成的 Azure 数据管理和数据登陆区域在设计时也考虑到了这些基本原则,当与云规模分析的其他要素相结合时,将有助于实现:

  • 自助服务
  • 可伸缩性
  • 快速开始
  • 安全性
  • 隐私
  • 优化操作

数据管理登陆区域

数据管理登陆区域为平台在整个组织中的集中式数据治理和管理提供了基础。 它还促进了通信,以从整个数字资产(包括多云和混合基础结构)中引入数据。

数据管理登陆区域支持其他许多数据管理和治理功能,例如:

  • 数据目录
  • 数据质量管理
  • 数据分类
  • 数据世系
  • 数据建模存储库
  • API 目录
  • 数据共享和协定

提示

如果正在使用合作伙伴的解决方案来实现数据目录、数据质量管理或数据世系功能,那么这些解决方案应位于数据管理登陆区域。 另外,Microsoft Purview 可以作为软件即服务解决方案进行部署,同时连接到数据管理登陆区域和数据登陆区域。

数据登陆区域

数据登陆区域使数据更接近用户并支持自助服务,同时通过连接到数据管理登陆区域来维持共同管理和治理。

它们托管网络、监视、数据引入和处理等标准服务,以及数据产品和可视化效果等自定义服务。

数据登陆区域是实现平台可伸缩性的关键。 根据组织的大小和需求,可以从一个或多个登陆区域开始。

在决定是使用一个还是多个登陆区域时,请考虑区域依赖关系和数据驻留要求。 例如,是否有当地法律或法规要求数据保留在特定的位置?

无论初始决策如何,都可以根据需要添加或删除数据登陆区域。 如果你要从单个登陆区域开始,我们建议你计划扩展到多个登陆区域以避免将来需要迁移。

注意

在已部署 Microsoft Fabric 的地方,数据登陆区域托管着非软件即服务解决方案,如数据湖和其他 Azure 数据服务。

有关登陆区域的详细信息,请参阅云规模分析的 Azure 登陆区域

结束语

在阅读完本文档集(尤其是治理、安全、运营和最佳做法部分)后,我们建议使用部署模板来设置概念证明环境。 这些模板以及体系结构指导可让你亲身体验一些 Azure 和 Microsoft 软件即服务技术。 有关详细信息,请参阅入门清单

后续步骤