你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

云规模分析

随着云采用形式变得更大、更复杂,云之旅也变得更加复杂。 Azure 云规模分析是一个可缩放、可重复的框架,可满足组织构建新式数据平台的独特需求。

云规模分析涵盖云中分析和治理的技术和非技术注意事项。 本指南内容尽可能不特定于云环境,以便同样支持混合和多云采用环境,但其中包含的技术实现示例侧重于 Azure 产品。

云规模分析具有以下目标:

  • 将数据作为产品而不是副产品
  • 提供数据产品的生态系统,而不是可能不适合数据方案的单一数据仓库
  • 驱动强制实施数据治理和安全性的默认方式
  • 推动团队始终如一地优先考虑业务成果,而不是仅侧重于底层技术。

云规模分析基于 Microsoft 的云采用框架构建,需要了解登陆区域。 如果尚未实现 Azure 登陆区域,请咨询你的云团队以了解如何满足先决条件。 有关详细信息,请参阅确保已为云采用计划准备好环境

参考体系结构使你可以从较小的占用空间开始,并随着时间推移而增长,从而使方案适应用例。

云规模分析包括可重复的模板,这些模板可加速五个核心基础结构和资源部署。 它也适用于不同的组织规模。 如果你是一家资源有限的小型企业,那么拥有与一些业务主题专家混合的集中式运营模型可能适合你的情况。 如果你是一家以拥有自主业务部门(每个部门有自己的数据工程师和分析师)为目标的大型企业,那么分布式运营模型(如数据网格或数据结构)可能会更好地满足你的需求。

目标

云规模分析提供了一个基于以下原则构建的框架。 这些原则解决了未按组织需求缩放的复杂数据体系结构的挑战。

原则 说明
允许
  • 实现缩放,但不增加复杂性
  • 分离关注事项,以便于治理
  • 创建自助服务数据基础结构
关注
  • 架构良好的云服务的最佳做法
支持
  • 本地和多云方案
采用
  • 不特定于产品和供应商的方法
  • 云采用框架
提交
  • Azure 登陆区域作为所有工作负载的基线基础结构
  • 操作模型
启用
  • 通用数据基础结构
  • 集中治理下的分布式体系结构
  • 安全网络视距

实施指南

实现指南可以分为两个部分:

  • 适用于所有工作负载的全局指南。
  • 云规模特定指南

全局指南

文档 说明
云采用框架 管控和治理数据是一个生命周期过程,需要以现有的云策略为基础,确立并持续实施运营。 云采用框架将帮助指导你完成数据资产的整个生命周期。
Azure Well-Architected Framework 工作负载体系结构和操作会对数据产生直接影响。 了解体系结构可以如何优化对工作负载数据的管控和治理。

云规模特定指南

部分 说明
制定初始策略 如何制定数据策略并转型为数据驱动型组织。
定义计划 如何制定云规模分析计划。
准备分析资产 概述数据管理和数据登陆区域,包括企业注册、网络、标识和访问管理、策略、业务连续性和灾难恢复等关键设计领域注意事项。
对分析进行治理 治理数据、数据目录、世系、主数据管理、数据质量、数据共享协议和元数据的要求。
保护分析资产 如何通过身份验证和授权、数据隐私和数据访问管理来保护分析资产。
组织人员和团队 如何组织有效的运营、角色、团队和团队职能。
管理分析资产 如何为方案预配平台和可观测性。

体系结构

本部分介绍云规模分析的物理实现的详细信息。 它绘制了数据管理登陆区域和数据登陆区域的物理体系结构。

云规模分析具有两个关键体系结构概念:

  • 数据登陆区域
  • 数据管理登陆区域

这些体系结构标准化最佳做法,并最大程度地减少开发团队的部署瓶颈,并可以加速部署通用云规模分析解决方案。 你可以针对 Lakehouse 和数据网格体系结构采用其指南。 该指南重点介绍了管理良好的分析平台所需的功能,该平台可根据需求进行缩放。

下图概述了一个包含中心数据管理登陆区域和多个数据登陆区域的数据平台。

包含数据管理登陆区域和数据登陆区域的高级设计图。

可以从单个登陆区域开始,扩展到多个登陆区域,并从数据管理登陆区域治理所有这些登陆区域。

有关详细信息,请参阅:体系结构概述

部署模板

本部分包含许多可部署的参考模板。

存储库 内容 必须 部署模型
数据管理模板 中心数据管理服务和共享数据服务,例如数据目录和自承载集成运行时 每个云规模分析一个
数据登陆区域模板 数据登陆区域共享服务,包括引入、管理和数据存储服务 每个数据登陆区域一个
数据集成模板 - 批处理 批数据处理所需的其他服务 每个数据登陆区域一个或多个
数据集成模板 - 流处理 数据流处理所需的其他服务 每个数据登陆区域一个或多个
数据产品模板 - 分析和数据科学 数据分析和 AI 所需的其他服务 每个数据登陆区域一个或多个

这些模板包含 Azure 资源管理器模板、模板的参数文件以及用于资源部署的 CI/CD 管道定义。

由于新的 Azure 服务和要求,模板可能会随着时间的推移而更改。 保护每个存储库的主分支,使其始终无错误并可供使用和部署。 在将功能增强功能合并回主分支之前,请使用开发订阅测试模板配置更改。

有关详细信息,请参阅部署模板

解决方案加速器

解决方案加速器是 GitHub 上的开源项目。 这些存储库包含资源和信息,可简化和加速使用技术解决问题的能力。

有关详细信息,请参阅解决方案加速器

最佳做法

“云规模分析”目录中的以下高级文章(300+ 级别)可帮助中央 IT 团队针对数据管控和治理部署工具并管理流程:

展开“云规模分析”目录中的“特色 Azure 产品”部分,以了解支持云规模分析的 Azure 产品。

常见客户旅程

以下常见客户旅程支持云规模分析:

  • 准备环境。 使用准备环境文章作为资源。 建立流程和方法,以跨数据资产支持整个工作负载组合。

  • 加强跨数据资产的控制。 专注于治理数据资产保护数据资产文章,将云规模分析集成到现有操作中。

  • 影响对单个工作负载的更改。 随着云规模分析流程的改进,中央数据治理团队会发现依赖于单个工作负载背后体系结构的知识的需求。 使用体系结构文章了解如何在用例中使用方案。

  • 优化个人工作负载和工作负载团队。 首先借助 Azure 架构良好的框架指导,将云规模分析策略集成到单个工作负载中。 本指南介绍了中央 IT 和治理团队应用于加快单个工作负载开发的最佳做法和体系结构。

  • 借助最佳做法加入个人资产。 展开“云规模分析”目录中的“最佳做法”部分,查找有关将整个数据资产载入到一个云规模分析控制平面的流程的文章。

  • 使用特定 Azure 产品。 使用“云规模分析”目录的“特色 Azure 产品”部分中的 Azure 产品,提升云规模分析效率并改进相关功能。

执行操作

有关规划实现云规模分析的详细信息,请参阅:

后续步骤

开始云规模分析之旅: