你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 数据架构指南

本指南提供了在 Microsoft Azure 上设计以数据为中心的解决方案的结构化方法。 该指南是我们从客户互动中获取并经过验证的做法。

注意

通过用于数据管理的云采用,详细了解如何采用用于数据治理、分析和数据管控的系统。

简介

云正在改变应用程序的设计方式,包括如何处理和存储数据。 “polyglot 持久性”解决方案不是用于处理解决方案的所有数据的单一通用数据库,它们使用多个专用的数据存储,每个都进行了优化来提供特定功能。 因此,解决方案中的数据透视也发生了变化。 不再有多个在单一数据层中进行读取和写入的业务逻辑层。 相反,解决方案围绕“数据管道”而设计,数据管道描述了数据如何流经解决方案,在哪里处理数据,在哪里存储数据,以及管道中的下一组件如何使用数据。

本指南的结构

本指南围绕数据解决方案的两个大类进行组织:传统 RDBMS 工作负荷和大数据解决方案。

传统 RDBMS 工作负荷。 这些工作负荷包括 联机事务处理 (OLTP) 联机分析处理 (OLAP) 。 OLTP 系统中的数据通常是关系数据,附带预定义的架构和一组约束,可保留引用完整性。 通常,组织中的多个源的数据可能会合并到 数据仓库中,使用 ETL 过程 移动和转换源数据。

Traditional RDBMS workloads

大数据解决方案大数据体系结构旨在处理对传统数据库系统太大或过于复杂的数据的引入、处理和分析。 数据可以 批量 处理或 实时处理。 大数据解决方案通常涉及大量 非关系数据,例如键值数据、 JSON 文档时序数据。 通常,传统 RDBMS 系统并不很适合用于存储此类数据。 术语 NoSQL 是指用于存放非关系数据的数据库系列。 此术语不是很准确,因为许多非关系数据存储支持 SQL 兼容查询。 术语 NoSQL 代表“并非仅限 SQL”。

Big data solutions

这两个类别并不互斥,且两者之间具有共性,但我们认为,提出这两个类别能够很好地界定讨论范围。 本指南将在每个类别范围内讨论常见方案,包括方案的相关 Azure 服务和相应架构。 此外,本指南还将 Azure 中适用于数据解决方案的技术选项进行比较,其中包括开源选项。 在每个类别中,我们都介绍了关键选择条件和功能矩阵,以帮助你选择适合你的方案的合适技术。

本指南的目的不是讲授数据科学或数据库理论 — 你可以找到有关这些主题的完整丛书。 相反,其目的是帮助你选择适用于你的方案的合适数据架构或数据管道,然后选择最能满足要求的 Azure 服务和技术。 如果你的脑海中已有了架构,则可以直接跳到技术选择。

后续步骤