你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
随着数据的指数增长,组织依赖于Azure的无限计算、存储和分析能力来缩放、流式传输、预测和查看其数据。 分析解决方案将大量数据转化为有用的商业智能 (BI),例如报表和可视化效果,以及创造性的人工智能 (AI),例如基于机器学习的预测。
无论是开始评估基于云的分析工具还是希望扩展当前实现,Azure都提供了许多选项。 工作流从了解常见方法开始,并围绕云思维模式协调流程和角色。
数据可以分批处理、实时处理、本地处理或在云中处理,但任何分析解决方案的目标都是大规模使用数据。 越来越多的组织希望为人、计算机和物联网 (IoT) 生成的所有关系和非关系数据创建单个事实来源。 通常使用大数据体系结构或 IoT 体系结构将原始数据转换为结构化形式,然后将其移动到分析数据存储。 此存储库成为唯一的事实来源,可为众多富有见解的分析解决方案提供支持。
建筑
下载此体系结构的 Visio 文件。
上图演示了典型的基本/基线分析实现。 请参阅本部分中提供的 体系结构 ,查找可在 Azure 中构建的实际解决方案。
探索分析体系结构和指南
本部分中的文章包括可在 Azure 中部署并扩展到生产级解决方案和指南的完全开发的体系结构。 这些可帮助你对如何在 Azure 中使用分析技术做出重要决策。 解决方案理念演示了在规划分析概念证明开发时要考虑的实现模式和可能性。
分析体系结构指南
技术选择 - 这些文章可帮助你评估并选择最适合工作负荷要求的分析技术:
- 分析和报告 - 比较 Azure 中数据分析和可视化的选项。
- 批处理 - 评估大数据工作负荷的批处理技术。
- 流处理 - 比较流处理技术进行实时分析。
- 选择分析数据存储 - 有关如何选择正确的分析数据存储的指导。
- 在 Microsoft Fabric 中选择分析型数据存储 - 有关在 Microsoft Fabric 中选择数据存储的指导。
Azure 数据平台的灾难恢复 - 以下文章提供了实施灾难恢复策略的综合指南:
分析体系结构
这些生产就绪体系结构演示了可以部署和自定义的端到端分析解决方案:
- 使用 Microsoft Fabric 进行端到端分析 - 使用 Microsoft Fabric 集成功能构建新式分析平台。
- 数据仓库和分析 - 将来自多个源的大量数据集成到统一分析平台中。
- 使用 Microsoft Fabric 设计企业 BI 解决方案 - 使用 Microsoft Fabric 设计企业商业智能解决方案。
- 近实时湖仓数据处理 - 使用 Azure Synapse Analytics 和 Azure Data Lake Storage 进行近实时湖仓数据处理。
- 将 MongoDB Atlas 实时同步到 Azure Synapse Analytics - 将 MongoDB Atlas 数据实时同步到 Azure Synapse Analytics。
- 使用 Azure Databricks 进行流处理 - 使用 Azure Databricks 创建端到端流处理管道。
- 使用 Azure 流分析进行流处理 - 生成流处理管道,用于引入数据、关联记录并计算滚动平均值。
- 适用于中小企业的新式数据仓库 - 构建专为中小企业设计的现代数据仓库解决方案。
分析解决方案创意
这些解决方案思路演示了实现模式和探索可能性:
- 在 Azure Databricks 上实现摄取、ETL 和流处理管道 - 为批处理和流式传输数据创建 ETL 管道,以简化数据湖的数据摄取。
- 使用 Azure Databricks 的现代分析架构 - 使用现代数据架构收集、处理、分析和可视化数据。
- 适用于中小企业的新式数据平台 - 使用 Microsoft Fabric 和 Azure Databricks 为中小企业构建现代数据平台体系结构。
- 使用 Azure 数据资源管理器进行实时分析 - 使用 Azure 数据资源管理器和 Azure 服务总线实时分析数据。
了解 Azure 上的分析工具
Microsoft Learn 为 Azure 分析技术提供免费联机培训资源。 该平台为特定产品和服务提供视频、教程和动手实验室,以及按作业角色组织的学习路径。
以下资源为 Azure 上的分析实现提供了基本知识:
按角色学习路径
- 数据分析师: Microsoft数据分析入门
- 数据工程师: 使用 Azure Databricks 实现数据分析解决方案
- 数据科学家: 使用 Azure Databricks 生成机器学习解决方案
组织就绪情况
开始采用云的组织可以使用 云采用框架 来获得经过证实的指导,以加速云采用。 有关云规模分析指南,请参阅 云规模分析。
为了帮助确保 Azure 上的分析解决方案的质量,我们建议遵循 Azure Well-Architected Framework。 它为寻求卓越体系结构的组织提供了规范性指导,并讨论了如何设计、预配和监视成本优化Azure解决方案。
要获取与 Well-Architected 框架支柱对齐的数据工作负载指导,请参阅 Azure Well-Architected Framework for data workloads。
实现生产的路径
在 Azure 上实现分析时,选择数据存储是一个基本决策。 选择存储方法后,可以确定适合方案的 数据分析技术 。
关键决策点包括:
数据存储:根据数据结构和查询模式在数据湖、数据仓库或湖仓(Lakehouse)之间进行选择。 有关选择和设计支持分析工作负荷的数据库解决方案的指导,请参阅 数据库体系结构设计。
处理模型:确定批处理、流处理还是组合最符合工作负荷要求。
分析工具:选择符合团队技能和业务需求的 BI 和 AI 技术。
若要查看分析解决方案的不同体系结构样式,请参阅 体系结构。
最佳做法
高质量的分析始于可靠可信的数据。 在最高层面上,信息安全做法有助于确保数据在传输和静止时受到保护。 对该数据的访问也必须是受信任的。 可信数据意味着实现以下功能的设计:
治理策略 - 定义明确的数据所有权、分类和访问策略。
标识和访问管理 - 实现基于角色的访问控制和最低特权原则。
网络安全控制 - 保护服务之间的数据流并防止未经授权的访问。
数据保护 - 加密静态和传输中的数据。
在平台级别,以下 大数据最佳实践有助于在 “Azure” 上实现可靠分析:
协调数据摄取 - 使用数据工作流或管道解决方案,例如由 Azure Data Factory 或 Microsoft Fabric 管道支持的方案。
就地处理数据 - 使用分布式数据存储、大数据方法,支持大量数据和更广泛的格式。
尽早清理敏感数据 - 在引入工作流中删除或屏蔽敏感数据,以避免将其存储在数据湖中。
考虑总成本 - 根据使用这些节点完成作业的每分钟成本,平衡所需的计算节点的每单位成本。
创建统一的 Data Lake - 以多种格式合并文件的存储,无论是结构化、半结构化还是非结构化。 使用 Azure Data Lake Storage Gen2 作为单一事实来源。 有关示例,请参阅卓越中心的 BI 解决方案体系结构。
随时了解分析
Azure 分析服务正在不断发展,以应对新式数据挑战。 随时了解最新的更新和计划的功能:
获取有关 Azure 产品和功能的最新更新。
随时了解以下关键分析服务:
其他资源
分析是一个广泛的类别,涵盖一系列解决方案。 以下资源可帮助你了解有关Azure的详细信息。
混合
大多数组织都需要通过混合方式来进行分析,因为他们的数据同时托管在本地和云中。 组织通常会将本地数据解决方案扩展到云。 为连接环境,组织必须选择混合网络体系结构。
关键的混合分析方案:
- 大型机现代化: 现代化大型机和中型数据 - 将旧数据源与新式分析平台集成。
- 本地集成: 统一混合和多云作 - 将本地数据库连接到云分析。
- 边缘分析:在边缘处理数据并在云中聚合见解。
实时分析
实时分析使组织能够在数据到达时处理数据。 下面是一些资源,可帮助你开始使用 Azure 上的实时分析:
- 对大数据体系结构进行实时分析 - 大规模处理和分析流数据。
- 使用 Azure 数据资源管理器进行 IoT 分析 - 实时分析 IoT 遥测数据。
- 使用 Azure 流分析进行流处理 - 生成无服务器流式处理解决方案。
- 使用 Azure Databricks 创建新式分析体系结构 - 使用 Apache Spark 进行企业级分析。
AWS 或 Google Cloud 专业人员
这些文章通过将Azure分析选项与其他云服务进行比较来帮助快速提升: