你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

适用于中小型企业的新型数据仓库

Azure Data Lake
Azure SQL 数据库
Azure Synapse Analytics
Dynamics 365
Microsoft Power 平台

此示例工作负载演示了小型企业 (SMB) 在不过度增加当前预算和技能集的前提下实现旧数据存储现代化和探索大数据工具和功能的多种方式。 这些端到端 Azure 数据仓库解决方案可以轻松地与 Azure 机器学习、Microsoft Power Platform 和 Microsoft Dynamics 等工具及其他 Microsoft 技术集成。

体系结构

Diagram that shows how SMBs can modernize legacy data stores.

下载此体系结构的 Visio 文件

旧版 SMB 数据仓库可能包含多种类型的数据:

  • 非结构化数据,如文档和图形
  • 半结构化数据,例如日志、CSV、JSON 和 XML 文件
  • 结构化关系数据,包括使用存储过程执行“提取-转换-加载/提取-加载-转换”(ETL/ELT) 活动的数据库

数据流

以下数据流演示了所选数据类型的引入过程:

  1. Azure Synapse Analytics 管道将旧数据仓库引入 Azure。

    • 管道将迁移或部分重构的旧数据库和 SSIS 包流编排到 Azure SQL 数据库。 这种提升和移动方法的实现速度最快,并且从本地 SQL 解决方案顺利过渡到最终的 Azure 平台即服务 (PaaS)。 在提升和移动后,可以增量实现数据库现代化。

    • 管道还可以将非结构化、半结构化和结构化数据传递到 Azure Data Lake Storage,以与其他源进行集中存储和分析。 如果融合数据比简单重新构建数据平台更具业务优势,请采用这种方法。

  2. 使用 Synapse 无服务器分析工具,Microsoft Dynamics 数据源可在增强数据集上生成集中式 BI 仪表板。 可以将融合的已处理数据返回到 Dynamics 和 Power BI 中,以进行进一步分析。

  3. 流式处理源中的实时数据也可通过 Azure 事件中心进入系统。 对于具有实时仪表板要求的客户,Azure 流分析可以立即分析此数据。

  4. 数据还可以进入集中式 Data Lake,用于进一步分析、存储和报告。

  5. 无服务器分析工具在 Azure Synapse Analytics 工作区中可用。 这些工具使用无服务器 SQL 池或 Apache Spark 计算功能处理 Data Lake Storage Gen2 中的数据。 无服务器池按需可用,不需要任何预配的资源。

    无服务器池适用于:

    • T-SQL 格式的特设数据科学探索。
    • 针对数据仓库实体的早期原型设计。
    • 定义使用者可以使用的视图,例如,在 Power BI 中,适用于可容忍性能滞后的情况。

Azure Synapse 与融合数据集的潜在使用者紧密集成,例如 Azure 机器学习。 其他使用者可以包括 Power Apps、Azure 逻辑应用、Azure Functions 应用和 Azure 应用服务 Web 应用。

组件

  • Azure Synapse Analytics 是一种分析服务,它将数据集成、企业数据仓库和大数据分析集于一身。 本解决方案的内容:

  • Azure SQL 数据库是面向云生成的一项可缩放的智能关系数据库服务。 在此解决方案中,SQL 数据库拥有企业数据仓库并执行使用存储过程的 ETL/ELT 活动。

  • Azure 事件中心是一种实时数据流式处理平台和事件引入服务。 事件中心可以从任何位置引入数据,并可与 Azure 数据服务无缝集成。

  • Azure 流分析是一种用于流式处理数据的实时无服务器分析服务。 流分析提供快速、弹性的可伸缩性,企业级的可靠性和恢复,以及内置的机器学习功能。

  • Azure 机器学习是一个工具集,用于数据科学模型开发和生命周期管理。 机器学习是 Azure 和 Microsoft 服务的一个示例,它可以使用来自 Data Lake Storage Gen2 的融合处理数据。

备选方法

  • Azure IoT 中心可以取代或补充事件中心。 你选择的解决方案取决于流数据的来源,以及是否需要与报告设备进行克隆和双向通信。

  • 可以将 Azure 数据工厂用于数据集成,而不是 Azure Synapse 管道。 选择取决于几个因素:

    • Azure Synapse 管道使解决方案设计更简单,并支持在单个 Azure Synapse 工作区协作。
    • Azure Synapse 管道不支持 Azure 数据工厂中提供的 SSIS 包重新托管。
    • Synapse Monitor 中心监视 Azure Synapse 管道,Azure Monitor 监视数据工厂。

    有关更多信息以及 Azure Synapse 管道和数据工厂之间的功能比较,请参阅 Azure Synapse Analytics 与 Azure 数据工厂中的数据集成

  • 可以使用 Synapse Analytics 专用 SQL 池存储企业数据,而不是使用 SQL 数据库。 查看本文中的用例和注意事项和相关资源以做出决定。

方案详细信息

中小型企业 (SMB) 在对其内部部署的云数据仓库进行现代化改造时面临一个选择。 他们可以使用大数据工具实现未来的扩展性,或保留传统的 SQL 的解决方案,以提高成本效益、简化维护并顺利进行转换。

但是,混合方法将现有数据资产的轻松迁移与为某些用例添加大数据工具和流程的机会相结合。 基于 SQL 的数据源可以在云中保持运行,并在适当时继续进行现代化。

此示例工作负载演示了 SMB 实现旧数据存储现代化和探索大数据工具和功能的多种方式,而不会过度扩展当前预算和技能集。 这些端到端 Azure 数据仓库解决方案可以轻松地与 Azure 和 Microsoft 服务,以及 Azure 机器学习 Microsoft Power Platform 和 Microsoft Dynamics 等工具集成。

可能的用例

有多种方案可以受益于此工作负载:

  • 迁移小于 1 TB 的传统本地关系数据仓库,并广泛使用 SQL Server Integration Services (SSIS) 包来编排存储过程。

  • 使用批处理和实时 Azure Data Lake 源将现有 Dynamics 或 Power Platform Dataverse 数据网格化。

  • 使用创新技术来与集中化的 Data Lake Storage Gen2 数据交互。 技术包括无服务器分析、知识挖掘、域之间的数据融合和最终用户数据探索。

  • 设置电子商务公司以采用数据仓库来优化其运营。

不建议将此解决方案用于:

  • Greenfield 数据仓库部署(估计在一年内达到 >1 TB)。

  • 迁移 > 1 TB 或 预计一年内增长到该大小的本地数据仓库。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改善工作负载质量的指导原则。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架

此方案需注意以下事项。

可用性

SQL 数据库是一种 PaaS 服务,可满足高可用性 (HA) 和灾难恢复 (DR) 要求。 请务必选择满足要求的 SKU。 有关指导,请参阅 Azure SQL 数据库的高可用性

操作

SQL 数据库使用 SQL Server Management Studio (SSMS) 来开发和维护旧项目,如存储过程。

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化支柱概述

请参阅 Azure 定价计算器中的 SMB 数据仓库方案的定价示例。 请调整值,查看要求如何影响成本。

  • SQL 数据库 的成本基于选定的计算和服务层,以及 vCore 和数据库事务单位 (DTU) 的数量。 该示例显示了一个数据库,该数据库具有预配的计算和八个 vCore,前提是需要在 SQL 数据库中运行存储过程。

  • Data Lake Storage Gen2 定价取决于存储的数据量以及使用数据的频率。 示例定价包括存储的 1 TB 数据,以及进一步的事务假设。 1 TB 是指数据湖的大小,而不是原始的旧数据库大小。

  • Azure Synapse 管道的成本基于数据管道活动的数量、集成运行时数、数据流集群大小以及执行和操作费用。 管道成本随其他数据源和已处理的数据量而增加。 该示例假定在 Azure 托管集成运行时上每小时批处理一个数据源 15 分钟。

  • Azure Synapse Spark 池基于节点大小、实例数和运行时间的定价。 该示例假定一个小计算节点的利用率为每周 5 小时到每个月 40 小时。

  • Azure Synapse 无服务器 SQL 池基于处理的数据的 TB 价格定价。 该示例假定每月处理了 50 个 TB。 这个数字是指数据湖的大小,而不是原始的旧数据库大小。

  • 事件中心账单取决于层级、预配的吞吐量单位和收到的流入量。 该示例假设标准层中的一个吞吐量单位在一个月内超过一百万个事件。

  • 流分析的成本取决于预配的流单元数。 该示例假定在一个月内使用了一个流单元。

作者

本文由 Microsoft 更新和维护。 它最初是由以下贡献者撰写的。

主要作者:

  • Galina Polyakova | 高级云解决方案架构师

后续步骤