你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

新式分析体系结构与 Azure Databricks

数据工厂
Data Lake Storage
Databricks
Synapse Analytics
Power BI

解决方案构想

本文是一种解决方案构想。 如果你希望我们在内容中扩充更多信息,例如潜在用例、备用服务、实现注意事项或定价指南,请通过提供 GitHub 反馈来告知我们。

此解决方案概述了一个新式数据体系结构。 Azure Databricks 构成了该解决方案的核心。 此平台可与 Azure Data Lake Storage Gen2、Azure 数据工厂、Azure Synapse Analytics 和 Power BI 等其他服务无缝协同工作。

体系结构

显示新式数据体系结构如何收集、处理、分析和可视化数据的体系结构示意图。

该图包含多个灰色矩形。 矩形上的标签显示了“引入”、“处理”、“服务”、“存储”以及“监视和治理”。 每个矩形包含代表 Azure 或合作伙伴服务的图标。 Azure Databricks 图标和 Data Lake Storage Gen2 图标在中央位置。 图标之间有箭头来回指向。 箭头展示数据如何流经系统,如示意图解释步骤所述。 最下面的矩形横贯示意图的整个底部。 其中包含用于监视和治理操作与信息的服务的图标。

下载此体系结构的 Visio 文件

数据流

  1. Azure Databricks 从 Azure 事件中心引入原始流数据。

  2. 数据工厂将原始批处理数据载入 Data Lake Storage Gen2。

  3. 对于数据存储:

    • Data Lake Storage Gen2 容装所有类型的数据,例如结构化、非结构化和半结构化数据。 它还存储批处理和流式处理数据。

    • Delta Lake 构成了数据湖的特选层。 它以开源格式存储具体化数据。

    • Azure Databricks 非常适合用于将数据组织成层的奖牌体系结构

      • 铜牌:包含原始数据。
      • 银牌:包含已清理、筛选的数据。
      • 金牌:存储对业务分析有用的聚合数据。
  4. 分析平台从不同的批处理和流式处理源中提取数据。 数据科学家可以使用这些数据来执行以下任务:

    • 数据准备。
    • 数据探索。
    • 模型准备。
    • 模型训练。

    MLflow 管理数据科学代码运行中的参数、指标和模型跟踪。 支持灵活的代码编写形式:

    • 代码可以使用 SQL、Python、R 和 Scala 语言。
    • 代码可以使用预装且优化的流行开源库和框架,例如 Koalas、Pandas 和 scikit-learn。
    • 从业者可以使用单节点和多节点计算选项来优化性能与成本。
  5. 机器学习模型采用多种格式:

    • Azure Databricks 将有关模型的信息存储在 MLflow 模型注册表中。 该注册表通过批处理、流式处理和 REST API 提供模型。
    • 该解决方案还可将模型部署到 Azure 机器学习 Web 服务或 Azure Kubernetes 服务 (AKS)。
  6. 处理数据的服务连接到单个基础数据源以确保一致性。 例如,用户可以使用 Azure Databricks SQL Analytics 对数据湖运行 SQL 查询。 此服务:

  7. Power BI 从统一数据平台生成分析和历史报表与仪表板。 使用 Azure Databricks 时,此服务将使用以下功能:

  8. 用户可以通过优化的 Synapse 连接器将黄金数据集从数据湖导出到 Azure Synapse。 Azure Synapse 中的 SQL 池提供数据仓库和计算环境。

  9. 该解决方案使用 Azure 服务来满足协作、性能、可靠性、治理和安全性需求:

    • Microsoft Purview 针对整个数据资产提供数据发现服务、敏感数据分类和治理见解。

    • Azure DevOps 提供持续集成和持续部署 (CI/CD) 及其他集成式版本控制功能。

    • Azure 密钥保管库安全地管理机密、密钥和证书。

    • Azure Active Directory (Azure AD) 为 Azure Databricks 用户提供单一登录 (SSO)。 Azure Databricks 支持使用 Azure AD 自动用户预配来执行以下任务:

      • 创建新用户。
      • 为每个用户分配访问级别。
      • 删除用户和拒绝他们的访问。
    • Azure Monitor 收集和分析 Azure 资源遥测数据。 通过主动识别问题,此服务最大程度地提高了性能和可靠性。

    • Azure 成本管理和计费为 Azure 工作负载提供财务治理服务。

组件

该解决方案使用以下组件。

核心组件

  • Azure Databricks 是一个数据分析平台。 其完全托管的 Spark 群集可处理来自多个源的大量数据流。 Azure Databricks 可清理和转换无结构数据集。 它将已处理的数据与来自操作数据库或数据仓库的结构化数据相结合。 Azure Databricks 还可以训练和部署可缩放的机器学习模型和深度学习模型。

  • 事件中心是一个大数据流式处理平台。 作为平台即服务 (PaaS),此事件引入服务是完全托管的。

  • 数据工厂是混合数据集成服务。 可以使用此完全托管的无服务器解决方案来创建、计划和协调数据转换工作流。

  • Data Lake Storage Gen2 是一种可缩放且安全的数据湖,适用于高性能分析工作负载。 这项服务可以管理 PB 量级的信息,同时保持数百千兆的吞吐量。 数据可能是结构化的、半结构化的或非结构化的。 它通常来自多个异构源,例如日志、文件和媒体。

  • Azure Databricks SQL Analytics 对数据湖运行查询。 此服务还可以在仪表板中可视化数据。

  • 机器学习是一个基于云的环境,可帮助你生成、部署和管理预测分析解决方案。 使用这些模型可以预测行为、结果和趋势。

  • AKS 是高度可用、安全且完全托管的 Kubernetes 服务。 使用 AKS 可以轻松部署和管理容器化应用程序。

  • Azure Synapse 是用于数据仓库和大数据系统的分析服务。 此服务与 Power BI、机器学习和其他 Azure 服务相集成。

  • Azure Synapse 连接器提供从 Azure Databricks 访问 Azure Synapse 的方式。 这些连接器可在 Azure Databricks 群集与 Azure Synapse 实例之间高效传输大量数据。

  • SQL 池在 Azure Synapse 中提供数据仓库和计算环境。 这些池与 Azure 存储和 Data Lake Storage Gen2 兼容。

  • Delta Lake 是使用开放文件格式的存储层。 此层在 Data Lake Storage Gen2 等云存储的顶层运行。 Delta Lake 支持数据版本控制、回滚,以及用于更新、删除和合并数据的事务。

  • MLflow 是机器学习生命周期的开源平台。 它的组件可在训练和运行期间监视机器学习模型。 MLflow 还可存储模型并将其加载到生产环境中。

报告和治理组件

  • Power BI 是一系列软件服务和应用。 这些服务可以创建和共享用于连接不相关数据源并将其可视化的报表。 与 Azure Databricks 相结合,Power BI 可以提供根本原因判定和原始数据分析。

  • Microsoft Purview 管理本地、多云和软件即服务 (SaaS) 数据。 此治理服务可以维护数据布局图。 功能包括自动数据发现、敏感数据分类和数据世系。

  • Azure DevOps 是一个 DevOps 业务流程平台。 此 SaaS 提供用于生成、部署应用程序并就其展开协作的工具和环境。

  • Azure Key Vault 存储和控制对机密(如令牌、密码和 API 密钥)的访问。 Key Vault 还会创建和控制加密密钥并管理安全证书。

  • Azure AD 提供基于云的标识和访问管理服务。 这些功能为用户提供登录和访问资源的方式。

  • Azure Monitor 收集和分析有关环境与 Azure 资源的数据。 这些数据包括应用遥测数据,例如性能指标和活动日志。

  • Azure 成本管理和计费管理云支出。 使用预算和建议,此服务可以组织开支并展示如何降低成本。

方案详细信息

新式数据体系结构满足以下条件:

  • 统一数据、分析和 AI 工作负载。
  • 在任何规模下高效可靠运行。
  • 通过分析仪表板、操作报表或高级分析提供见解。

此解决方案概述了实现这些目标的新式数据体系结构。 Azure Databricks 构成了该解决方案的核心。 此平台与其他服务无缝协同工作。 这些服务共同提供了具有以下品质的解决方案:

  • 简单:统一分析、数据科学和机器学习简化了数据体系结构。
  • 开放:该解决方案支持开源代码、开放标准和开放框架。 它还能与流行的集成开发环境 (IDE)、库和编程语言配合工作。 通过本机连接器和 API,该解决方案还能与其他广泛的服务配合工作。
  • 协作:数据工程师、数据科学家和分析师可以使用此解决方案进行协作。 他们可以使用协作笔记本、IDE、仪表板和其他工具来访问和分析常见基础数据。

可能的用例

Swiss Re Group 为其财产和意外再保险部门构建的系统受到了此解决方案的启发。 除保险业以外,任何使用大数据或机器学习的领域也可以从此解决方案中受益。 示例包括:

  • 能源部门
  • 零售和电子商务
  • 银行和财务行业
  • 医药和医疗保健

后续步骤

若要了解相关解决方案,请参阅以下信息: