你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
大数据解决方案通常由离散批处理任务组成,这些任务有助于整体数据处理解决方案。 可以对不需要立即访问见解的工作负荷使用批处理。 批处理可以补充实时处理要求。 还可以使用批处理来平衡复杂性并降低整体实现的成本。
对批处理引擎的基本要求是能够横向扩展计算能力,以处理大量数据。 不同于实时处理,批处理会有延迟(从数据引入到计算结果之间的时间),为数分钟到数小时。
选择批处理技术
Microsoft 提供了多个可用于执行批处理的服务。
Microsoft Fabric
Microsoft Fabric 是一个适用于组织的一体化分析和数据平台。 它是一种软件即服务产品,可简化预配、管理和治理端到端分析解决方案的方式。 Fabric 处理数据移动、处理、引入、转换和报告。 用于批处理的 Fabric 功能包括数据工程、数据仓库、湖屋和 Apache Spark 处理。 Fabric 中的 Azure 数据工厂也支持 Lakehouse。 为了简化和加速开发,可以启用 AI 驱动的 Copilot。
语言:R、Python、Java、Scala 和 SQL
安全性:托管虚拟网络和 OneLake 基于角色的访问控制 (RBAC)
主存储:OneLake,其中包含快捷方式和镜像选项
Spark:预水化初学者池和具有预定义节点大小的自定义 Spark 池
Azure Databricks
Azure Databricks 是基于 Spark 的分析平台。 它具有基于开源 Spark 构建的丰富而高级的 Spark 功能。 Azure Databricks 是一种与其他 Azure 服务集成的 Microsoft 服务。 它为 Spark 群集部署提供额外的配置。 Unity Catalog 有助于简化 Azure Databricks Spark 对象的治理。
语言:R、Python、Java、Scala 和 Spark SQL。
安全性:使用 Microsoft Entra ID 进行用户身份验证。
主存储: 与 Azure Blob 存储、Data Lake Storage、Fabric OneLake 和其他服务的内置集成。 有关详细信息,请参阅数据源。
其他优点包括:
基于 Web 的 Notebook,适用于协作和数据探索。
群集启动时间短,可自动终止,自动缩放。
支持启用了 GPU 的群集。
关键选择条件
在选择批处理技术,请考虑以下问题:
想要托管服务,还是想要管理自己的服务器?
希望以声明方式还是以命令方式创作批处理逻辑?
是否会爆发性地执行批处理? 如果是,请考虑提供自动终止群集的能力或为每个批处理作业提供定价模型的选项。
是否需要随批处理查询关系数据存储,例如查找参考数据? 如果是,请考虑提供查询外部关系存储的选项。
功能矩阵
下表总结了服务之间功能的主要差异。
常规功能
| 能力 | 织物 | Azure Databricks |
|---|---|---|
| 软件即服务 | 是1 | 否 |
| 托管服务 | 否 | 是 |
| 关系数据存储 | 是 | 是 |
| 定价模型 | 容量单位 | Azure Databricks 单元 2 和群集小时数 |
[1] 分配的 Fabric 容量。
[2] Azure Databricks 单位是表示每小时处理能力的单位。
其他功能
| 能力 | 织物 | Azure Databricks |
|---|---|---|
| 自动缩放 | 否 | 是 |
| 横向扩展粒度 | 每个 Fabric SKU | 按群集 |
| 内存缓存数据 | 否 | 是 |
| 从外部关系存储进行查询 | 是 | 是 |
| 身份验证 | Microsoft Entra ID | Microsoft Entra ID |
| 审核 | 是 | 是 |
| 行级安全性 | 是 | 是 |
| 支持防火墙 | 是 | 是 |
| 动态数据掩码 | 是 | 是 |
贡献者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
主要作者:
- Zoiner Tejada | CEO 兼架构师
- Pratima Valavala | 首席解决方案架构师
要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。