选择正确的 HDInsight 配置选项的决策标准

已完成

不同的分析方案可以采用不同的 HDInsight 服务配置。 实际上,HDInsight 包含大量 OSS 分析技术,因此可将其视为满足高级分析需求的一站式商店。 所有可用的各种群集类型都可以满足下列业务方案的需求。 通过各种群集类型,你能够完全控制如何在 HDInsight 中管理每一种方案。 

在处理和分析数据以实现业务价值方面,许多企业有类似的需求。 这些需求包括:

批处理

HDInsight 可用于通过使用 Hadoop/Spark 以及 Hive 和 Sqoop 等数据处理框架,针对结构化和非结构化数据,执行提取、转换、加载 (ETL) 或提取、加载、转换 (ELT) 操作。  

数据仓库

以往通常使用 SQL Server 等本地关系数据库完成,近来更多地使用以 PB 规模的结构化数据为基础的 Azure SQL 数据仓库。 可以使用 HDInsight 对多种格式的结构化或非结构化数据执行 PB 规模的交互式查询。 如果配合使用 HDInsight Hadoop 和 Hive 管理数据操作和报告要求,此功能可起到很好的作用。 

流数据

使用 HDInsight,可通过采用 Spark 流式处理的事件中心或 IoT 中心,从多种源引入流数据。  

混合

某些组织已采用本地大数据基础结构。 可以使用 HDInsight 将功能扩展到云。

选择正确的 HDInsight 群集配置选项的关键在于确定 HDInsight 群集要服务于的工作负载。 如果贵组织使用多个工作负载,一种常见做法是切换到不同的 HDInsight 配置以匹配需进行处理的工作负载。

工作负载类型 群集类型
数据成批移动 Apache Hadoop
数据科学 - 批处理和流式处理 Apache Spark
事务性工作负载 HBase
临时分析/数据仓库 Apache 交互式查询
流式处理分析 Apache Kafka

重要

HDInsight 群集以多种类型提供,每种类型适用于单个工作负荷或技术。 没有任何方法支持创建组合多种类型的群集,如一个群集同时具有 Hadoop 和 HBase 类型。 如果解决方案需要多种 HDInsight 群集类型均支持的技术,Azure 虚拟网络可以连接各种所需的群集类型。