什么是 HDInsight?

已完成

如今,数据生成量巨大、种类繁多且生成速度快,因此需要使用有效且高效的系统来处理生成的半结构化数据和非结构化数据。 人们尝试使用传统的关系数据库管理系统 (RDBMS) 来处理、存储和分析“大数据”。 但人们却是在开放源代码软件 (OSS) 领域实现了目标突破。 OSS 以分布式方式使用商用硬件,并结合软件来扩展数据和分析,并突破了单一服务器的限制。

组织和个人均可免费使用 OSS。 过去由于缺乏对 OSS 的管理和支持,以致某些企业难以采用。 随着云的兴起,许多云提供商可托管这些服务并为使用 OSS 技术的组织提供托管支持。 这种做法对组织很有吸引力,这样组织即可享受 OSS 的好处,又不会产生额外的管理和支持成本。 大数据领域经常使用 OSS。 在这个领域中,许多技术不仅能处理和存储数据,还能执行分析。 OSS 分析可实现不依赖单个云供应商的多云且开放的应用程序策略。 无论是需要将解决方案从本地迁移到云,还是需要在不同云供应商之间进行迁移,它都可以提供可移植性。

大数据解决方案中使用的其中一个核心 OSS 分析技术是 Hadoop。 它通常将数据存储在 Hadoop 分布式文件系统 (HDFS) 中,并使用一个商用计算机群集,其编程模型名为 MapReduce。 此编程模型可实现对线性数据流中的大型数据集的分布式处理。 为提高性能,Apache Spark 以 Hadoop 的体系结构功能为基础进行构建,但将 MapReduce 范例替换为了弹性分布式数据集 (RDD)。 RDD 提供了速度更快的内存中数据引擎。

值得一提的是,OSS 分析已超越了利用 Hadoop 和 Spark 实现的大数据解决方案的传统应用。 OSS 分析现涵盖多种软件,其中包括:

  • 用于流式方案的 Kafka 和 Flink
  • 用作 SQL 抽象层的 Presto 和 Kylin
  • 与 H20.ai 和 Dataiku 一起添加的 AI 层

Azure HDInsight 是面向企业的云中的托管、全方位、开源分析服务。 Microsoft 在 Azure HDInsight 中实现了 OSS 分析。 可以使用开源框架,例如 Hadoop、Apache Spark、Apache Hive、LLAP、Apache Kafka 等。 还可以获得企业级安全性和监视功能,以及 Azure 托管服务提供的高可用性选项。 此外,Azure HDInsight 可扩展且可自定义,适合多种客户方案。