创建 HDInsight 群集

已完成

创建 HDInsight 群集有多种方法,从使用 Azure 门户实现简便的用户界面,到使用脚本设置帮助进行自动部署。 下表显示了可用于设置 HDInsight 群集的各种方法。

群集创建方法 Web 浏览器 命令行 REST API SDK
Azure 门户
Azure 数据工厂
Azure CLI
Azure PowerShell
cURL
.NET SDK
Azure 资源管理器模板

所有 HDInsight 设置都需要以下基本信息,其中包括:

“基本信息”选项卡

项目详细信息

订阅

根据将对 HDInsight 进行的计费和管理定义 Azure 订阅。

资源组名称

资源组是通常与同一应用程序或应用程序生命周期相关的 Azure 技术和服务的逻辑分组。 在相同资源组中对服务进行分组可以简化管理维护。

A screenshot of the basic tab in the Create HDInsight Cluster screen in the Azure portal

群集详细信息

群集名称

HDInsight 群集名称具有以下限制:

  • 允许的字符:a-z、0-9、A-Z
  • 最大长度:59
  • 保留的名称:apps
  • 群集命名范围适用于所有订阅中的所有 Azure。 因此,群集名称在全球范围内必须是唯一的。
  • 前六个字符在 VNET 中必须是唯一的

位置

指定群集类型的存储位置。 如果未定义任何位置,则群集与默认存储并置于同一位置。 此位置应尽可能接近用户,以减少延迟。

群集类型

定义在资源群集上预配的技术堆栈。 根据所拥有的数据类型和方案所需的处理类型选择群集类型。 下表中显示了可用的群集类型。  

群集类型 说明
Apache Hadoop 一个框架,使用 HDFS 和简单的 MapReduce 编程模型处理和分析批处理数据。 
Apache Spark 一种开放源代码并行处理框架,支持使用内存中处理来提升大数据分析应用程序的性能。
HBase 基于 Hadoop 上的 NoSQL 数据库构建,为大量非结构化和半结构化数据(可能为数十亿行乘以数百万列)提供随机访问和高度一致性。 
Apache Interactive Query 更快的交互式 Hive 查询的内存中缓存。 
Apache Kafka 一种开源平台,用于生成流式处理的数据管道和应用程序。 Kafka 还提供了消息队列功能,允许用户发布和订阅数据流。

版本

定义此群集的 HDInsight 版本。 HDInsight 4.0 是最新的版本,它为群集提供了最新的框架。

群集凭据

使用 HDInsight 群集时,可以在群集创建期间配置两个用户帐户。

群集登录名和密码

默认的用户名为 admin。它使用 Azure 门户上的基本配置。 有时称为“群集用户”。

SSH 用户名和密码

用于通过 SSH 连接到群集。

注意

企业安全数据包允许将 HDInsight 与 Active Directory 和 Apache Ranger 集成。 可使用企业安全数据包创建多个用户。

存储选项卡

HDInsight 群集可以使用存储屏幕中显示的以下存储选项:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure 存储常规用途 v2
  • Azure 存储常规用途 v1
  • Azure 存储块 blob(仅支持作为辅助存储)

存储屏幕允许你定义主存储帐户和默认容器。 还可以将其他 Azure 存储链接到群集。 在删除群集之后,可以通过元存储设置定义外部 SQL 数据库来存储 Hive 表,并通过在外部存储中存储元数据来提高 Oozie 的性能。

A screenshot of the storage tab in the Create HDInsight Cluster screen in the Azure portal

安全性和网络

对于 Hadoop、Spark、HBase、Kafka 和 Interactive Query 群集类型,可选择启用“企业安全性套餐”。 启用此套餐,可通过使用 Apache Ranger 并与 Microsoft Entra ID 集成来实现更安全的群集设置。

A screenshot of the Security and Networking tab in the Create HDInsight Cluster screen in the Azure portal

此外,始终建议在 VNet 中部署 HDInsight 群集,你可以在此屏幕中定义和设置虚拟网络。 如果解决方案需要分布在多种 HDInsight 群集类型上的技术,Azure 虚拟网络可以连接所需的群集类型。 此配置允许群集以及部署到群集的任何代码直接相互通信。

配置和定价

此页使你可以配置群集的大小和性能,并查看估计的成本信息。 在此屏幕中,你可以定义将用于头节点(主节点)和工作器节点的虚拟机。

A screenshot of the Configuration and Pricing tab in the Create HDInsight Cluster screen in the Azure portal