你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

HDInsight on AKS 中有哪些新功能? (预览版)

注意

我们将于 2025 年 1 月 31 日停用 Azure HDInsight on AKS。 在 2025 年 1 月 31 日之前,你需要将工作负荷迁移到 Microsoft Fabric 或同等的 Azure 产品,以避免工作负荷突然终止。 订阅上的剩余群集会被停止并从主机中移除。

在停用日期之前,仅提供基本支持。

重要

此功能目前以预览版提供。 Microsoft Azure 预览版的补充使用条款包含适用于 beta 版、预览版或其他尚未正式发布的 Azure 功能的更多法律条款。 有关此特定预览版的信息,请参阅 Azure HDInsight on AKS 预览版信息。 如有疑问或功能建议,请在 AskHDInsight 上提交请求并附上详细信息,并关注我们以获取 Azure HDInsight Community 的更多更新。

在 HDInsight on AKS 中,所有群集管理和操作都原生支持在 Azure 门户上对单个群集进行服务管理

HDInsight on AKS 引入了两个新概念:

  • 群集池用于对群集进行分组和管理
  • 群集用于开放源代码计算,它们托管在群集池中

群集池

HDInsight on AKS 在 Azure Kubernetes 服务 (AKS) 上运行。 顶级资源是群集池,其管理在同一 AKS 群集上运行的所有群集。 创建群集池时,会同时创建基础 AKS 群集以托管池中的所有群集。 群集池是群集的逻辑分组,有助于跨多个群集类型建立可靠的互操作性,并允许企业在同一虚拟网络中拥有多个群集。 通过群集池,可以快速、经济高效地访问按需和大规模创建的所有群集类型。一个群集池对应于 AKS 基础结构中的一个群集。

群集

群集是单独的开放源代码计算工作负载,例如 Apache Spark、Apache Flink 和 Trino,这些工作负载可以在几分钟之内快速创建,只需预设配置并单击几下即可。 尽管在同一群集池上运行,但每个群集都可以有其自己的配置,例如群集类型、版本、节点 VM 大小、节点计数。 群集在单独的计算资源上运行,这些资源有其自己的 DNS 和终结点。

当前处于预览状态的功能

下表列出了目前以预览版提供的 HDInsight on AKS 的功能。 预览版功能按字母顺序排序。

区域 功能
基础 使用门户创建池和群集,Web 安全外壳 (ssh) 支持,能够在创建群集期间选择工作器节点数
存储 ADLS Gen2 存储支持
元存储 TrinoSparkFlink 提供外部元存储支持,与 HDInsight 集成
安全性 支持 ARM RBAC,支持基于 MSI 的身份验证,可以选择向其他用户提供群集访问
日志记录和监视 在 Azure 日志分析中记录聚合,通过托管的 Prometheus 和 Grafana获取服务器日志、群集和服务指标,在 Azure Monitor 中支持服务器指标,使用“服务状态”页面监视服务运行状况
自动扩展 基于负载的自动缩放,以及基于计划的自动缩放
自定义和配置群集 支持在创建群集期间执行脚本操作,支持库管理,在创建群集之后进行服务配置设置
Trino 支持 Trino 目录Trino CLI 支持DBeaver 对查询提交的支持,添加或删除插件连接器,支持日志记录查询事件,支持 Trino 仪表板中任何连接器扫描查询统计信息,支持 Trino 仪表板监视查询,查询高速缓存,与 Power BI 集成,与 Apache Superset、Redash 集成,支持多个连接器
Flink 支持 Flink 本机 Web UI,通过 HMS 为 DStream 提供 Flink 支持,使用 REST API 和 Azure 门户将作业提交到群集,通过 Flink CLI 运行打包为 JAR 文件的程序,支持永久性保存点,支持在作业运行时更新配置选项,连接到多个 Azure 服务:Azure Cosmos DBAzure DatabricksAzure 数据资源管理器Azure 事件中心Azure IoT 中心Azure PipelinesAzure 数据工厂工作流编排管理器HDInsight Kafka,配合使用 Flink CLICDC 与 Flink 将作业提交到群集
Spark Jupyter Notebook,支持 Delta lake 2.0,Zeppelin 支持,支持 ATS,支持 Yarn 历史记录服务器界面,使用 SSH 提交作业,使用 SDK 和机器学习笔记本提交作业

功能路线图

功能 预计发布时间线 Status
自动缩放 - 基于负载 - Trino Q1 2024 已完成
Spark 基于随机感知负载的自动缩放 2024 年第 2 季度 正在进行
就地升级 2024 年第 2 季度 已完成
预留实例支持 2024 年第 2 季度 正在进行
基于 MSI 的元存储身份验证 (SQL) Q1 2024 正在进行
Spark 3.4 2024 年第 2 季度 正在进行
Trino 426 Q1 2024 已完成
适用于 RBAC 的 Ranger 2024 年第 2 季度 正在进行
Flink 的应用模式支持 Q1 2024 已完成
Flink 1.17 Q1 2024 已完成
Spark ACID 支持 Q1 2024 正在进行
头节点的可配置 SKU,SSH 2024 年第 2 季度 正在进行
Flink SQL 网关支持 Q1 2024 已完成
HDInsight on AKS 的专用群集 Q1 2024 已完成
Ranger 对 Spark SQL 的支持 2024 年第 4 季度 正在进行
存储层上的 Ranger ACL 2024 年第 4 季度 正在进行
支持将 One Lake 用作主容器 2024 年第 2 季度 正在进行