你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
HDInsight on AKS 中有哪些新功能? (预览版)
注意
我们将于 2025 年 1 月 31 日停用 Azure HDInsight on AKS。 在 2025 年 1 月 31 日之前,你需要将工作负荷迁移到 Microsoft Fabric 或同等的 Azure 产品,以避免工作负荷突然终止。 订阅上的剩余群集会被停止并从主机中移除。
在停用日期之前,仅提供基本支持。
重要
此功能目前以预览版提供。 Microsoft Azure 预览版的补充使用条款包含适用于 beta 版、预览版或其他尚未正式发布的 Azure 功能的更多法律条款。 有关此特定预览版的信息,请参阅 Azure HDInsight on AKS 预览版信息。 如有疑问或功能建议,请在 AskHDInsight 上提交请求并附上详细信息,并关注我们以获取 Azure HDInsight Community 的更多更新。
在 HDInsight on AKS 中,所有群集管理和操作都原生支持在 Azure 门户上对单个群集进行服务管理。
HDInsight on AKS 引入了两个新概念:
- 群集池用于对群集进行分组和管理。
- 群集用于开放源代码计算,它们托管在群集池中。
群集池
HDInsight on AKS 在 Azure Kubernetes 服务 (AKS) 上运行。 顶级资源是群集池,其管理在同一 AKS 群集上运行的所有群集。 创建群集池时,会同时创建基础 AKS 群集以托管池中的所有群集。 群集池是群集的逻辑分组,有助于跨多个群集类型建立可靠的互操作性,并允许企业在同一虚拟网络中拥有多个群集。 通过群集池,可以快速、经济高效地访问按需和大规模创建的所有群集类型。一个群集池对应于 AKS 基础结构中的一个群集。
群集
群集是单独的开放源代码计算工作负载,例如 Apache Spark、Apache Flink 和 Trino,这些工作负载可以在几分钟之内快速创建,只需预设配置并单击几下即可。 尽管在同一群集池上运行,但每个群集都可以有其自己的配置,例如群集类型、版本、节点 VM 大小、节点计数。 群集在单独的计算资源上运行,这些资源有其自己的 DNS 和终结点。
当前处于预览状态的功能
下表列出了目前以预览版提供的 HDInsight on AKS 的功能。 预览版功能按字母顺序排序。
区域 | 功能 |
---|---|
基础 | 使用门户创建池和群集,Web 安全外壳 (ssh) 支持,能够在创建群集期间选择工作器节点数 |
存储 | ADLS Gen2 存储支持 |
元存储 | 为 Trino、Spark 和 Flink 提供外部元存储支持,与 HDInsight 集成 |
安全性 | 支持 ARM RBAC,支持基于 MSI 的身份验证,可以选择向其他用户提供群集访问 |
日志记录和监视 | 在 Azure 日志分析中记录聚合,通过托管的 Prometheus 和 Grafana获取服务器日志、群集和服务指标,在 Azure Monitor 中支持服务器指标,使用“服务状态”页面监视服务运行状况 |
自动扩展 | 基于负载的自动缩放,以及基于计划的自动缩放 |
自定义和配置群集 | 支持在创建群集期间执行脚本操作,支持库管理,在创建群集之后进行服务配置设置 |
Trino | 支持 Trino 目录,Trino CLI 支持,DBeaver 对查询提交的支持,添加或删除插件和连接器,支持日志记录查询事件,支持 Trino 仪表板中任何连接器的扫描查询统计信息,支持 Trino 仪表板监视查询,查询高速缓存,与 Power BI 集成,与 Apache Superset、Redash 集成,支持多个连接器 |
Flink | 支持 Flink 本机 Web UI,通过 HMS 为 DStream 提供 Flink 支持,使用 REST API 和 Azure 门户将作业提交到群集,通过 Flink CLI 运行打包为 JAR 文件的程序,支持永久性保存点,支持在作业运行时更新配置选项,连接到多个 Azure 服务:Azure Cosmos DB、Azure Databricks、Azure 数据资源管理器、Azure 事件中心、Azure IoT 中心、Azure Pipelines、Azure 数据工厂工作流编排管理器、HDInsight Kafka,配合使用 Flink CLI 和 CDC 与 Flink 将作业提交到群集 |
Spark | Jupyter Notebook,支持 Delta lake 2.0,Zeppelin 支持,支持 ATS,支持 Yarn 历史记录服务器界面,使用 SSH 提交作业,使用 SDK 和机器学习笔记本提交作业 |
功能路线图
功能 | 预计发布时间线 | Status |
---|---|---|
自动缩放 - 基于负载 - Trino | Q1 2024 | 已完成 |
Spark 基于随机感知负载的自动缩放 | 2024 年第 2 季度 | 正在进行 |
就地升级 | 2024 年第 2 季度 | 已完成 |
预留实例支持 | 2024 年第 2 季度 | 正在进行 |
基于 MSI 的元存储身份验证 (SQL) | Q1 2024 | 正在进行 |
Spark 3.4 | 2024 年第 2 季度 | 正在进行 |
Trino 426 | Q1 2024 | 已完成 |
适用于 RBAC 的 Ranger | 2024 年第 2 季度 | 正在进行 |
Flink 的应用模式支持 | Q1 2024 | 已完成 |
Flink 1.17 | Q1 2024 | 已完成 |
Spark ACID 支持 | Q1 2024 | 正在进行 |
头节点的可配置 SKU,SSH | 2024 年第 2 季度 | 正在进行 |
Flink SQL 网关支持 | Q1 2024 | 已完成 |
HDInsight on AKS 的专用群集 | Q1 2024 | 已完成 |
Ranger 对 Spark SQL 的支持 | 2024 年第 4 季度 | 正在进行 |
存储层上的 Ranger ACL | 2024 年第 4 季度 | 正在进行 |
支持将 One Lake 用作主容器 | 2024 年第 2 季度 | 正在进行 |