你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
群集存储简介
备注
我们将于 2025 年 1 月 31 日停用 Azure HDInsight on AKS。 在 2025 年 1 月 31 日之前,你需要将工作负荷迁移到 Microsoft Fabric 或同等的 Azure 产品,以避免工作负荷突然终止。 订阅上的剩余群集会被停止并从主机中移除。
在停用日期之前,仅提供基本支持。
重要
此功能目前以预览版提供。 Microsoft Azure 预览版的补充使用条款包含适用于 beta 版、预览版或其他尚未正式发布的 Azure 功能的更多法律条款。 有关此特定预览版的信息,请参阅 Azure HDInsight on AKS 预览版信息。 如有疑问或功能建议,请在 AskHDInsight 上提交请求并附上详细信息,并关注我们以获取 Azure HDInsight Community 的更多更新。
Azure HDInsight on AKS 可与 Azure 存储无缝集成,后者是一种通用存储解决方案,可与许多其他 Azure 服务结合使用。 Azure Data Lake Storage Gen2 (ADLS Gen 2) 是群集的默认文件系统。
存储帐户可作为群集操作期间生成的数据、群集日志和其他输出的默认位置。 它也可以是 Hive 目录的默认存储,具体取决于群集类型。
有关详细信息,请参阅 Azure Data Lake Storage Gen2 简介。
Azure HDInsight on AKS 使用托管标识 (MSI) 来保护对 Azure Data Lake Storage Gen2 中文件的群集访问。 托管标识是 Microsoft Entra ID 的一项功能,可以为 Azure 服务提供一组自动托管的凭据。 这些凭据可用于对任何支持 Active Directory 身份验证的服务进行身份验证。 此外,使用托管标识不要求将凭据存储在代码或配置文件中。
在 Azure HDInsight on AKS 中,在群集创建期间选择托管标识和存储后,托管标识就可以与存储无缝配合进行数据管理,前提是已将“存储 Blob 数据所有者”角色分配给用户分配的 MSI。
下表列出了 Azure HDInsight on AKS(公共预览版)支持的存储选项:
群集类型 | 支持的存储 | Connection | 存储上的角色 |
---|---|---|---|
Trino、Apache Flink 和 Apache Spark | ADLS Gen2 | 群集用户分配的托管标识 (MSI) | 用户分配的 MSI 需要在存储帐户上具有“存储 Blob 数据所有者”角色。 |
备注
如需跨多个群集共享存储帐户,只需为相应的群集用户分配的 MSI 分配共享存储帐户上的“存储 Blob 数据所有者”角色。 了解如何分配角色。
之后便可以通过应用程序使用完整的存储 abfs://
路径访问数据。
有关详细信息,请参阅 Azure 资源的托管标识。
了解如何创建 ADLS Gen2 帐户。
下图是 Azure 存储的 Azure HDInsight on AKS 体系结构的抽象视图。
目前,Azure HDInsight on AKS 不支持启用了软删除的存储帐户,请确保为存储帐户禁用软删除。