你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure HDInsight on AKS 上的群集创建错误

重要

此功能目前以预览版提供。 Microsoft Azure 预览版的补充使用条款包含适用于 beta 版、预览版或其他尚未正式发布的 Azure 功能的更多法律条款。 有关此特定预览版的信息,请参阅 Azure HDInsight on AKS 预览版信息。 如有疑问或功能建议,请在 AskHDInsight 上提交请求并附上详细信息,并关注我们以获取 Azure HDInsight Community 的更多更新。

本文介绍如何排查和解决在创建 Azure HDInsight on AKS 群集时可能发生的错误。

Sr.否 错误消息 原因 解决方法
1 InternalServerError UnrecognizableError 此错误可能指示使用的模板不正确。 目前,仅允许通过 ARM 模板使用数据库连接器。 因此,无法在模板上验证配置。
2 InvalidClusterSpec - ServiceDependencyFailure - 配置无效 每个节点的最大内存错误。 请参阅属性值类型的最大内存配置。
3 WaitingClusterResourcesReadyTimeOut - 元存储服务未就绪 此错误可能是由于容器名称只能包含小写字母、数字和连字符。 容器名称必须以字母或数字开头。 每个连字符的前后必须为非连字符字符。 名称的长度还必须介于 3 到 63 个字符之间。
4 InvalidClusterSpec - 配置无效 - ClusterUpsertActivity 错误:属性 hive.metastore.uri: may not be null 配置无效。 请参阅 Hive 连接器文档
5 InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call 重试该操作或向 Azure HDInsight 团队开具支持工单。
6 RP 代码中出现 InternalServerError - ObjectDisposedException 重试该操作或向 Azure HDInsight 团队开具支持工单。
7 PreconditionFailed - 由于用户订阅的配额限制,操作失败。 创建群集前会进行配额验证。 但当在同一个订阅下同时创建多个群集时,可能会出现第一个群集占用配额,而另一个群集因配额不足而失败的情况。 确认有足够的配额并重试群集/群集池的创建操作。
8 ReconcileApplicationSecurityGroupError - 内部 AKS 错误 重试该操作或向 Azure HDInsight 团队开具支持工单。
9 ResourceGroupBeingDeleted 在创建或更新 HDI on AKS 资源期间,用户还可删除相关资源组中的某些资源。 创建或更新 HDI on AKS 资源时,请勿删除 HDI 相关资源组中的资源。
10 UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out AKS 问题 - 可能是由于操作时特定区域中的流量较高。 稍后重试操作。 如果是这样,请使用另一个区域。
11 Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} 1-p 服务原则未被载入租户。 执行命令,在要载入的新租户上预配 1-p 服务原则。
12 NotFound - ARM/AKS sdk error 用户尝试更新 HDI on AKS 群集,但已删除相应的代理池。 已删除相应的代理池。 不建议直接操作 AKS 代理池。
13 AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi 缺少执行操作的权限。 请检查你拥有的错误消息中是否提到服务主体应用 ID。 如果是,请根据错误消息授予权限。 如果否,请向 Azure HDInsight 团队开具支持工单。
14 DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} RP 意外切换到新角色实例。 重试该操作或向 Azure HDInsight 团队开具支持工单。
15 EntityStoreOperationError - ARM/AKS sdk error 群集更新期间 AKS 端的数据库操作失败。 稍后重试操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
16 InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} 此错误是由于各种问题引起的。 重试该操作或向 Azure HDInsight 团队开具支持工单。
17 InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} 此错误是由于各种问题引起的。 请稍后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
18 InternalServerError - Null reference exception occurs in RP code 此错误是由于各种问题引起的。 重试该操作或向 Azure HDInsight 团队开具支持工单。
19 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} 此错误是由于各种问题引起的。 重试该操作或向 Azure HDInsight 团队开具支持工单。
20 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} 此错误是由于各种问题引起的。 重试该操作或向 Azure HDInsight 团队开具支持工单。
21 OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. 另一个代理池操作(缩放)正在进行中。 此错误是重新启动 RP Service Fabric 导致的。 请等待上一个操作完成,然后再启动新操作。 如果重试后问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
22 ReconcileVMSSAgentPoolFailed 创建群集前会进行配额验证。 但当在同一个订阅下同时创建多个群集时,可能会出现第一个群集占用配额,而另一个群集因配额不足而失败的情况。 确认有足够的配额并重试群集/群集池的创建操作。
23 ReconcileVMSSAgentPoolFailed - 无法从代理建立出站连接 AKS/VMSS 端问题:VM 报告了一个故障。 请稍后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
24 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} 此错误是由于暂时性 SQL 连接问题导致的。 请稍后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
25 NotLatestOperation - ARM/AKS SDK error 操作无法继续。 操作已被另一个操作抢占,或者操作所需的信息未能保存(或尚未保存)。 请稍后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
26 ReconcileVMSSAgentPoolFailed - Agent pool drain failed 纵向缩减操作时出现问题。 请向 Azure HDInsight 团队开具支持工单。
27 ResourceNotFound - ARM/AKS SDK error 当用户移除/删除所需的资源时,就会出现此错误。 请确保错误消息中提到的资源存在,然后重试该操作。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
28 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] 由于 SQL Server 或存储相关问题,HMS 初始化可能会超时。 请向 Azure HDInsight 团队开具支持工单。
29 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] 由于无法访问 keyvault 或密钥不可用,可能会出现此错误。 在某些情况下,此错误可能是群集节点上 Pod 标识基础结构初始化速度较慢造成的。 如果已启用 Log Analytics,请检查 secretprovider-validate job 的日志以确定原因。如果问题仍然存在,请稍后再重试操作,或者向 Azure HDInsight 团队开具支持工单。
30 FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} 出现此错误的原因有多种,例如映像拉取问题、控制器 Pod 未就绪或 MSI 出现问题。 请稍后重试该操作,如果错误仍然存在,请向 Azure HDInsight 团队开具支持工单。
31 FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} 出现此错误的原因有多种,例如映像拉取问题、控制器 Pod 未就绪或 MSI 出现问题。 请稍后重试该操作,如果错误仍然存在,请向 Azure HDInsight 团队开具支持工单。
32 InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' 如果服务配置包含不允许的组件,则可能会出现此错误。 请验证服务配置组件并重试。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
33 InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies 此错误可能是 HMS、SPARK、YARN 服务未启动导致的,此错误可能与存储相关。 请向 Azure HDInsight 团队开具支持工单。
34 WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. 请向 Azure HDInsight 团队开具支持工单。
35 WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} 此错误可能是 HMS、SPARK、YARN 服务未启动导致的,此错误可能与存储相关。 请向 Azure HDInsight 团队开具支持工单。
36 InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] 在服务配置中传递不支持的文件时,可能会出现此错误。 请验证服务配置组件并重试。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
37 InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." 身份验证参数无效 - 存储位置不可访问。 请更正身份验证参数并重试。 如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。
38 InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] 计划 HMS Pod 时,如果 Pod 标识资源在节点上启动时间过长,则可能会出现此错误。 请重试该操作,如果问题仍然存在,请向 Azure HDInsight 团队开具支持工单。

后续步骤