分享方式:


Azure HDInsight on AKS 上的叢集建立錯誤

本文說明如何排解和解決在建立 Azure HDInsight on AKS 叢集時可能發生的錯誤。

序否 錯誤訊息 原因 解決方案
1 InternalServerError UnrecognizableError 此錯誤可能表示使用的範本不正確。 目前僅允許透過 ARM 範本使用資料庫連接器。 因此,無法在範本上驗證設定。
2 InvalidClusterSpec - ServiceDependencyFailure - 無效的設定 每個節點的最大記憶體錯誤。 請參閱最大記憶體設定屬性值類型
3 WaitingClusterResourcesReadyTimeOut - Metastoreservice 未就緒 此錯誤可能導因於容器名稱只能包含小寫字母、數字和連字號。 容器名稱必須以字母或數字開頭。 每個連字號的前後都必須臨接非連字號字元。 名稱長度也必須為 3 到 63 個字元。
4 InvalidClusterSpec - 無效的設定 - ClusterUpsertActivity 錯誤:無效的設定屬性 hive.metastore.uri: may not be null 請參閱 Hive 連接器文件
5 InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call. 重試作業,或向 Azure HDInsight 小組開啟支援票證。
6 InternalServerError - ObjectDisposedException 發生於 RP 程式碼中。 重試作業,或向 Azure HDInsight 小組開啟支援票證。
7 PreconditionFailed - 作業因使用者訂用帳戶的配額限制而失敗。 叢集建立之前會有配額驗證。 不過,同時在同一個訂用帳戶下建立數個叢集時,第一個叢集可能會佔用配額,導致其他叢集因配額不足而失敗。 確認有足夠的配額,並重試叢集/叢集集區建立。
8 ReconcileApplicationSecurityGroupError - 內部 AKS 錯誤 重試作業,或向 Azure HDInsight 小組開啟支援票證。
9 ResourceGroupBeingDeleted 在建立或更新 HDI on AKS 資源期間,使用者也會刪除相關資源群組中的某些資源。 在 HDI on AKS 資源建立或更新期間,請勿刪除 HDI 相關資源群組中的資源。
10 UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out. AKS 問題 – 可能導因於作業時特定區域中的高流量。 請在一段時間之後重試此作業。 可能的話,請使用其他區域。
11 Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} 1-p 服務主體未上線至租用戶。 執行命令,在要上線的新租用戶上佈建 1-p 服務主體。
12 NotFound - ARM/AKS sdk error 使用者嘗試更新 HDI on AKS 叢集,但對應的代理程式集區已刪除。 對應的代理程式集區已刪除。 不建議直接操作 AKS 代理程式集區。
13 AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi 缺少執行作業的權限。 檢查錯誤訊息中提及的服務主體應用程式識別碼是否屬於您。 如果是,請根據錯誤訊息授與權限。 如果不是,請向 Azure HDInsight 小組開啟支援票證。
14 DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} RP 非預期地切換至新的角色執行個體。 重試作業,或向 Azure HDInsight 小組開啟支援票證。
15 EntityStoreOperationError - ARM/AKS sdk error 在叢集更新期間,AKS 端的資料庫作業失敗。 請在一段時間之後重試此作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
16 InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} 此錯誤導因於諸多問題。 重試作業,或向 Azure HDInsight 小組開啟支援票證。
17 InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} 此錯誤導因於諸多問題。 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
18 InternalServerError - Null reference exception occurs in RP code. 此錯誤導因於諸多問題。 重試作業,或向 Azure HDInsight 小組開啟支援票證。
19 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} 此錯誤導因於諸多問題。 重試作業,或向 Azure HDInsight 小組開啟支援票證。
20 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} 此錯誤導因於諸多問題。 重試作業,或向 Azure HDInsight 小組開啟支援票證。
21 OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. 另一個代理程式集區作業 (調整) 正在進行中。 此錯誤導因於 RP Service Fabric 重新開機。 等前一個作業完成,再開始進行新作業。 如果重試後仍發生問題,請向 Azure HDInsight 小組開啟支援票證。
22 ReconcileVMSSAgentPoolFailed 叢集建立之前會有配額驗證。 不過,同時在同一個訂用帳戶下建立數個叢集時,第一個叢集可能會佔用配額,導致其他叢集因配額不足而失敗。 確認有足夠的配額,並重試叢集/叢集集區建立。
23 ReconcileVMSSAgentPoolFailed - 無法從代理程式建立輸出連線 AKS/VMSS 端問題:VM 報告了失敗。 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
24 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} 此錯誤導因於暫時性 SQL 連線問題。 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
25 NotLatestOperation - ARM/AKS SDK error 作業無法繼續。 作業已遭到另一個作業佔用,或作業所需的資訊無法儲存 (或尚未儲存)。 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
26 ReconcileVMSSAgentPoolFailed - Agent pool drain failed 縮小作業發生問題。 向 Azure HDInsight 小組開啟支援票證。
27 ResourceNotFound - ARM/AKS SDK error 必要的資源遭到使用者移除/刪除時,就會發生此錯誤問題。 確定錯誤訊息中提及的資源存在,然後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
28 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.]. HMS 初始化可能因 SQL Server 或儲存體相關問題而逾時。 向 Azure HDInsight 小組開啟支援票證。
29 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.]. 此錯誤可能因 keyvault 無法存取或秘密金鑰無法使用而發生。 在少數情況下,此錯誤可能是由於叢集節點上的 Pod 身分識別基礎結構初始化速度較慢所致。 如果您啟用了 Log Analytics,請檢查 secretprovider-validate job 的記錄以找出原因。在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
30 FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} 此錯誤可能由諸多原因所致,例如映像提取問題、控制器 Pod 未就緒,或 MSI 方面的問題。 在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
31 FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} 此錯誤可能由諸多原因所致,例如映像提取問題、控制器 Pod 未就緒,或 MSI 方面的問題。 在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
32 InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}'. 如果服務設定中包含不允許的元件,就可能發生此錯誤。 驗證服務設定元件,然後重試。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
33 InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies. 此錯誤可能因 HMS、SPARK、YARN 服務未啟動而發生,且可能與儲存有關。 向 Azure HDInsight 小組開啟支援票證。
34 WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. 向 Azure HDInsight 小組開啟支援票證。
35 WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} 此錯誤可能因 HMS、SPARK、YARN 服務未啟動而發生,且可能與儲存有關。 向 Azure HDInsight 小組開啟支援票證。
36 InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value]. 在服務設定中傳入不支援的檔案時,就可能發生此錯誤。 驗證服務設定元件,然後重試。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
37 InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." 無效的驗證參數 – 儲存位置無法存取。 更正驗證參數並重試。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。
38 InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.]. 在排程 HMS Pod 時,若 Pod 身分識別資源在節點上啟動耗時過久,就可能發生此錯誤。 重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。

下一步