Azure HDInsight on AKS 上的叢集建立錯誤
本文說明如何排解和解決在建立 Azure HDInsight on AKS 叢集時可能發生的錯誤。
序否 | 錯誤訊息 | 原因 | 解決方案 |
---|---|---|---|
1 | InternalServerError UnrecognizableError | 此錯誤可能表示使用的範本不正確。 目前僅允許透過 ARM 範本使用資料庫連接器。 因此,無法在範本上驗證設定。 | |
2 | InvalidClusterSpec - ServiceDependencyFailure - 無效的設定 | 每個節點的最大記憶體錯誤。 | 請參閱最大記憶體設定屬性值類型。 |
3 | WaitingClusterResourcesReadyTimeOut - Metastoreservice 未就緒 | 此錯誤可能導因於容器名稱只能包含小寫字母、數字和連字號。 容器名稱必須以字母或數字開頭。 | 每個連字號的前後都必須臨接非連字號字元。 名稱長度也必須為 3 到 63 個字元。 |
4 | InvalidClusterSpec - 無效的設定 - ClusterUpsertActivity | 錯誤:無效的設定屬性 hive.metastore.uri: may not be null 。 |
請參閱 Hive 連接器文件。 |
5 | InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
重試作業,或向 Azure HDInsight 小組開啟支援票證。 | |
6 | InternalServerError - ObjectDisposedException 發生於 RP 程式碼中。 |
重試作業,或向 Azure HDInsight 小組開啟支援票證。 | |
7 | PreconditionFailed - 作業因使用者訂用帳戶的配額限制而失敗。 |
叢集建立之前會有配額驗證。 不過,同時在同一個訂用帳戶下建立數個叢集時,第一個叢集可能會佔用配額,導致其他叢集因配額不足而失敗。 | 確認有足夠的配額,並重試叢集/叢集集區建立。 |
8 | ReconcileApplicationSecurityGroupError - 內部 AKS 錯誤 |
重試作業,或向 Azure HDInsight 小組開啟支援票證。 | |
9 | ResourceGroupBeingDeleted |
在建立或更新 HDI on AKS 資源期間,使用者也會刪除相關資源群組中的某些資源。 | 在 HDI on AKS 資源建立或更新期間,請勿刪除 HDI 相關資源群組中的資源。 |
10 | UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
AKS 問題 – 可能導因於作業時特定區域中的高流量。 | 請在一段時間之後重試此作業。 可能的話,請使用其他區域。 |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
1-p 服務主體未上線至租用戶。 | 執行命令,在要上線的新租用戶上佈建 1-p 服務主體。 |
12 | NotFound - ARM/AKS sdk error |
使用者嘗試更新 HDI on AKS 叢集,但對應的代理程式集區已刪除。 | 對應的代理程式集區已刪除。 不建議直接操作 AKS 代理程式集區。 |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
缺少執行作業的權限。 | 檢查錯誤訊息中提及的服務主體應用程式識別碼是否屬於您。 如果是,請根據錯誤訊息授與權限。 如果不是,請向 Azure HDInsight 小組開啟支援票證。 |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP 非預期地切換至新的角色執行個體。 | 重試作業,或向 Azure HDInsight 小組開啟支援票證。 |
15 | EntityStoreOperationError - ARM/AKS sdk error |
在叢集更新期間,AKS 端的資料庫作業失敗。 | 請在一段時間之後重試此作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
此錯誤導因於諸多問題。 | 重試作業,或向 Azure HDInsight 小組開啟支援票證。 |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
此錯誤導因於諸多問題。 | 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
18 | InternalServerError - Null reference exception occurs in RP code . |
此錯誤導因於諸多問題。 | 重試作業,或向 Azure HDInsight 小組開啟支援票證。 |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
此錯誤導因於諸多問題。 | 重試作業,或向 Azure HDInsight 小組開啟支援票證。 |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
此錯誤導因於諸多問題。 | 重試作業,或向 Azure HDInsight 小組開啟支援票證。 |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
另一個代理程式集區作業 (調整) 正在進行中。 此錯誤導因於 RP Service Fabric 重新開機。 | 等前一個作業完成,再開始進行新作業。 如果重試後仍發生問題,請向 Azure HDInsight 小組開啟支援票證。 |
22 | ReconcileVMSSAgentPoolFailed |
叢集建立之前會有配額驗證。 不過,同時在同一個訂用帳戶下建立數個叢集時,第一個叢集可能會佔用配額,導致其他叢集因配額不足而失敗。 | 確認有足夠的配額,並重試叢集/叢集集區建立。 |
23 | ReconcileVMSSAgentPoolFailed - 無法從代理程式建立輸出連線 |
AKS/VMSS 端問題:VM 報告了失敗。 |
在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
此錯誤導因於暫時性 SQL 連線問題。 | 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
25 | NotLatestOperation - ARM/AKS SDK error |
作業無法繼續。 作業已遭到另一個作業佔用,或作業所需的資訊無法儲存 (或尚未儲存)。 | 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
縮小作業發生問題。 | 向 Azure HDInsight 小組開啟支援票證。 |
27 | ResourceNotFound - ARM/AKS SDK error |
必要的資源遭到使用者移除/刪除時,就會發生此錯誤問題。 | 確定錯誤訊息中提及的資源存在,然後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
28 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
HMS 初始化可能因 SQL Server 或儲存體相關問題而逾時。 | 向 Azure HDInsight 小組開啟支援票證。 |
29 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
此錯誤可能因 keyvault 無法存取或秘密金鑰無法使用而發生。 在少數情況下,此錯誤可能是由於叢集節點上的 Pod 身分識別基礎結構初始化速度較慢所致。 |
如果您啟用了 Log Analytics,請檢查 secretprovider-validate job 的記錄以找出原因。在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
此錯誤可能由諸多原因所致,例如映像提取問題、控制器 Pod 未就緒,或 MSI 方面的問題。 | 在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
此錯誤可能由諸多原因所致,例如映像提取問題、控制器 Pod 未就緒,或 MSI 方面的問題。 | 在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
32 | InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
如果服務設定中包含不允許的元件,就可能發生此錯誤。 | 驗證服務設定元件,然後重試。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
33 | InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
此錯誤可能因 HMS、SPARK、YARN 服務未啟動而發生,且可能與儲存有關。 | 向 Azure HDInsight 小組開啟支援票證。 |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
向 Azure HDInsight 小組開啟支援票證。 | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
此錯誤可能因 HMS、SPARK、YARN 服務未啟動而發生,且可能與儲存有關。 | 向 Azure HDInsight 小組開啟支援票證。 |
36 | InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
在服務設定中傳入不支援的檔案時,就可能發生此錯誤。 | 驗證服務設定元件,然後重試。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
無效的驗證參數 – 儲存位置無法存取。 | 更正驗證參數並重試。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
38 | InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
在排程 HMS Pod 時,若 Pod 身分識別資源在節點上啟動耗時過久,就可能發生此錯誤。 | 重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
下一步
意見反映
https://aka.ms/ContentUserFeedback。
即將推出:我們會在 2024 年淘汰 GitHub 問題,並以全新的意見反應系統取代並作為內容意見反應的渠道。 如需更多資訊,請參閱:提交及檢視以下的意見反映: