Azure HDInsight on AKS 上的叢集建立錯誤
注意
AKS 上的 Azure HDInsight 將於 2025 年 1 月 31 日退場。 請於 2025 年 1 月 31 日之前,將工作負載移轉至 Microsoft Fabric 或對等的 Azure 產品,以免工作負載突然終止。 訂用帳戶中剩餘的叢集將會停止,並會從主機移除。
在淘汰日期之前,只有基本支援可用。
重要
此功能目前為預覽功能。 Microsoft Azure 預覽版增補使用規定包含適用於 Azure 功能 (搶鮮版 (Beta)、預覽版,或尚未正式發行的版本) 的更多法律條款。 若需此特定預覽版的相關資訊,請參閱 Azure HDInsight on AKS 預覽版資訊。 如有問題或功能建議,請在 AskHDInsight 上提交要求並附上詳細資料,並且在 Azure HDInsight 社群上追蹤我們以獲得更多更新資訊。
本文說明如何排解和解決在建立 Azure HDInsight on AKS 叢集時可能發生的錯誤。
序否 | 錯誤訊息 | 原因 | 解決方案 |
---|---|---|---|
1 | InternalServerError UnrecognizableError | 此錯誤可能表示使用的範本不正確。 目前僅允許透過 ARM 範本使用資料庫連接器。 因此,無法在範本上驗證設定。 | |
2 | InvalidClusterSpec - ServiceDependencyFailure - 無效的設定 | 每個節點的最大記憶體錯誤。 | 請參閱最大記憶體設定屬性值類型。 |
3 | WaitingClusterResourcesReadyTimeOut - Metastoreservice 未就緒 | 此錯誤可能導因於容器名稱只能包含小寫字母、數字和連字號。 容器名稱必須以字母或數字開頭。 | 每個連字號的前後都必須臨接非連字號字元。 名稱長度也必須為 3 到 63 個字元。 |
4 | InvalidClusterSpec - 無效的設定 - ClusterUpsertActivity | 錯誤:無效的設定屬性 hive.metastore.uri: may not be null 。 |
請參閱 Hive 連接器文件。 |
5 | InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
重試作業,或向 Azure HDInsight 小組開啟支援票證。 | |
6 | InternalServerError - ObjectDisposedException 發生於 RP 程式碼中。 |
重試作業,或向 Azure HDInsight 小組開啟支援票證。 | |
7 | PreconditionFailed - 作業因使用者訂用帳戶的配額限制而失敗。 |
叢集建立之前會有配額驗證。 不過,同時在同一個訂用帳戶下建立數個叢集時,第一個叢集可能會佔用配額,導致其他叢集因配額不足而失敗。 | 確認有足夠的配額,並重試叢集/叢集集區建立。 |
8 | ReconcileApplicationSecurityGroupError - 內部 AKS 錯誤 |
重試作業,或向 Azure HDInsight 小組開啟支援票證。 | |
9 | ResourceGroupBeingDeleted |
在建立或更新 HDI on AKS 資源期間,使用者也會刪除相關資源群組中的某些資源。 | 在 HDI on AKS 資源建立或更新期間,請勿刪除 HDI 相關資源群組中的資源。 |
10 | UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
AKS 問題 – 可能導因於作業時特定區域中的高流量。 | 請在一段時間之後重試此作業。 可能的話,請使用其他區域。 |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
1-p 服務主體未上線至租用戶。 | 執行命令,在要上線的新租用戶上佈建 1-p 服務主體。 |
12 | NotFound - ARM/AKS sdk error |
使用者嘗試更新 HDI on AKS 叢集,但對應的代理程式集區已刪除。 | 對應的代理程式集區已刪除。 不建議直接操作 AKS 代理程式集區。 |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
缺少執行作業的權限。 | 檢查錯誤訊息中提及的服務主體應用程式識別碼是否屬於您。 如果是,請根據錯誤訊息授與權限。 如果不是,請向 Azure HDInsight 小組開啟支援票證。 |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP 非預期地切換至新的角色執行個體。 | 重試作業,或向 Azure HDInsight 小組開啟支援票證。 |
15 | EntityStoreOperationError - ARM/AKS sdk error |
在叢集更新期間,AKS 端的資料庫作業失敗。 | 請在一段時間之後重試此作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
此錯誤導因於諸多問題。 | 重試作業,或向 Azure HDInsight 小組開啟支援票證。 |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
此錯誤導因於諸多問題。 | 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
18 | InternalServerError - Null reference exception occurs in RP code . |
此錯誤導因於諸多問題。 | 重試作業,或向 Azure HDInsight 小組開啟支援票證。 |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
此錯誤導因於諸多問題。 | 重試作業,或向 Azure HDInsight 小組開啟支援票證。 |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
此錯誤導因於諸多問題。 | 重試作業,或向 Azure HDInsight 小組開啟支援票證。 |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
另一個代理程式集區作業 (調整) 正在進行中。 此錯誤導因於 RP Service Fabric 重新開機。 | 等前一個作業完成,再開始進行新作業。 如果重試後仍發生問題,請向 Azure HDInsight 小組開啟支援票證。 |
22 | ReconcileVMSSAgentPoolFailed |
叢集建立之前會有配額驗證。 不過,同時在同一個訂用帳戶下建立數個叢集時,第一個叢集可能會佔用配額,導致其他叢集因配額不足而失敗。 | 確認有足夠的配額,並重試叢集/叢集集區建立。 |
23 | ReconcileVMSSAgentPoolFailed - 無法從代理程式建立輸出連線 |
AKS/VMSS 端問題:VM 報告了失敗。 |
在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
此錯誤導因於暫時性 SQL 連線問題。 | 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
25 | NotLatestOperation - ARM/AKS SDK error |
作業無法繼續。 作業已遭到另一個作業佔用,或作業所需的資訊無法儲存 (或尚未儲存)。 | 在一段時間後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
縮小作業發生問題。 | 向 Azure HDInsight 小組開啟支援票證。 |
27 | ResourceNotFound - ARM/AKS SDK error |
必要的資源遭到使用者移除/刪除時,就會發生此錯誤問題。 | 確定錯誤訊息中提及的資源存在,然後重試作業。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
28 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
HMS 初始化可能因 SQL Server 或儲存體相關問題而逾時。 | 向 Azure HDInsight 小組開啟支援票證。 |
29 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
此錯誤可能因 keyvault 無法存取或秘密金鑰無法使用而發生。 在少數情況下,此錯誤可能是由於叢集節點上的 Pod 身分識別基礎結構初始化速度較慢所致。 |
如果您啟用了 Log Analytics,請檢查 secretprovider-validate job 的記錄以找出原因。在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
此錯誤可能由諸多原因所致,例如映像提取問題、控制器 Pod 未就緒,或 MSI 方面的問題。 | 在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
此錯誤可能由諸多原因所致,例如映像提取問題、控制器 Pod 未就緒,或 MSI 方面的問題。 | 在一段時間後重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
32 | InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
如果服務設定中包含不允許的元件,就可能發生此錯誤。 | 驗證服務設定元件,然後重試。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
33 | InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
此錯誤可能因 HMS、SPARK、YARN 服務未啟動而發生,且可能與儲存有關。 | 向 Azure HDInsight 小組開啟支援票證。 |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
向 Azure HDInsight 小組開啟支援票證。 | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
此錯誤可能因 HMS、SPARK、YARN 服務未啟動而發生,且可能與儲存有關。 | 向 Azure HDInsight 小組開啟支援票證。 |
36 | InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
在服務設定中傳入不支援的檔案時,就可能發生此錯誤。 | 驗證服務設定元件,然後重試。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
無效的驗證參數 – 儲存位置無法存取。 | 更正驗證參數並重試。 如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |
38 | InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
在排程 HMS Pod 時,若 Pod 身分識別資源在節點上啟動耗時過久,就可能發生此錯誤。 | 重試作業,如果問題持續發生,請向 Azure HDInsight 小組開啟支援票證。 |