Fehler bei der Clustererstellung in Azure HDInsight auf AKS
Hinweis
Azure HDInsight on AKS wird am 31. Januar 2025 eingestellt. Vor dem 31. Januar 2025 müssen Sie Ihre Workloads zu Microsoft Fabric oder einem gleichwertigen Azure-Produkt migrieren, um eine abruptes Beendigung Ihrer Workloads zu vermeiden. Die verbleibenden Cluster in Ihrem Abonnement werden beendet und vom Host entfernt.
Bis zum Einstellungsdatum ist nur grundlegende Unterstützung verfügbar.
Wichtig
Diese Funktion steht derzeit als Vorschau zur Verfügung. Die zusätzlichen Nutzungsbedingungen für Microsoft Azure-Vorschauen enthalten weitere rechtliche Bestimmungen, die für Azure-Features in Betaversionen, in Vorschauversionen oder anderen Versionen gelten, die noch nicht allgemein verfügbar gemacht wurden. Informationen zu dieser spezifischen Vorschau finden Sie unter Informationen zur Vorschau von Azure HDInsight on AKS. Bei Fragen oder Funktionsvorschlägen senden Sie eine Anfrage an AskHDInsight mit den entsprechenden Details, und folgen Sie uns für weitere Updates in der Azure HDInsight-Community.
In diesem Artikel wird beschrieben, wie Sie Fehler beheben, die auftreten können, wenn Sie Azure HDInsight auf AKS-Clustern erstellen.
Sr. Nein | Fehlermeldung | Ursache | Lösung |
---|---|---|---|
1 | InternalServerError UnrecognizableError | Dieser Fehler könnte auf eine falsche Vorlage hinweisen. Derzeit sind Datenbankconnectors nur über ARM-Vorlage zulässig. Daher ist die Überprüfung der Konfiguration für die Vorlage nicht möglich. | |
2 | InvalidClusterSpec - ServiceDependencyFailure - Ungültige Konfiguration | Maximaler Arbeitsspeicher pro Knotenfehler. | Verweisen Sie auf die Werttypen der maximalen Speicherkonfigurationseigenschaften. |
3 | WaitingClusterResourcesReadyTimeOut - Metastoreservice ungelesen | Dieser Fehler kann auf den Containernamen zurückzuführen sein, darf nur Kleinbuchstaben, Zahlen und Bindestriche enthalten. Der Containername muss mit einem Buchstaben oder einer Zahl beginnen. | Vor und nach jedem Bindestrich darf kein Bindestrich stehen. Der Name muss außerdem zwischen 3 und 63 Zeichen lang sein. |
4 | InvalidClusterSpec - Ungültige Konfiguration - ClusterUpsertActivity | Fehler: Ungültige Konfigurationseigenschaft hive.metastore.uri: may not be null . |
Weitere Informationen finden Sie in der Dokumentation zum Strukturconnector. |
5 | InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
Wiederholen Sie den Vorgang, oder öffnen Sie ein Supportticket für das Azure HDInsight-Team. | |
6 | InternalServerError - ObjectDisposedException tritt im RP-Code auf. |
Wiederholen Sie den Vorgang, oder öffnen Sie ein Supportticket für das Azure HDInsight-Team. | |
7 | PreconditionFailed – Vorgangsfehler aufgrund von Kontingentbeschränkungen für das Benutzerabonnement. |
Es gibt eine Kontingentüberprüfung vor der Clustererstellung. Wenn jedoch mehrere Cluster gleichzeitig unter demselben Abonnement erstellt werden, ist es möglich, dass das erste Cluster das Kontingent belegt und das andere aufgrund des Kontingentmangels fehlschlägt. | Vergewissern Sie sich, dass genügend Kontingent vorhanden ist, und versuchen Sie die Erstellung von Cluster-/Clusterpools erneut. |
8 | ReconcileApplicationSecurityGroupError - Interner AKS-Fehler |
Wiederholen Sie den Vorgang, oder öffnen Sie ein Supportticket für das Azure HDInsight-Team. | |
9 | ResourceGroupBeingDeleted |
Während der HDI bei der Erstellung oder Aktualisierung von AKS-Ressourcen löscht der Benutzer auch einige Ressourcen in verwandten Ressourcengruppen. | Löschen Sie keine Ressourcen in HDI-bezogenen Ressourcengruppen, während HDI für AKS-Ressourcen erstellt oder aktualisiert werden. |
10 | UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
AKS-Problem – könnte auf hohen Datenverkehr in einer bestimmten Region zum Zeitpunkt des Betriebs zurückzuführen sein. | Wiederholen Sie den Vorgang nach einiger Zeit. Verwenden Sie nach Möglichkeit eine andere Region. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
Das 1-p-Dienstprinzip ist nicht an den Mandanten angefügt. | Führen Sie den Befehl aus, um das 1-p-Dienstprinzip für den neuen Mandanten zum Onboarding bereitzustellen. |
12 | NotFound - ARM/AKS sdk error |
Der Benutzer versucht, HDI auf AKS-Cluster zu aktualisieren, der entsprechende Agentpool wurde jedoch gelöscht. | Der entsprechende Agentpool wurde gelöscht. Es wird nicht empfohlen, den AKS-Agentpool direkt zu betreiben. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
Fehlende Berechtigung zum Ausführen des Vorgangs. | Überprüfen Sie, ob die in der Fehlermeldung erwähnte Dienstprinzip-App-ID, die Ihnen gehört, enthalten ist. Wenn ja, erteilen Sie die Berechtigung gemäß der Fehlermeldung. Wenn nein, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP wurde unerwartet zu einer neuen Rolleninstanz gewechselt. | Wiederholen Sie den Vorgang, oder öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
Fehler bei einem Datenbankvorgang auf der AKS-Seite während der Clusteraktualisierung. | Wiederholen Sie den Vorgang nach einiger Zeit. Wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
Dieser Fehler wurde aufgrund verschiedener Probleme verursacht. | Wiederholen Sie den Vorgang, oder öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
Dieser Fehler wurde aufgrund verschiedener Probleme verursacht. | Wiederholen Sie den Vorgang nach einiger Zeit. Wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
18 | InternalServerError - Null reference exception occurs in RP code . |
Dieser Fehler wurde aufgrund verschiedener Probleme verursacht. | Wiederholen Sie den Vorgang, oder öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
Dieser Fehler wurde aufgrund verschiedener Probleme verursacht. | Wiederholen Sie den Vorgang, oder öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
Dieser Fehler wurde aufgrund verschiedener Probleme verursacht. | Wiederholen Sie den Vorgang, oder öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
Ein anderer Agentpoolvorgang (Skalierung) wird ausgeführt. Dieser Fehler wurde aufgrund eines RP Service Fabric-Neustarts verursacht. | Warten Sie, bis der vorherige Vorgang abgeschlossen ist, bevor Sie einen neuen Vorgang starten. Wenn das Problem nach dem Wiederholen weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
22 | ReconcileVMSSAgentPoolFailed |
Es gibt eine Kontingentüberprüfung vor der Clustererstellung. Wenn jedoch mehrere Cluster gleichzeitig unter demselben Abonnement erstellt werden, ist es möglich, dass das erste Cluster das Kontingent belegt und andere aufgrund des Kontingentmangels fehlschlagen. | Vergewissern Sie sich, dass genügend Kontingent vorhanden ist, und versuchen Sie die Erstellung von Cluster-/Clusterpools erneut. |
23 | ReconcileVMSSAgentPoolFailed – Ausgehende Verbindungen von Agents können nicht hergestellt werden |
AKS/VMSS -Nebenproblem: Die VM hat einen Fehler gemeldet. |
Wiederholen Sie den Vorgang nach einiger Zeit. Wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
Dieser Fehler wurde aufgrund eines vorübergehenden SQL-Verbindungsproblems verursacht. | Wiederholen Sie den Vorgang nach einiger Zeit. Wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
25 | NotLatestOperation - ARM/AKS SDK error |
Der Vorgang kann nicht fortgesetzt werden. Entweder wurde der Vorgang von einem anderen Vorgang verdrängt, oder die vom Vorgang benötigten Informationen konnten nicht gespeichert werden (oder wurden noch nicht gespeichert). | Wiederholen Sie den Vorgang nach einiger Zeit. Wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
Es gab ein Problem mit dem Verkleinerungsvorgang. | Öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
27 | ResourceNotFound - ARM/AKS SDK error |
Dieses Fehlerproblem tritt auf, wenn eine erforderliche Ressource vom Benutzer entfernt/gelöscht wurde. | Stellen Sie sicher, dass die in der Fehlermeldung erwähnte Ressource vorhanden ist, und wiederholen Sie dann den Vorgang. Wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
28 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
Die HMS-Initialisierung kann aufgrund von SQL Server- oder Speicherproblemen zu einem Timeout führen. | Öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
29 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
Dieser Fehler kann auftreten, weil nicht auf keyvault zugegriffen werden kann oder der geheime Schlüssel nicht verfügbar ist. In einigen seltenen Fällen kann dieser Fehler auf eine langsamere Initialisierung der Pod-Identität Infra auf den Clusterknoten zurückzuführen sein. |
Wenn Log Analytics aktiviert ist, überprüfen Sie die Protokolle von secretprovider-validate job , um den Grund zu identifizieren. Wiederholen Sie den Vorgang nach einiger Zeit; wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
Dieser Fehler kann aus verschiedenen Gründen auftreten, z. B. als Image Pull-Problem oder Controller-Pods, die nicht bereit sind, oder aufgrund eines Problems mit MSI. | Versuchen Sie den Vorgang nach einiger Zeit erneut; wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
Dieser Fehler kann aus verschiedenen Gründen auftreten, z. B. als Image Pull-Problem oder Controller-Pods, die nicht bereit sind, oder aufgrund eines Problems mit MSI. | Versuchen Sie den Vorgang nach einiger Zeit erneut; wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
32 | InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
Dieser Fehler kann auftreten, wenn die Dienstkonfiguration aus Komponenten besteht, die nicht zulässig sind. | Überprüfen Sie die Dienstkonfigurationskomponenten, und wiederholen Sie den Vorgang. Wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
33 | InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
Dieser Fehler kann auftreten, weil HMS,SPARK,YARN-Dienste nicht aktiv sind, dieser Fehler könnte sich auf den Speicher beziehen. | Öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Öffnen Sie ein Supportticket für das Azure HDInsight-Team. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
Dieser Fehler kann auftreten, weil HMS,SPARK,YARN-Dienste nicht aktiv sind, dieser Fehler könnte sich auf den Speicher beziehen. | Öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
36 | InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
Dieser Fehler kann auftreten, wenn nicht unterstützte Dateien in der Dienstkonfiguration übergeben werden. | Überprüfen Sie die Dienstkonfigurationskomponenten, und wiederholen Sie den Vorgang. Wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
Ungültige Authentifizierungsparameter – auf den Speicherort kann nicht zugegriffen werden. | Korrigieren Sie die Authentifizierungsparameter, und wiederholen Sie den Vorgang. Wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |
38 | InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
Dieser Fehler kann auftreten, wenn die Pod-Identitätsressourcen zu lange dauern, bis sie auf dem Knoten gestartet werden, wenn HMS-Pod geplant ist. | Versuchen Sie den Vorgang erneut, wenn das Problem weiterhin besteht, öffnen Sie ein Supportticket für das Azure HDInsight-Team. |