Freigeben über


Problembehandlung der Azure Kubernetes Service-Sicherung und -Wiederherstellung

Dieser Artikel enthält Schritte zur Problembehandlung, die Ihnen helfen, Fehler bei der Azure Kubernetes Service (AKS)-Sicherung, -Wiederherstellung und -Verwaltung zu beheben.

Fehlerauflösung bei der Installation der AKS-Sicherungserweiterung

Szenario 1

Fehlermeldung:

{Helm installation from path [] for release [azure-aks-backup] failed with the following error: err [release azure-aks-backup failed, and has been uninstalled due to atomic being set: failed post-install: timed out waiting for the condition]} occurred while doing the operation: {Installing the extension} on the config"`

Ursache: Die Erweiterung wird erfolgreich installiert, die Pods werden jedoch nicht erzeugt, da die erforderlichen Ressourcen für Compute und Arbeitsspeicher für die Pods nicht verfügbar sind.

Lösung: Um das Problem zu beheben, erhöhen Sie die Anzahl der Knoten im Cluster, sodass genügend Ressourcen für Compute und Arbeitsspeicher verfügbar sind, damit die Pods erzeugt werden können. Führen Sie die folgenden Schritte aus, um den Knotenpool im Azure-Portal zu skalieren:

  1. Öffnen Sie im Azure-Portal den AKS-Cluster.
  2. Wechseln Sie unter Einstellungen zu Knotenpools.
  3. Wählen Sie Knotenpool skalieren aus, und aktualisieren Sie dann die Minimum- und Maximumwerte für den Knotenanzahlbereich.
  4. Wählen Sie Übernehmen.

Szenario 2

Fehlermeldung:

BackupStorageLocation "default" is unavailable: rpc error: code = Unknown desc = azure.BearerAuthorizer#WithAuthorization: Failed to refresh the Token for request to https://management.azure.com/subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/AzureBackupRG_westeurope_1/providers/Microsoft.Storage/storageAccounts/devhayyabackup/listKeys?%24expand=kerb&api-version=2019-06-01: StatusCode=404 -- Original Error: adal: Refresh request failed. Status Code = '404'. Response body: no azure identity found for request clientID 4e95##### REDACTED #####0777`

Endpoint http://169.254.169.254/metadata/identity/oauth2/token?api-version=2018-02-01&client_id=4e95dcc5-a769-4745-b2d9-

Ursache: Wenn Sie in Ihrem AKS-Cluster verwaltete Podidentitäten aktivieren, wird eine AzurePodIdentityException mit dem Namen aks-addon-exception zum kube-system-Namespace hinzugefügt. Eine AzurePodIdentityException ermöglicht Pods mit bestimmten Bezeichnungen den Zugriff auf den Azure Instance Metadata Service (IMDS)-Endpunkt, ohne dass sie vom NMI-Server abgefangen werden.

Die Erweiterungspods sind nicht ausgenommen und erfordern, dass die Microsoft Entra-Podidentität manuell aktiviert wird.

Lösung: Erstellen Sie eine Podidentitätsausnahme im AKS-Cluster (dies funktioniert nur für den dataprotection-microsoft-Namespace und für nicht kube-system). Weitere Informationen

  1. Führen Sie den folgenden Befehl aus:

    az aks pod-identity exception add --resource-group shracrg --cluster-name shractestcluster --namespace dataprotection-microsoft --pod-labels app.kubernetes.io/name=dataprotection-microsoft-kubernetes
    
  2. Führen Sie den folgenden Befehl aus, um Azurepodidentityexceptions im Cluster zu überprüfen:

    kubectl get Azurepodidentityexceptions --all-namespaces
    
  3. Führen Sie den folgenden Befehl aus, um der Erweiterungsidentität die Rolle Mitwirkender an Storage-Blobdaten zuzuweisen:

    Hinweis

    Stellen Sie sicher, dass Sie die neueste Terraform-Skriptversion verwenden. Weitere Informationen

    az role assignment create --assignee-object-id $(az k8s-extension show --name azure-aks-backup --cluster-name aksclustername --resource-group aksclusterresourcegroup --cluster-type managedClusters --query aksAssignedIdentity.principalId --output tsv) --role 'Storage Blob Data Contributor' --scope /subscriptions/subscriptionid/resourceGroups/storageaccountresourcegroup/providers/Microsoft.Storage/storageAccounts/storageaccountname
    

Szenario 3

Fehlermeldung:

{"Message":"Error in the getting the Configurations: error {Post \https://centralus.dp.kubernetesconfiguration.azure.com/subscriptions/ subscriptionid /resourceGroups/ aksclusterresourcegroup /provider/managedclusters/clusters/ aksclustername /configurations/getPendingConfigs?api-version=2021-11-01\: dial tcp: lookup centralus.dp.kubernetesconfiguration.azure.com on 10.63.136.10:53: no such host}","LogType":"ConfigAgentTrace","LogLevel":"Error","Environment":"prod","Role":"ClusterConfigAgent","Location":"centralus","ArmId":"/subscriptions/ subscriptionid /resourceGroups/ aksclusterresourcegroup /providers/Microsoft.ContainerService/managedclusters/ aksclustername ","CorrelationId":"","AgentName":"ConfigAgent","AgentVersion":"1.8.14","AgentTimestamp":"2023/01/19 20:24:16"}`

Ursache: Für die Verwendung von Clustererweiterungen in den AKS-Clustern sind bestimmte FQDN-/Anwendungsregeln erforderlich. Weitere Informationen

Dieser Fehler tritt aufgrund des Fehlens dieser FQDN-Regeln auf, da Konfigurationsinformationen aus dem Dienst für Clustererweiterungen nicht verfügbar waren.

Lösung: Um das Problem zu beheben, müssen Sie eine benutzerdefinierte CoreDNS-Außerkraftsetzung erstellen, damit der DP-Endpunkt das öffentliche Netzwerk durchläuft.

  1. Rufen Sie vorhandenes, benutzerdefiniertes CoreDNS-YAML in Ihrem Cluster ab (speichern Sie es lokal, damit Sie später wieder darauf zugreifen können):

    kubectl get configmap coredns-custom -n kube-system -o yaml
    
  2. Setzen Sie die Zuordnung des Centralus DP-Endpunkts zur öffentlichen IP-Adresse außer Kraft (verwenden Sie das nachstehende YAML):

    apiVersion: v1
    kind: ConfigMap
    metadata:
      name: coredns-custom 
      namespace: kube-system
    data:
        aksdp.override: |
              hosts { 
                  20.40.200.153 centralus.dp.kubernetesconfiguration.azure.com
                  fallthrough
               }
    

    Führen Sie nun den folgenden Befehl aus, um die YAML-Updatedatei anzuwenden:

    kubectl apply -f corednsms.yaml
    
  3. Führen Sie den folgenden Befehl aus, um das erneute Laden von coredns-Pods zu erzwingen:

    kubectl delete pod --namespace kube-system -l k8s-app=kube-dns
    
  4. Führen Sie den folgenden Befehl aus, um NSlookup aus dem ExtensionAgent-Pod auszuführen, um zu überprüfen, ob coreDNS-custom funktioniert:

    kubectl exec -i -t pod/extension-agent-<pod guid that's there in your cluster> -n kube-system -- nslookup centralus.dp.kubernetesconfiguration.azure.com
    
  5. Führen Sie den folgenden Befehl aus, um die Protokolle des ExtensionAgent-Pods zu überprüfen:

    kubectl logs pod/extension-agent-<pod guid that’s there in your cluster> -n kube-system --tail=200
    
  6. Löschen Sie die Backup-Erweiterung, und installieren Sie diese erneut, um die Sicherung zu initiieren.

Szenario 4

Fehlermeldung:

"message": "Error: [ InnerError: [Helm installation failed : Unable to create/update Kubernetes resources for the extension : Recommendation Please check that there are no policies blocking the resource creation/update for the extension : InnerError [release azure-aks-backup failed, and has been uninstalled due to atomic being set: failed pre-install: job failed: BackoffLimitExceeded]]] occurred while doing the operation : [Create] on the config, For general troubleshooting visit: https://aka.ms/k8s-extensions-TSG, For more application specific troubleshooting visit: Facing trouble? Common errors and potential fixes are detailed in the Kubernetes Backup Troubleshooting Guide, available at https://www.aka.ms/aksclusterbackup",

Der Vorinstallationsauftrag zum Upgraden von CRDs ist im Cluster fehlgeschlagen.

Ursache: Pods kann nicht mit Kube-API-Server kommunizieren

Debuggen

  1. Überprüfen Sie alle Ereignisse im Cluster im Zusammenhang mit dem Pod-Spawn-Problem.
kubectl events -n dataprotection-microsoft
  1. Überprüfen Sie die Pods auf Datenschutz-CRDs.
kubectl get pods -A | grep "dataprotection-microsoft-kubernetes-agent-upgrade-crds"
  1. Überprüfen Sie die Protokolle der Pods.
kubectl logs -f --all-containers=true --timestamps=true -n dataprotection-microsoft <pod-name-from-prev-command>

Beispielprotokollmeldung:

2024-08-09T06:21:37.712646207Z Unable to connect to the server: dial tcp: lookup aks-test.hcp.westeurope.azmk8s.io: i/o timeout
2024-10-01T11:26:17.498523756Z Unable to connect to the server: dial tcp 10.146.34.10:443: i/o timeout

Lösung: In diesem Fall gibt es eine Netzwerk-/Calico-Richtlinie oder NSG, die es den „dataprotection-microsoft“-Pods nicht erlaubt, mit dem API-Server zu kommunizieren. Sie sollten den Dataprotection-Microsoft-Namespace zulassen und dann die Erweiterung erneut installieren.

Szenario 5

Der Erweiterungs-Agent kann nicht mit Datenebenenendpunkten kommunizieren, was dazu führt, dass Sicherungserweiterungspods nicht bereitgestellt werden.

Fehlermeldung: Der Erweiterungs-Agent in Ihrem AKS-Cluster kann keine Verbindung mit Azure Kubernetes Configuration Service Data Plane Endpunkte *.dp.kubernetesconfiguration.azure.com in Ihrer Region herstellen. Dieser Fehler wird durch Überprüfen der Protokolle des extension-agent Pods angezeigt. Wahrscheinlich treten wiederholt 403-Fehler bei Anfragen an Endpunkte der Datenebene auf.

Error code: 403  
Message: This traffic is not authorized

Dies bedeutet in der Regel, dass der Datenverkehr vom Erweiterungs-Agent blockiert wird oder die erforderliche Autorisierung fehlt, um den Azure-Dienst zu erreichen. Dieser Erweiterungs-Agent muss die Sicherungserweiterung im AKS-Cluster installieren und ausführen.

Verursachen Dieser Fehler tritt aufgrund eines Konflikts in der privaten DNS-Auflösung auf, wenn sowohl Azure Arcernetes als auch ein verwalteter AKS-Cluster dasselbe virtuelle Netzwerk (VNet) oder privaten DNS-Server gemeinsam nutzen:

Das freigegebene VNet (oder die private DNS-Zone) enthält einen bereits vorhandenen privaten Endpunkt für Azure Arc-fähige Kubernetes.

Daher wird der vom AKS-Erweiterungs-Agent verwendete Datenpfad-Endpunkt (z. B. *.dp.kubernetesconfiguration.azure.com) in eine private IP-Adresse (z. B. 10.x.x.x) statt der vorgesehenen öffentlichen IP umgewandelt.

Diese Fehlrouting bewirkt, dass der AKS-Erweiterungs-Agent Datenverkehr an einen unbeabsichtigten privaten Endpunkt sendet, was zu 403 nicht autorisierten Fehlern führt. Sie können die aufgelöste IP-Adresse des Datenebenenendpunkts aus Ihrem AKS-Cluster mithilfe des folgenden Befehls überprüfen:

kubectl exec -it -n kube-system extension-agent-<podGuid> --nslookup <region>.dp.kubernetesconfiguration.azure.com

Ersetzen Sie sie region durch Ihre spezifische Azure-Region (z. B. Ost- und Westeuropa).

Auflösung Um dieses Problem zu beheben, berücksichtigen Sie die folgenden Ansätze:

  • Separate VNets verwenden: Falls Sie sowohl Azure Arc-fähige Kubernetes als auch AKS-Cluster verwenden, stellen Sie sie in separaten virtuellen Netzwerken bereit, um DNS-Auflösungskonflikte zu vermeiden, die durch freigegebene private Endpunkte verursacht werden.

  • Konfigurieren der CoreDNS-Außerkraftsetzung: Überschreiben Sie die CoreDNS-Einstellungen in Ihrem AKS-Cluster, um den Endpunkt der Erweiterungsdatenebene explizit in seine öffentliche IP-Adresse aufzulösen. Ausführliche Schritte zum Konfigurieren einer CoreDNS-Außerkraftsetzung für die Erweiterung finden Sie in der Dokumentation zu Szenario 3.

  • Überprüfen der öffentlichen IP-Auflösung: Identifizieren Sie die richtige öffentliche IP-Adresse des Endpunkts der Erweiterungsdatenebene mithilfe des Befehls "nslookup". Ersetzen Sie die Region durch die Region Ihres AKS-Clusters:

nslookup eastus2euap.dp.kubernetesconfiguration.azure.com

Fehler nach der Installation der Backup-Erweiterung

Diese Fehlercodes werden aufgrund von Problemen bei der im AKS-Cluster installierten Backup-Erweiterung angezeigt.

KubernetesBackupListExtensionsError:

Ursache: Beim Sichern eines Tresors im Rahmen einer Überprüfung wird überprüft, ob für den Cluster die Sicherungserweiterung installiert ist. Dazu benötigt die Tresor-MSI eine Leseberechtigung für den AKS-Cluster, sodass alle im Cluster installierten Erweiterungen aufgeführt werden können.

Empfohlene Aktion: Weisen Sie die Leserolle erneut zur Tresor-MSI hinzu (entfernen Sie die vorhandene Rollenzuweisung, und weisen Sie die Leserolle erneut zu), da der zugewiesenen Leserolle die Berechtigung list-extension fehlt. Wenn die Neuzuweisung fehlschlägt, verwenden Sie einen anderen Backup-Tresor, um die Sicherung zu konfigurieren.

UserErrorKubernetesBackupExtensionNotFoundError

Ursache: Beim Sichern eines Tresors im Rahmen einer Überprüfung wird überprüft, ob für den Cluster die Backup-Erweiterung installiert ist. Der Tresor führt einen Vorgang aus, um die im Cluster installierten Erweiterungen aufzulisten. Wenn die Backup-Erweiterung in der Liste nicht vorhanden ist, wird dieser Fehler angezeigt.

Empfohlene Aktion: Verwenden Sie die CLI oder den Azure-Portalclient, um die Erweiterung zu löschen, und installieren Sie die Erweiterung dann erneut.

Benutzerfehler: Kubernetes-Backup-Erweiterung hat Fehler

Ursache: Die im Cluster installierte Backup-Erweiterung weist einige interne Fehler auf.

Empfohlene Aktion: Verwenden Sie die CLI oder den Azure-Portalclient, um die Erweiterung zu löschen, und installieren Sie die Erweiterung dann erneut.

Fehler: Identität der Kubernetes-Backup-Erweiterung nicht gefunden (UserErrorKubernetesBackupExtensionIdentityNotFound)

Ursache: Für die AKS-Sicherung muss eine Backup-Erweiterung im Cluster installiert sein. Für die Erweiterung zusammen mit ihrer Installation wird eine Benutzeridentität erstellt, die als Erweiterungs-MSI bezeichnet wird. Diese MSI wird in der Ressourcengruppe erstellt, die die Knotenpools für den AKS-Cluster umfasst. Diese MSI ruft die erforderlichen Rollen ab, die für den Zugriff auf den Speicherort des Sicherungsspeichers zugewiesen sind. Der Fehlercode deutet darauf hin, dass die Erweiterungsidentität fehlt.

Empfohlene Aktion: Verwenden Sie die CLI oder den Azure-Portalclient, um die Erweiterung zu löschen, und installieren Sie die Erweiterung dann erneut. Zusammen mit der Erweiterung wird eine neue Identität erstellt.

KubernetesBackupCustomResourcesTrackingTimeOutError

Ursache: Azure Backup für AKS erfordert die Installation einer Backup-Erweiterung im AKS-Cluster. Zum Ausführen von Sicherungs- und Wiederherstellungsvorgängen werden benutzerdefinierte Ressourcen im Cluster erstellt. Die von der Erweiterung erzeugten Pods führen Sicherungsvorgänge über diese benutzerdefinierten Ressourcen aus. Dieser Fehler tritt auf, wenn die Erweiterung den Status dieser benutzerdefinierten Ressourcen nicht aktualisieren kann.

Empfohlene Aktion: Die Integrität der Erweiterung muss über die Ausführung des Befehls kubectl get pods -n dataprotection.microsoft überprüft werden. Wenn sich die Pods nicht im Zustand „Wird ausgeführt“ befinden, erhöhen Sie die Anzahl der Knoten im Cluster um 1, oder erhöhen Sie die Computelimits. Warten Sie dann einige Minuten, und führen Sie den Befehl erneut aus. Dadurch sollte der Zustand der Pods in Wird ausgeführt geändert werden. Wenn das Problem weiterhin besteht, löschen Sie die Erweiterung, und installieren Sie sie erneut.

UserErrorBackupPluginPodRestartedDuringBackup

Ursache: Azure Backup für AKS basiert auf Pods, die im AKS-Cluster als Teil der Sicherungserweiterung unter dem Namespace dataprotection-microsoftbereitgestellt werden. Um Sicherungs- und Wiederherstellungsvorgänge auszuführen, weisen diese Pods bestimmte CPU- und Speicheranforderungen auf.

       1. Memory: requests - 128Mi, limits - 1280Mi
       2. CPU: requests - 500m, limits - 1000m

Wenn die Anzahl der Ressourcen im Cluster jedoch 1000 überschreitet, benötigen die Pods möglicherweise über die Standardreservierung hinaus zusätzliche CPU und Arbeitsspeicher. Wenn die erforderlichen Ressourcen die zugewiesenen Grenzwerte überschreiten, tritt möglicherweise ein UserErrorBackupPluginPodRestartedDuringBackup-Fehler aufgrund eines OOMKilled-Fehlers (Out of Memory) während des Sicherungsvorgangs auf.

Empfohlene Aktion: Um erfolgreiche Sicherungs- und Wiederherstellungsvorgänge sicherzustellen, aktualisieren Sie die Ressourceneinstellungen für die Erweiterungs pods manuell, indem Sie die folgenden Schritte ausführen:

  1. Öffnen Sie den AKS-Cluster im Azure-Portal.

    Screenshot des AKS-Clusters im Azure-Portal.

  2. Navigieren Sie im linken Bereich zu Erweiterungen + Anwendungen unter "Einstellungen".

    Screenshot zeigt, wie Erweiterungen + Anwendungen ausgewählt werden.

  3. Klicken Sie auf die Erweiterung mit dem Titel "azure-aks-backup".

    Screenshot zeigt, wie die Einstellungen der Backup-Erweiterung geöffnet werden.

  4. Scrollen Sie nach unten, fügen Sie unter den Konfigurationseinstellungen einen neuen Wert hinzu, und klicken Sie dann auf "Speichern".

    resources.limits.memory : 4400Mi

    Screenshot zeigt, wie Werte unter den Konfigurationseinstellungen hinzugefügt werden.

Nachdem Sie die Änderungen angewendet haben, warten Sie entweder, bis eine geplante Sicherung ausgeführt wird, oder initiieren Sie eine On-Demand-Sicherung. Wenn weiterhin ein OOMKilled-Fehler auftritt, wiederholen Sie die obigen Schritte, und erhöhen Sie die Speichergrenzwerte schrittweise, und wenn sie weiterhin besteht, erhöhen Sie auch den resources.limits.cpu Parameter.

Hinweis

Wenn der Knoten, auf dem der Erweiterungs pod bereitgestellt wird, nicht über die erforderliche CPU oder den erforderlichen Arbeitsspeicher verfügt und Sie nur die Ressourcengrenzwerte aktualisiert haben, wird der Pod möglicherweise wiederholt getötet. Um dies zu beheben, aktualisieren Sie die Konfigurationseinstellungen mithilfe resources.requests.cpu und resources.requests.memory. Dadurch wird sichergestellt, dass der Pod auf einem Knoten geplant ist, der die angeforderten Ressourcenanforderungen erfüllt.

UserErrorBackupPluginPodRestartedDuringRestore

Ursache: Azure Backup für AKS basiert auf Pods, die im AKS-Cluster als Teil der Sicherungserweiterung unter dem Namespace dataprotection-microsoftbereitgestellt werden. Um Sicherungs- und Wiederherstellungsvorgänge auszuführen, weisen diese Pods bestimmte CPU- und Speicheranforderungen auf.

       1. Memory: requests - 128Mi, limits - 1280Mi
       2. CPU: requests - 500m, limits - 1000m

Wenn die Anzahl der Ressourcen im Cluster jedoch 1000 überschreitet, benötigen die Pods möglicherweise über die Standardreservierung hinaus zusätzliche CPU und Arbeitsspeicher. Wenn die erforderlichen Ressourcen die zugewiesenen Grenzwerte überschreiten, tritt möglicherweise ein UserErrorBackupPluginPodRestartedDuringRestore-Fehler aufgrund eines OOMKilled-Fehlers (Out of Memory) während des Wiederherstellungsvorgangs auf.

Empfohlene Aktion: Um erfolgreiche Sicherungs- und Wiederherstellungsvorgänge sicherzustellen, aktualisieren Sie die Ressourceneinstellungen für die Erweiterungs pods manuell, indem Sie die folgenden Schritte ausführen:

  1. Öffnen Sie den AKS-Cluster im Azure-Portal.

    Screenshot des AKS-Clusters im Azure-Portal.

  2. Navigieren Sie im linken Bereich zu Erweiterungen + Anwendungen unter "Einstellungen".

    Screenshot zeigt, wie Erweiterungen + Anwendungen ausgewählt werden.

  3. Klicken Sie auf die Erweiterung mit dem Titel "azure-aks-backup".

    Screenshot zeigt, wie die Einstellungen der Backup-Erweiterung geöffnet werden.

  4. Scrollen Sie nach unten, fügen Sie unter den Konfigurationseinstellungen einen neuen Wert hinzu, und klicken Sie dann auf "Speichern".

    resources.limits.memory : 4400Mi

    Screenshot zeigt, wie Werte unter den Konfigurationseinstellungen hinzugefügt werden.

Nachdem Sie die Änderungen angewendet haben, warten Sie entweder, bis eine geplante Sicherung ausgeführt wird, oder initiieren Sie eine On-Demand-Sicherung. Wenn weiterhin ein OOMKilled-Fehler auftritt, wiederholen Sie die obigen Schritte, und erhöhen Sie die Speichergrenzwerte schrittweise, und wenn sie weiterhin besteht, erhöhen Sie auch den resources.limits.cpu Parameter.

Hinweis

Wenn der Knoten, auf dem der Erweiterungs pod bereitgestellt wird, nicht über die erforderliche CPU oder den erforderlichen Arbeitsspeicher verfügt und Sie nur die Ressourcengrenzwerte aktualisiert haben, wird der Pod möglicherweise wiederholt getötet. Um dies zu beheben, aktualisieren Sie die Konfigurationseinstellungen mithilfe resources.requests.cpu und resources.requests.memory. Dadurch wird sichergestellt, dass der Pod auf einem Knoten geplant ist, der die angeforderten Ressourcenanforderungen erfüllt.

BackupPluginDeleteBackupOperationFailed

Ursache: Die Backup-Erweiterung sollte ausgeführt werden, um die Sicherungen zu löschen.

Empfohlene Aktion: Wenn der Cluster ausgeführt wird, überprüfen Sie, ob die Erweiterung ordnungsgemäß ausgeführt wird. Überprüfen Sie, ob die Erweiterungspods erzeugt werden. Erhöhen Sie andernfalls die Anzahl der Knoten. Wenn dies nicht erfolgreich ist, versuchen Sie, die Erweiterung zu löschen und erneut zu installieren. Wenn der gesicherte Cluster gelöscht wird, löschen Sie die Momentaufnahmen und Metadaten manuell.

ExtensionTimedOutWaitingForBackupItemSync

Ursache: Die Sicherungserweiterung wartet auf die Synchronisierung der Sicherungselemente mit dem Speicherkonto.

Empfohlene Aktion: Wenn dieser Fehlercode angezeigt wird, wiederholen Sie entweder den Sicherungsvorgang, oder installieren Sie die Erweiterung erneut.

Fehler im Zusammenhang mit dem Sicherungsspeicherort

Diese Fehlercodes werden aufgrund von Problemen im Zusammenhang mit der im AKS-Cluster installierten Backup-Erweiterung angezeigt.

UserErrorDeleteBackupFailedBackupStorageLocationReadOnly

Ursache: Das Speicherkonto, das während der Installation der Backup-Erweiterung als Eingabe bereitgestellt wird, hat den Status Schreibgeschützt. Daher können die Sicherungsdaten nicht aus dem Blobcontainer gelöscht werden.

Empfohlene Aktion: Ändern Sie den Status des Speicherkontos von Schreibgeschützt in Schreiben.

UserErrorDeleteBackupFailedBackupStorageLocationNotFound

Ursache: Während der Erweiterungsinstallation muss ein Sicherungsspeicherort als Eingabe bereitgestellt werden, der ein Speicherkonto und einen Blobcontainer enthält. Dieser Fehler wird angezeigt, wenn der Speicherort während der Erweiterungsinstallation gelöscht wird oder falsch hinzugefügt wurde.

Empfohlene Aktion: Löschen Sie die Backup-Erweiterung, und installieren Sie sie anschließend erneut mit dem richtigen Speicherkonto und Blobcontainer als Eingabe.

UserErrorBackupFailedBackupStorageLocationReadOnly

Ursache: Das Speicherkonto, das während der Installation der Backup-Erweiterung als Eingabe bereitgestellt wird, hat den Status Schreibgeschützt. Daher können keine Sicherungsdaten in den Blobcontainer geschrieben werden.

Empfohlene Aktion: Ändern Sie den Status des Speicherkontos von Schreibgeschützt in Schreiben.

BenutzerfehlerKeinStandard-Backup-SpeicherortGefunden

Ursache: Während der Erweiterungsinstallation muss ein Sicherungsspeicherort als Eingabe bereitgestellt werden, der ein Speicherkonto und einen Blobcontainer enthält. Der Fehler wird angezeigt, wenn der Speicherort während der Erweiterungsinstallation gelöscht oder falsch eingegeben wird.

Empfohlene Aktion: Löschen Sie die Backup-Erweiterung, und installieren Sie sie anschließend erneut mit dem richtigen Speicherkonto und Blobcontainer als Eingabe.

UserErrorExtensionMSIMissingPermissionsOnBackupStorageLocation

Ursache: Die Backup-Erweiterung muss über die Rolle Mitwirkender an Storage-Blobdaten für den Sicherungsspeicherort (Speicherkonto) verfügen. Der Erweiterungsidentität wird diese Rolle zugewiesen.

Empfohlene Aktion: Wenn diese Rolle fehlt, verwenden Sie das Azure-Portal oder die CLI, um diese fehlende Berechtigung für das Speicherkonto neu zuzuweisen.

UserErrorBackupStorageLocationNotReady

Ursache: Während der Erweiterungsinstallation muss ein Sicherungsspeicherort als Eingabe bereitgestellt werden, der ein Speicherkonto und einen Blobcontainer enthält. Die Backup-Erweiterung muss über die Rolle Mitwirkender an Storage-Blobdaten für den Sicherungsspeicherort (Speicherkonto) verfügen. Der Erweiterungsidentität wird diese Rolle zugewiesen.

Empfohlene Aktion: Der Fehler wird angezeigt, wenn die Erweiterungsidentität nicht über die erforderlichen Berechtigungen für den Zugriff auf das Speicherkonto verfügt. Dieser Fehler wird angezeigt, wenn die AKS-Sicherungserweiterung beim ersten Konfigurieren des Schutzvorgangs installiert wird. Dies geschieht für die Zeit, die für die Weitergabe der erteilten Berechtigungen an die AKS-Sicherungserweiterung erforderlich ist. Warten Sie als Problemumgehung eine Stunde, und wiederholen Sie die Konfiguration für den Schutz. Verwenden Sie andernfalls das Azure-Portal oder die CLI, um diese fehlende Berechtigung für das Speicherkonto neu zuzuweisen.

UserErrorSnapshotResourceGroupHasLocks

Ursache: Dieser Fehlercode wird angezeigt, wenn eine Lösch- oder Lesesperre auf die Momentaufnahme-Ressourcengruppe angewendet wurde, die als Eingabe für die Sicherungserweiterung bereitgestellt wurde.

Empfohlene Aktion: Falls Sie eine neue Sicherungsinstanz konfigurieren, verwenden Sie eine Ressourcengruppe ohne Lösch- oder Lesesperre. Wenn die Sicherungsinstanz bereits konfiguriert ist, entfernen Sie die Sperre von der Momentaufnahme-Ressourcengruppe.

KubernetesBackupAllgemeineWarnung

Ursache: Dieser Fehlercode gibt an, dass eine Kubernetes-Ressource aufgrund von Überprüfungs- oder Abhängigkeitsproblemen innerhalb des Clusters nicht gesichert oder wiederhergestellt werden konnte.

Ein häufig beobachtetes Szenario ist ein Fehler bei der Wiederherstellung von Ingress-Ressourcen aufgrund von Problemen beim Überprüfen von Webhooks. Ein erforderlicher Dienst (z. B. fabp-ingress-nginx-controller-admission) fehlt, was das ordnungsgemäße Ausführen des Webhooks validate.nginx.ingress.kubernetes.io verhindert. Die Überprüfung der Webhookkonfiguration ist vorhanden, verweist jedoch auf einen nicht vorhandenen oder falsch konfigurierten Dienst. DNS-Lösungsprobleme verhindern, dass der Webhook den beabsichtigten Endpunkt erreicht. Der Cluster verwendet benutzerdefinierte Aufnahmewebhooks, die vor der Wiederherstellung nicht gesichert oder neu erstellt wurden. Die Webhook-Konfiguration ist veraltet oder unnötig für den wiederhergestellten Clusterzustand.

Empfohlene Maßnahme:

  • Überprüfen Sie, ob der fehlende Dienst „fabp-ingress-nginx-controller-admission“ vorhanden ist:

    kubectl get svc -n ingress-basic
    
  • Wenn der Dienst fehlt, überprüfen Sie die Bereitstellungskonfigurationen, und erstellen Sie ihn bei Bedarf neu.

  • Untersuchen sie potenzielle DNS-Lösungsprobleme, indem Sie Folgendes ausführen:

    kubectl get endpoints -n ingress-basic
    
    nslookup fabp-ingress-nginx-controller-admission.ingress-basic.svc.cluster.local
    
  • Wenn die Webhook-Überprüfung nicht erforderlich ist, sollten Sie dies mithilfe der folgenden Schritte entfernen:

    kubectl delete validatingwebhookconfiguration
    
  • Alle Webhookkonfigurationen auflisten mit:

    kubectl get validatingwebhookconfigurations
    
  • Wenn das Problem behoben ist, stellen Sie den Eingangsvorgang manuell wieder her, indem Sie seine YAML-Sicherung anwenden:

    kubectl apply -f
    

Hinweis

Diese Warnung kann aus mehreren Ursachen auftreten. Wenn das Problem durch die oben beschriebenen Schritte nicht behoben wird, wenden Sie sich an die Kubernetes-Controllerprotokolle und die Webhook-Konfiguration, um spezifischere Fehlermeldungen zu erhalten.

Fehler im Zusammenhang mit der Tresorsicherung

Diese Fehlercodes können angezeigt werden, während Sie die AKS-Sicherung zum Speichern von Sicherungen in einem Tresor-Standarddatenspeicher aktivieren.

DppUserErrorVaultTierPolicyNotSupported

Ursache: Dieser Fehlercode wird angezeigt, wenn eine Sicherungsrichtlinie mit Aufbewahrungsregel erstellt wird, die für den Tresor-Standarddatenspeicher für einen Backup-Tresor in einer Region definiert ist, in der dieser Datenspeicher nicht unterstützt wird.

Empfohlene Aktion: Aktualisieren Sie die Aufbewahrungsregel mit der im Azure-Portal definierten Tresorstandarddauer:

  1. Wählen Sie das Symbol Bearbeiten neben der Regel aus.

    Screenshot: Bearbeiten der Aufbewahrungsdauer der AKS-Sicherungen.

  2. Deaktivieren Sie das Kontrollkästchen neben Tresor – Standard, und wählen Sie dann Aktualisieren aus.

    Screenshot: Deaktivieren des Kontrollkästchens für den Tresorstandard.

  3. Erstellen Sie eine Sicherungsrichtlinie für die Sicherung der Betriebsebene (nur Momentaufnahmen für den AKS-Cluster).

Sicherungs- und Wiederherstellungsaufträge in AKS mit Warnungen abgeschlossen

UserErrorPVSnapshotDisallowedByPolicy

Fehlercode: UserErrorPVSnapshotDisallowedByPolicy

Ursache: Eine Azure-Richtlinie wird für ein Abonnement zugewiesen, das den CSI-Treiber beendet, um die Volumemomentaufnahme zu erstellen.

Empfohlene Aktion: Entfernen Sie die Azure-Richtlinie, die den Vorgang für die Datenträgermomentaufnahme beendet, und führen Sie dann eine bedarfsgesteuerte Sicherung aus.

UserErrorPVSnapshotLimitReached

Fehlercode: UserErrorPVSnapshotLimitReached

Ursache: Es gibt eine begrenzte Anzahl von Momentaufnahmen für ein persistentes Volume, die zu einem bestimmten Zeitpunkt vorhanden sein können. Bei auf Azure-Datenträgern basierenden persistenten Volumes beträgt der Grenzwert 500 Momentaufnahmen. Dieser Fehler wird angezeigt, wenn Momentaufnahmen für bestimmte persistente Volumes nicht erstellt werden, weil die Anzahl der vorhandenen Momentaufnahmen die unterstützten Grenzwerte überschreitet.

Empfohlene Aktion: Aktualisieren Sie die Sicherungsrichtlinie, um den Aufbewahrungszeitraum zu verkürzen, und warten Sie, bis der Sicherungstresor ältere Wiederherstellungspunkte löscht.

CSISnapshottingTimedOut

Fehlercode: CSISnapshottingTimedOut

Ursache: Bei der Momentaufnahme ist ein Fehler aufgetreten, da beim CSI-Treiber beim Abrufen des Momentaufnahmehandles ein Timeout auftritt.

Empfohlene Aktion: Überprüfen Sie die Protokolle, und wiederholen Sie den Vorgang, um erfolgreiche Momentaufnahmen zu erhalten, indem Sie eine bedarfsgesteuerte Sicherung ausführen oder auf die nächste geplante Sicherung warten.

UserErrorHookExecutionFailed

Fehlercode: UserErrorHookExecutionFailed

Ursache: Wenn bei Hooks, die zusammen mit Sicherungen und Wiederherstellungen angewendet werden, ein Fehler auftritt und sie daher nicht erfolgreich angewendet werden.

Empfohlene Aktion: Überprüfen Sie die Protokolle, aktualisieren Sie die Hooks, und wiederholen Sie dann den Sicherungs-/Wiederherstellungsvorgang.

UserErrorNamespaceNotFound

Fehlercode: UserErrorNamespaceNotFound

Ursache: In der Sicherungskonfiguration bereitgestellte Namespaces fehlen beim Ausführen von Sicherungen. Entweder wurde der Namespace falsch angegeben oder gelöscht.

Empfohlene Aktion: Überprüfen Sie, ob die zu sichernden Namespaces richtig angegeben wurden.

UserErrorPVCHasNoVolume

Fehlercode: UserErrorPVCHasNoVolume

Ursache: An den Anspruch auf persistentes Volume (Persistent Volume Claim, PVC) im Kontext ist kein persistentes Volume angefügt. Das PVC wird also nicht als Backup gesichert.

Empfohlene Aktion: Fügen Sie ein Volume an den PVC an, wenn er gesichert werden muss.

UserErrorPVCNotBoundToVolume

Fehlercode: UserErrorPVCNotBoundToVolume

Ursache: Der PVC im Kontext befindet sich im Zustand Ausstehend, und an ihn ist kein persistentes Volume angefügt. Das PVC wird also nicht als Backup gesichert.

Empfohlene Aktion: Fügen Sie ein Volume an den PVC an, wenn er gesichert werden muss.

UserErrorPVNotFound

Fehlercode: UserErrorPVNotFound

Ursache: Das zugrunde liegende Speichermedium für das persistente Volume fehlt.

Empfohlene Aktion: Überprüfen Sie ein neues persistentes Volume mit einem tatsächlich angefügten Speichermedium, und fügen sie es entsprechend an.

UserErrorStorageClassMissingForPVC

Fehlercode: UserErrorStorageClassMissingForPVC

Ursache: Die AKS-Sicherung überprüft die verwendete Speicherklasse und überspringt das persistente Volume bei der Erstellung von Momentaufnahmen, da die Klasse nicht verfügbar ist.

Empfohlene Aktion: Aktualisieren Sie die PVC-Spezifikationen mit der verwendeten Speicherklasse.

UserErrorSourceandTargetClusterCRDVersionMismatch

Fehlercode: UserErrorSourceandTargetClusterCRDVersionMismatch

Ursache: Der AKS-Quellcluster und der AKS-Zielcluster weisen während der Wiederherstellung unterschiedliche Versionen von FlowSchema- und PriorityLevelConfigurations-CRs auf. Einige Kubernetes-Ressourcen werden aufgrund des Konflikts bei den Clusterversionen nicht wiederhergestellt.

Empfohlene Aktion: Verwenden Sie dieselbe Clusterversion für den Zielcluster wie für den Quellcluster, oder wenden Sie die CRs manuell an.

Verknüpfte Autorisierung fehlgeschlagen

Fehlercode: LinkedAuthorizationFailed

Ursache: Zum Ausführen eines Wiederherstellungsvorgangs muss der Benutzer über eine Leseberechtigung für den gesicherten AKS-Cluster verfügen.

Empfohlene Aktion: Weisen Sie die Rolle „Leser“ für den AKS-Quellcluster zu, und fahren Sie dann mit der Ausführung des Wiederherstellungsvorgangs fort.

Nächste Schritte