Compartir a través de


Restauración del estado de los clústeres de Kubernetes después de un desastre

Se aplica a: AKS en Azure Local 22H2, AKS en Windows Server

En AKS en Azure Local o Windows Server, el clúster de administración se implementa como una sola máquina virtual independiente (VM) por implementación, lo que lo convierte en un único punto de error. Es importante tener en cuenta que una interrupción del clúster de administración no afecta a las aplicaciones que se ejecutan en los clústeres de cargas de trabajo. Cuando se produce un error en la máquina virtual del clúster de administración, los clústeres de carga de trabajo (y las cargas de trabajo) continúan ejecutándose, pero no puede realizar operaciones de día 2. Por ejemplo, no puede crear nuevos clústeres de carga de trabajo, crear o escalar un grupo de nodos ni actualizar las versiones de Kubernetes hasta que se restaure la máquina virtual.

El clúster de administración es una máquina virtual de la que se realiza un seguimiento en clústeres de conmutación por error de Windows. También es resistente a las interrupciones de nivel de host. En otras palabras, durante un error de máquina host, la agrupación en clústeres de conmutación por error de Windows reinicia la máquina virtual en un equipo host correcto. En este artículo se proporcionan instrucciones sobre cómo realizar las siguientes tareas:

  • Restaure el estado de AKS en el nuevo hardware (podría ser un sitio nuevo).
  • Recuperarse de daños en el clúster de administración.

En cualquiera de estos escenarios, debe volver a crear el clúster de administración y todos los clústeres de carga de trabajo.

Restauración del estado de AKS en un nuevo hardware o en un sitio nuevo

La recuperación del estado de los clústeres de Kubernetes requiere que tenga un clúster de administración disponible en el nuevo hardware o en la nueva ubicación.

  • AKS admite la copia de seguridad de clústeres de Kubernetes en Azure Blob Storage y MinIO mediante Velero. Microsoft recomienda realizar copias de seguridad de Azure Storage porque proporciona 3 copias redundantes de datos en la región de almacenamiento principal.
  • Considere la posibilidad de ejecutar la copia de seguridad en un trabajo cron para asegurarse de que las copias de seguridad disponibles cumplen los objetivos de punto de recuperación.

Requisitos previos

Prepare el modo de espera en frío antes de un desastre mediante la creación de un clúster de administración y un clúster de carga de trabajo vacío. Necesita un clúster de carga de trabajo vacío para cada clúster de Kubernetes que quiera restaurar a partir de la copia de seguridad. Se necesitan los siguientes requisitos previos:

Recuperación ante daños en el clúster de administración

La recuperación de daños en un clúster de administración requiere desinstalar AKS y volver a instalar el clúster de administración y todos los clústeres de cargas de trabajo. Los clústeres de cargas de trabajo se pueden restaurar en clústeres de cargas de trabajo vacíos de las copias de seguridad de Velero.

Se necesitan los siguientes requisitos previos:

  • Copias de seguridad del clúster de cargas de trabajo: copia de seguridad y restauración de clústeres de cargas de trabajo mediante Velero.
  • Copia de seguridad de la configuración de AKS para la configuración anterior de redes, almacenamiento y clústeres. La configuración del clúster incluye tamaños y recuentos de máquinas virtuales de plano de control, equilibrador de carga y nodo de trabajo. Por ejemplo, si el clúster anterior tenía 3 Standard_A2_V2 máquinas virtuales del plano de control, debe crear 3 máquinas virtuales del plano de control en el nuevo entorno.

Para recuperarse de daños en el clúster de administración, realice los pasos siguientes:

  • Desinstalar AKS: Uninstall-AksHci.
  • Instale un nuevo clúster de administración de AKS mediante los pasos 1 a 5 de este artículo: Uso de PowerShell para configurar Kubernetes en clústeres de AKS.
  • Cree el clúster de cargas de trabajo con grupos de nodos necesarios mediante el paso 6 de este artículo. Necesita un clúster de cargas de trabajo independiente para cada clúster de carga de trabajo que restaure a partir de la copia de seguridad.
  • Puede configurar varias máquinas virtuales del plano de control y máquinas virtuales del equilibrador de carga durante la creación del clúster de carga de trabajo mediante este artículo: New-AksHciCluster para AKS.
  • Configure el almacenamiento necesario:
    • Para SMB: use controladores de archivos de la interfaz de almacenamiento de contenedor (CSI).
    • Para el almacenamiento local: use controladores de disco de la interfaz de almacenamiento de contenedor (CSI).
  • Restaure todos los clústeres de cargas de trabajo a partir de la copia de seguridad.

Preguntas más frecuentes

¿Qué resistencia se integra en el clúster de administración?

Cada implementación de AKS incluye un clúster de administración que es una sola máquina virtual independiente. Para lograr resistencia y alta disponibilidad, AKS se basa en clústeres de conmutación por error de Windows para recuperar la máquina virtual si se produce una interrupción.

Una interrupción del clúster de administración no afecta a las aplicaciones que se ejecutan en clústeres de cargas de trabajo. Cuando la máquina virtual del clúster de administración deja de funcionar, esto afecta a la capacidad de realizar operaciones del día 2 de AKS, como crear nuevos clústeres de cargas de trabajo, crear o escalar grupos de nodos, actualizar versiones de Kubernetes, etc., hasta que se recupere la máquina virtual. En los casos en los que no pueda recuperarse de un error de clúster de administración, se recomienda ponerse en contacto con Soporte técnico de Microsoft.

¿Qué se incluye en una copia de seguridad de Velero?

Nombre de archivo Descripción del contenido
*-csi-volumesnapshotclasses.json.gz Los archivos que contienen csi son las instantáneas de volumen persistentes.
*-csi-volumesnapshotcontents.json.gz Los archivos que contienen csi son instantáneas de volumen persistentes.
*-csi-volumesnapshots.json.gz Los archivos que contienen csi son las instantáneas de volumen persistentes.
*-logs.gz Salida del registro de la operación de copia de seguridad. Mismos datos de la ejecución: velero backup log <backupname>.
*-podvolumebackups.json.gz Metadatos sobre los pods y los volúmenes persistentes.
*-resource-list.json.gz Los recursos contenidos en una copia de seguridad se muestran en este archivo.
*-volumesnapshots.json.gz Metadatos sobre los pods y los volúmenes persistentes.
*.tar.gz Metadatos: espacio de nombres, número de réplicas de pod, memoria, cpu. Los mismos datos que se devuelven de: kubectl get deployment.

¿Qué no se incluye en las copias de seguridad de Velero?

La copia de seguridad de Velero no incluye los siguientes elementos:

  • Configuración del clúster de administración (AKS)
  • Metadatos de máquina virtual del plano de control (servidor de API)
  • Metadatos del equilibrador de carga (proxy de alta disponibilidad)
  • Configuración de red
  • Configuración de almacenamiento

Cómo realizar una copia de seguridad de la configuración de AKS antes de un desastre?

Para realizar una copia de seguridad de la configuración del clúster de administración, abra una ventana de PowerShell y ejecute el siguiente comando:

Get-AksHciConfig | ConvertTo-Json 

Cómo asegúrese de que el clúster de cargas de trabajo tiene la misma configuración que antes de un desastre?

Para realizar una copia de seguridad de la configuración del clúster de carga de trabajo, abra una ventana de PowerShell y ejecute el siguiente comando:

Get-AksHciCluster -name <cluster name> | ConvertTo-Json 

Pasos siguientes