Confiabilidad en Azure Database for PostgreSQL

Azure Database for PostgreSQL es un servicio de base de datos totalmente administrado que proporciona control y flexibilidad pormenorizados sobre las funciones de administración de bases de datos y las opciones de configuración. El servicio proporciona funcionalidades de alta disponibilidad y recuperación ante desastres en función de sus requisitos.

Cuando se usa Azure, la confiabilidad es una responsabilidad compartida. Microsoft proporciona una variedad de funcionalidades para admitir resistencia y recuperación. Es responsable de comprender cómo funcionan esas funcionalidades dentro de todos los servicios que usa y de seleccionar las funcionalidades que necesita para cumplir los objetivos empresariales y los objetivos de tiempo de actividad.

En este artículo se describe cómo hacer que Azure Database for PostgreSQL sea resistente a diversas interrupciones y problemas potenciales, incluidos fallos transitorios, interrupciones de zonas de disponibilidad, interrupciones regionales y tareas de mantenimiento del servicio. También se describe cómo puede usar copias de seguridad para recuperarse de otros tipos de problemas y se resalta información clave sobre el acuerdo de nivel de servicio (SLA) de Azure Database for PostgreSQL.

Recomendaciones de implementación de producción

Para obtener información sobre cómo implementar Azure Database for PostgreSQL para admitir los requisitos de confiabilidad de la solución y cómo afecta la confiabilidad a otros aspectos de la arquitectura, consulte Procedimientos recomendados de arquitectura para Azure Database for PostgreSQL en Azure Well-Architected Framework.

Introducción a la arquitectura de confiabilidad

En esta sección se describen algunos de los aspectos importantes de cómo funciona el servicio que es más relevante desde una perspectiva de confiabilidad. En la sección se presenta la arquitectura lógica, que incluye algunos de los recursos y características que se implementan y usan. También se describe la arquitectura física, que proporciona detalles sobre cómo funciona el servicio en segundo plano.

Arquitectura lógica

Al trabajar con Azure Database for PostgreSQL, se implementa un servidor, que representa los recursos de proceso y almacenamiento necesarios para admitir las bases de datos que se implementan en el servidor.

Puede implementar servidores en varios niveles de computación: de ráfaga, de propósito general y optimizado para memoria. Cada nivel está optimizado para diferentes tipos de cargas de trabajo. En algunas regiones de Azure, puede implementar servidores con Azure Confidential Computing.

Para obtener más información sobre la arquitectura general del servicio y los modelos de implementación, consulte Azure Database for PostgreSQL información general.

Arquitectura física

Separación de proceso y almacenamiento: Azure Database for PostgreSQL usa una arquitectura de separación de proceso y almacenamiento para admitir la alta disponibilidad. El motor de base de datos se ejecuta en una máquina virtual Linux, mientras que Azure Storage contiene los archivos de datos y mantiene tres copias sincrónicas con redundancia local de los archivos de base de datos para garantizar la durabilidad de los datos.
Alta disponibilidad: Puede habilitar una configuración de alta disponibilidad en el servidor. Al habilitar la configuración de alta disponibilidad, el servicio aprovisiona y mantiene un servidor en espera activo. El servidor principal replica de forma sincrónica los cambios de datos en el servidor en espera para garantizar una pérdida de datos cero durante un error del servidor principal.

La arquitectura separa la capa de proceso de la capa de almacenamiento, por lo que el servicio puede controlar los distintos tipos de errores de forma adecuada. Para lograr una mayor resistencia, puede distribuir los servidores entre zonas de disponibilidad.

Diagrama que muestra la arquitectura de alta disponibilidad para Azure Database for PostgreSQL. Dos servidores están en paralelo. A la izquierda se muestra un cuadro con la etiqueta servidor principal y dentro de ese cuadro es una máquina virtual y un disco. A la derecha hay un recuadro similar etiquetado como «servidor en espera» que también contiene una máquina virtual y un disco. Una flecha horizontal apunta desde el servidor principal de la izquierda al servidor en espera de la derecha y la flecha se etiqueta como replicación de streaming, lo que indica una relación unidireccional donde los cambios de datos fluyen del servidor principal al servidor en espera.

Un servidor en espera se implementa en la misma configuración de máquina virtual que el servidor principal, incluidos los núcleos virtuales, el almacenamiento y la configuración de red.

Puede cambiar entre servidores mediante la realización de una conmutación por error. Existen dos tipos de conmutación por error: las conmutaciones por error forzadas, que se usan cuando se produce un error en el servidor principal y las conmutaciones por error planeadas, que se usan durante algunas operaciones de mantenimiento y en otros escenarios en los que es necesario minimizar el tiempo de inactividad de la aplicación durante una conmutación por error.

Al realizar operaciones como detener, iniciar y reiniciar, se producen en servidores de bases de datos principales y en espera al mismo tiempo. Los eventos planeados, como el escalado de proceso y el escalado de almacenamiento, se producen primero en espera y, a continuación, en el servidor principal. Actualmente, el servidor no conmuta por error para estas operaciones planeadas.

Para más información, consulte Alta disponibilidad en Azure Database for PostgreSQL.
Copias de seguridad: Azure Database for PostgreSQL crea automáticamente copias de seguridad del servidor. Para obtener más información, consulte Copia de seguridad y restauración.

Resistencia a errores transitorios

Los errores transitorios son errores breves e intermitentes en los componentes. Se producen con frecuencia en un entorno distribuido como la nube y son una parte normal de las operaciones. Los errores transitorios se corrigen después de un breve período de tiempo. Es importante que las aplicaciones puedan controlar errores transitorios, normalmente mediante el reintento de solicitudes afectadas.

Todas las aplicaciones hospedadas en la nube deben seguir las instrucciones de control de errores transitorios de Azure cuando se comunican con cualquier API, bases de datos y otros componentes hospedados en la nube. Para obtener más información, consulte Recomendaciones para controlar errores transitorios.

Las aplicaciones deben controlar los errores de conectividad transitorios que pueden producirse durante el mantenimiento, las operaciones de escalado o las interrupciones de red. Siga estas recomendaciones:

Cuando la aplicación encuentre errores transitorios, vuelva a intentar la operación mediante retroceso exponencial. Aumente el retraso entre reintentos y limite el número de intentos. Si la operación sigue produciendo un error después de los reintentos máximos, considérela un fracaso.
Siempre que sea posible, use bibliotecas cliente (también denominadas controladores) que controlen automáticamente los reintentos.
Los errores transitorios que se producen durante las operaciones de escritura requieren una consideración más cuidadosa. Considere la posibilidad de hacer que las operaciones de escritura sean idempotentes, por lo que se pueden ejecutar de forma segura varias veces.

Para más información, consulte Control de errores de conectividad transitorios en Azure Database for PostgreSQL.

Resistencia a errores de zona de disponibilidad

Las zonas de disponibilidad son grupos físicamente independientes de centros de datos dentro de una región de Azure. Cuando una zona falla, los servicios pueden transferirse a una de las zonas restantes.

Seleccione el tipo de compatibilidad con zonas de disponibilidad mediante la configuración de alta disponibilidad. Al habilitar la alta disponibilidad, el servicio implementa un servidor en espera junto con el servidor principal. Este modelo de alta disponibilidad ayuda a garantizar que los datos confirmados nunca se pierdan durante los errores. Sea cual sea el modelo de implementación de alta disponibilidad que utilice su servidor, confirma de forma síncrona los datos tanto en el servidor principal como en el servidor en espera. Si se produce una interrupción en el servidor principal, se conmuta automáticamente al servidor de respaldo.

Cada zona de disponibilidad almacena archivos de datos y registros de escritura anticipada (WAL) en discos administrados Premium con almacenamiento con redundancia local (LRS) que almacena automáticamente tres copias de datos dentro de cada zona.

Azure Database for PostgreSQL admite dos tipos de configuración de zona de disponibilidad cuando se usa alta disponibilidad:

Alta disponibilidad con redundancia de zona: La redundancia de zona proporciona el nivel más alto de resistencia de zona mediante la implementación de un servidor principal en una zona de disponibilidad y un servidor en espera en una zona de disponibilidad diferente. El servidor en espera usa la configuración de proceso, almacenamiento y red similar a la del servidor principal. Una configuración con redundancia de zona proporciona aislamiento físico de toda la pila entre los servidores principal y en espera.

Puede seleccionar las zonas de disponibilidad para los servidores principales y en espera o permitir que Microsoft los elija.

Se recomiendan implementaciones con redundancia de zona para servidores de producción.

Diagrama que muestra una configuración de Azure Database for PostgreSQL con redundancia entre zonas, distribuida en distintas zonas de disponibilidad. Se muestran tres zonas en la parte superior: zona de disponibilidad 1, zona de disponibilidad 2 y zona de disponibilidad 3. En la zona de disponibilidad 1, hay un cuadro con la etiqueta servidor principal, y dentro de ese cuadro es una máquina virtual y un disco, en el que se muestra que el servidor principal consta de proceso y almacenamiento. En la zona de disponibilidad 2, hay un recuadro similar etiquetado como «servidor en espera» que también contiene una máquina virtual y un disco. Entre estos dos cuadros de servidor, hay una flecha que apunta a la derecha con la etiqueta de replicación de streaming, en la que se muestra que los cambios de datos fluyen desde el servidor principal de la izquierda al servidor en espera a la derecha. El diseño comunica la resiliencia entre zonas: la instancia principal y la de respaldo están separadas en dos zonas de disponibilidad, mientras que la zona de disponibilidad 3 permanece sin utilizar.

Las operaciones de escritura pueden experimentar un pequeño aumento de la latencia de confirmación porque el servicio replica de forma sincrónica los datos en el servidor en espera. El impacto varía según la carga de trabajo, la SKU seleccionada y la región.
Alta disponibilidad zonal (misma zona): Los servidores principales y en espera usan la misma zona de disponibilidad. Si se produce una interrupción en el servidor principal, pero la zona sigue operativa, el servidor conmuta automáticamente al servidor en espera. Una implementación zonal proporciona alta disponibilidad dentro de una sola zona de disponibilidad. Protege contra errores de nivel de nodo y también ayuda a reducir el tiempo de inactividad de la aplicación durante los eventos de tiempo de inactividad planeados y no planeados. Sin embargo, no protege contra una interrupción en esa zona.

Diagrama que muestra una configuración de Azure Database for PostgreSQL zonal en una sola zona de disponibilidad. Se muestran tres zonas: zona de disponibilidad 1, zona de disponibilidad 2 y zona de disponibilidad 3. En la zona de disponibilidad 1, hay dos cajas una al lado de la otra. El cuadro de la izquierda se etiqueta como servidor principal y dentro de ese cuadro es una máquina virtual y un disco. El cuadro de la derecha está etiquetado como servidor en espera y dentro de ese cuadro es una máquina virtual y un disco. Entre estos dos cuadros de servidor, hay una flecha que apunta a la derecha con la etiqueta de replicación de streaming, en la que se muestra que los cambios de datos fluyen desde el servidor principal de la izquierda al servidor en espera a la derecha. Ambos servidores están en la misma zona de disponibilidad. La zona de disponibilidad 2 y la zona de disponibilidad 3 no se usan.

La alta disponibilidad zonal (misma zona) solo está disponible en las situaciones siguientes:
- La región no admite zonas de disponibilidad. La región funciona eficazmente como una sola zona, por lo que la única configuración de alta disponibilidad que puede seleccionar es la misma zona.
- Si una región no tiene capacidad suficiente para una implementación con redundancia de zona, el servicio puede colocar inicialmente ambos servidores en la misma zona de disponibilidad y, a continuación, migrarlos automáticamente a zonas independientes cuando la capacidad esté disponible. Esta opción está disponible cuando se usa Azure Portal o la CLI de Azure para implementar un servidor. Para obtener más información, consulte Configuración de opciones críticas para la empresa (alta disponibilidad).
Colocar los servidores en la misma zona puede reducir la latencia de escritura en las aplicaciones que implemente dentro de la misma zona.

Cuando los servidores están en la misma zona, se puede reducir la latencia de escritura en las aplicaciones que implemente dentro de la misma zona.

Si configura el servidor sin alta disponibilidad, se ejecuta en un solo servidor. Si ese servidor o su zona deja de funcionar, el servidor no está disponible. Para obtener más información, consulte Configuraciones sin zonas de disponibilidad.

Requisitos

Compatibilidad regional: Azure Database for PostgreSQL admite configuraciones de zona de disponibilidad de manera diferente según las regiones de Azure. Para obtener una lista completa de las regiones, los tipos de compatibilidad con las zonas de disponibilidad y las consideraciones específicas de cada región, consulte Regiones de Azure.
Nivel de proceso: En la tabla siguiente se muestra la compatibilidad con el nivel de proceso para cada tipo de compatibilidad con zonas de disponibilidad:

Nivel de computación Con redundancia de zona Zonal (misma zona)

Ampliable No soportado No soportado

General Purpose Soportado Soportado

Memoria optimizada Soportado Soportado
Nivel de servicio: Ambos tipos de alta disponibilidad requieren niveles de uso general o Optimizado para memoria.

Nivel de computación	Con redundancia de zona	Zonal (misma zona)
Ampliable	No soportado	No soportado
General Purpose	Soportado	Soportado
Memoria optimizada	Soportado	Soportado

Consideraciones

Capacidad de región: Si una región no tiene capacidad suficiente para una implementación con redundancia de zona, el servicio puede colocar inicialmente ambos servidores en la misma zona de disponibilidad y migrarlos automáticamente a zonas independientes cuando la capacidad esté disponible. Esta opción está disponible cuando se usa Azure Portal o la CLI de Azure para implementar un servidor. Para obtener más información, consulte Configuración de opciones críticas para la empresa (alta disponibilidad).

Costo

Al habilitar la alta disponibilidad, se crea un servidor en espera y se factura a la misma velocidad que el servidor principal. La configuración de la zona de disponibilidad no afecta al costo. No hay cargos por la replicación de datos dentro o entre zonas de disponibilidad. Dependiendo del volumen de almacenamiento de copia de seguridad, también se le puede facturar por el almacenamiento de copia de seguridad. Para obtener información detallada sobre los precios, consulte Precios de Azure Database for PostgreSQL.

Configurar soporte de zonas de disponibilidad

Para configurar la compatibilidad con zonas de disponibilidad para un servidor, configure las opciones de alta disponibilidad.

Cree un servidor con redundancia de zona: Para obtener información sobre cómo crear un servidor con alta disponibilidad y redundancia de zona habilitada, consulte Inicio rápido: Creación de un servidor de Azure Database for PostgreSQL.
Cambie la configuración de zona de disponibilidad para los servidores existentes: Cambie la configuración de zona de disponibilidad para los servidores existentes cambiando la configuración de alta disponibilidad. Para ver los pasos detallados, consulte Habilitación de la alta disponibilidad para los servidores existentes.

No se puede cambiar la zona usada para el servidor principal o en espera. Necesita volver a crear el servidor.

Sugerencia

Se recomienda esperar hasta que la actividad del servidor sea baja antes de cambiar la configuración de alta disponibilidad.
Deshabilitar alta disponibilidad: Al deshabilitar la alta disponibilidad, se quita el servidor en espera, por lo que el servidor no es resistente a interrupciones en su zona de disponibilidad. Para obtener más información, consulte Deshabilitación de la alta disponibilidad.

Comportamiento cuando todas las zonas están en buen estado

En esta sección se describe lo que cabe esperar al configurar servidores con alta disponibilidad y compatibilidad con zonas de disponibilidad, cuando todas las zonas de disponibilidad están operativas.

Operación entre zonas: Las aplicaciones cliente de PostgreSQL se conectan al servidor principal mediante el nombre del servidor de base de datos. Azure Database for PostgreSQL usa una configuración activa-pasiva en la que el servidor principal de la zona de disponibilidad principal controla todas las conexiones y consultas de base de datos. El servidor en espera no atiende el tráfico de cliente durante las operaciones normales.
Replicación de datos entre zonas: El servidor principal replica de forma sincrónica los cambios en el servidor en espera. Las transacciones no se consideran completas hasta que los servidores principal y en espera confirmen la escritura.

Cuando una aplicación escribe y confirma los datos, PostgreSQL registra primero el cambio en el WAL en el servidor primario. El servidor principal transmite estos registros al servidor en espera mediante el protocolo de streaming de PostgreSQL. Después de que el servidor en espera almacene duraderamente el WAL, el servidor principal confirma la escritura. La aplicación confirma su transacción solo después de esta confirmación. Este proceso de confirmación no espera a que los registros se apliquen al servidor en espera.

Los efectos de la replicación son diferentes en función de la configuración de zona de disponibilidad que use el servidor:
- Con redundancia de zona: Dado que los servidores están en zonas independientes, este enfoque garantiza una pérdida de datos cero durante un error de zona. Esta situación también se denomina a veces lograr un objetivo de punto de recuperación (RPO) de cero para los errores de zona.
  
  Sin embargo, la replicación entre zonas podría introducir una pequeña cantidad de latencia adicional. El impacto de la latencia depende de la aplicación. Para la mayoría de las aplicaciones, la latencia adicional es insignificante.
- Zonal: dado que ambos servidores están en la misma zona, no se replica ningún tráfico entre zonas.
Nota:

El sistema replica los datos de registro en tiempo real en el servidor en espera. Los errores de usuario en el servidor principal, como una eliminación accidental de una tabla o actualizaciones de datos incorrectas, se replican en el servidor en espera. No puede usar el modo de espera para recuperarse de estos tipos de errores y debe realizar una restauración a un momento dado desde la copia de seguridad. Para obtener más información, consulte Copia de seguridad y restauración.

Comportamiento durante un fallo de zona

En esta sección se describe qué puede esperar al configurar servidores con alta disponibilidad y compatibilidad con zonas de disponibilidad, si se produce una interrupción en una zona de disponibilidad.

Detección y respuesta: Azure comprueba periódicamente el estado de los servidores principal y en espera. Después de varios pings, si la supervisión de estado detecta que no se puede acceder a un servidor principal, el servicio inicia una conmutación automática al servidor en espera. El algoritmo de supervisión de estado usa varios puntos de datos para evitar situaciones de falsos positivos.

Si se produce un error en una zona de disponibilidad, el comportamiento es diferente en función de la configuración de la zona de disponibilidad que usa el servidor:
- Con redundancia de zona: Azure Database for PostgreSQL detecta automáticamente fallos en la zona de disponibilidad. Para ver los posibles tipos de estado de alta disponibilidad, consulte Supervisión del estado de alta disponibilidad (HA). Cuando se produce un error en una zona, Azure inicia una conmutación por error forzada al servidor en espera sin que sea necesario realizar ninguna acción.
- Zonal: Si la zona de disponibilidad que hospeda un servidor zonal deja de estar disponible, los servidores principal y en espera no están disponibles. En este escenario, el servicio no proporciona conmutación automática por error. Es responsable de detectar la interrupción de zona y realizar acciones de recuperación, como restaurar copias de seguridad con redundancia de zona en un servidor independiente en otra zona de disponibilidad o región.
Notificación: La supervisión del estado de mantenimiento de alta disponibilidad en Azure Database for PostgreSQL proporciona información general continua sobre el estado y la preparación de instancias habilitadas para alta disponibilidad. La característica de supervisión se basa en Azure Resource Health y puede detectar y alertar sobre cualquier problema que pueda afectar a la preparación de la conmutación por error de la base de datos o a la disponibilidad general. Evalúe métricas clave como el estado de conexión, el estado de conmutación por error y el estado de replicación de datos para habilitar la solución de problemas proactiva y ayudar a mantener el tiempo de actividad y el rendimiento de la base de datos.

Para obtener una guía detallada sobre la configuración y la interpretación de los estados de salud de alta disponibilidad, consulte Supervisión de los estados de salud de alta disponibilidad (HA).
Solicitudes activas: Cuando una zona de disponibilidad deja de estar disponible, es posible que se finalicen las solicitudes en curso a los servidores de la zona afectada. Las aplicaciones deben reintentar estas solicitudes. Si los clientes controlan correctamente los errores transitorios mediante el reintento después de un breve período de tiempo, normalmente evitan un impacto significativo.
Pérdida de datos esperada: La cantidad de pérdida de datos depende de la configuración de zona de disponibilidad que usa el servidor.
- Redundante por zona: Se anticipa una pérdida de datos cero durante el fallo de zona debido a la replicación sincrónica entre los servidores principal y en espera en distintas zonas.
- Zonal: Los datos de los servidores de la zona afectada no están disponibles hasta que se recupere la zona.
Tiempo de inactividad esperado: La cantidad de tiempo de inactividad depende de la configuración de zona de disponibilidad que usa el servidor.
- Con redundancia de zona: La conmutación por error se completa normalmente en un plazo de 60 a 120 segundos. Si los clientes controlan correctamente los errores transitorios mediante el reintento después de un breve período de tiempo, normalmente evitan un impacto significativo.
- Zonal: Los servidores de una zona afectada no están disponibles hasta que se recupere la zona de disponibilidad.
Redistribución: El comportamiento de reenrutamiento del tráfico depende de la configuración de zona de disponibilidad que usa el servidor.
- Con redundancia de zona: Después de la conmutación por error, el servidor en espera anterior se convierte en el nuevo servidor principal y comienza a aceptar nuevas conexiones. Azure establece automáticamente un nuevo servidor en espera en la zona principal original después de recuperarse. Para más información, consulte Conmutación por error forzada.
- Zonal: Cuando una zona no está disponible, el servidor no está disponible. Si tiene un servidor independiente que creó con antelación en otra región o zona de disponibilidad, es responsable de redirigir el tráfico a ese servidor.

Recuperación de zona

El comportamiento de recuperación de zona depende de la configuración de zona de disponibilidad que usa el servidor.

Con redundancia de zona: Cuando se recupera la zona de disponibilidad, Azure Database for PostgreSQL vuelve a generar automáticamente el servidor de reserva en la zona recuperada y lo sincroniza con el servidor principal actual. A continuación, la zona recuperada actúa como ubicación en espera. Para evitar interrupciones innecesarias, el servicio no traslada automáticamente de nuevo el rol principal a la zona original. Puede iniciar manualmente una conmutación por error planeada si desea devolver la principal a la zona original.
Zonal: Una vez que la zona está en buen estado, los servidores de la zona están disponibles de nuevo. Es responsable de cualquier procedimiento de recuperación de zona y sincronización de datos que requieran las cargas de trabajo.

Prueba de fallos de zona

Las opciones para probar errores de zona dependen de la configuración de zona de disponibilidad que usa la instancia.

Con redundancia de zona: Puede probar la resistencia de la aplicación para la conmutación por error iniciando una conmutación por error forzada. Una conmutación por error forzada le permite simular un evento no planificado durante la ejecución de su carga de trabajo, permitiéndole observar el tiempo de inactividad de su aplicación. Se recomienda ejecutar simulaciones en un entorno que no sea de producción o en un momento silencioso. Para obtener más información, consulte Iniciar una conmutación por error forzada.
Zonal: Aunque no se puede simular una interrupción de zona completa, puede simular que el servidor no está disponible de una manera similar a una interrupción de zona. Para obtener más información, vea Detener el proceso de un servidor.

Resistencia a errores en toda la región

Azure Database for PostgreSQL admite réplicas de lectura entre regiones, que puede usar para mantener una copia sincronizada de la base de datos en otra región para una recuperación más rápida.

También puede usar copias de seguridad con redundancia geográfica, en regiones admitidas, para proporcionar recuperación entre regiones. Sin embargo, las copias de seguridad suelen implicar más tiempo de inactividad y pérdida de datos que la replicación. Para obtener más información, consulte Copia de seguridad y restauración.

Réplicas de lectura entre regiones

Puede implementar réplicas de lectura para proteger las bases de datos frente a errores de nivel de región. Cada réplica de lectura es un servidor independiente de Azure Database for PostgreSQL. Cuando coloca una réplica de lectura en una segunda región de Azure, el servidor de bases de datos puede proporcionar resiliencia ante un problema que afecte a toda la región. Puede implementar hasta cinco réplicas de lectura, las cuales opcionalmente pueden estar en distintas regiones de Azure. La tecnología de replicación física de PostgreSQL actualiza las réplicas de lectura de forma asincrónica y pueden retardar la principal. Las réplicas de lectura entre regiones pueden servir opcionalmente cargas de trabajo de solo lectura para reducir la latencia de las aplicaciones distribuidas globalmente o descargar el tráfico de lectura desde el servidor principal. Para obtener más información sobre las características y consideraciones de réplica de lectura, consulte Réplicas de lectura.

Los puntos de conexión virtuales proporcionan puntos de conexión de lectura-escritura y de solo lectura, y redirigen automáticamente el tráfico cuando se promueve una réplica, lo que ayuda a minimizar el tiempo de inactividad durante las conmutaciones por error. Se recomienda encarecidamente usar puntos de conexión virtuales con réplicas de lectura entre regiones para mejorar la resistencia de la aplicación. Para más información, consulte Puntos de conexión virtuales para réplicas de lectura en Azure Database for PostgreSQL.

Diagrama que muestra un servidor principal en una región y una réplica de lectura en una segunda región.

Si se produce un error en la región primaria, puede desencadenar una promoción para que la réplica secundaria se convierta en la principal. Es posible que distintos tipos de conmutación por error sean adecuados en función de cómo se usen las réplicas de lectura. Cuando se usan réplicas de lectura para proporcionar resistencia a errores de región, normalmente se usa el enfoque de promoción al servidor principal , que actualiza el punto de conexión virtual. Durante una interrupción de la región, debe realizar una promoción forzada, lo que puede dar lugar a una pérdida de datos para los datos no replicados. En escenarios planificados en los que la región primaria está en buen estado, puede optar por realizar una promoción planificada para evitar la pérdida de datos. Para más información, consulte Promoción de réplicas de lectura en Azure Database for PostgreSQL.

Diagrama que muestra una réplica de lectura en una segunda región de Azure que se ascendió a réplica principal.

Nota:

En esta sección se resume información importante sobre cómo las réplicas de lectura pueden contribuir a la resiliencia frente a fallos que afectan a toda una región. También puede usar réplicas de lectura para mejorar el rendimiento y admitir bases de usuarios distribuidas geográficamente a gran escala. Para obtener más información, consulte Réplicas de lectura.

Requisitos

Compatibilidad con regiones: Puede crear réplicas de lectura entre regiones en cualquier región que admita Azure Database for PostgreSQL. No está limitado a las regiones emparejadas de Azure.
Niveles de cómputo: Los niveles de cómputo de uso general y optimizados para memoria admiten réplicas de lectura. El nivel Ampliable no admite réplicas de lectura.

Consideraciones

Diferencias de configuración: Es posible que las réplicas de lectura no hereden todas las opciones de configuración del servidor principal. Planee configurar las opciones necesarias después de la conmutación por error. El servidor principal y las réplicas deben ser simétricos, lo que significa que deben tener los mismos niveles, tamaños de almacenamiento y valores para algunas configuraciones. Durante fallos en la región, se puede renunciar al requisito de tener un servidor simétrico para promociones forzadas, pero se recomienda mantener una configuración simétrica siempre que sea posible para evitar problemas inesperados. Para obtener más información, consulte Administración de configuración.
Supervisión del retraso de replicación: El proceso de replicación asíncrona conlleva un retraso de replicación, que puede variar en función de muchos factores. Cuando el retraso de replicación es alto, el servidor podría experimentar problemas. Es importante supervisar el retraso de replicación para que pueda mitigar los problemas antes de que se escalen. Para más información, consulte Supervisión de la replicación.
Alta disponibilidad: Las réplicas de lectura no pueden tener alta disponibilidad habilitada y, cuando se promueven, tampoco tienen alta disponibilidad. Eres responsable de configurar la alta disponibilidad después de promover una réplica.

Para ver otros factores sobre el proceso de promoción que se debe tener en cuenta, consulte Consideraciones.

Costo

Las réplicas de lectura generan costes de computación y almacenamiento, además de cargos por transferencia de datos entre regiones para la replicación. Para obtener información detallada sobre los precios, consulte Precios de Azure Database for PostgreSQL y Precios de ancho de banda.

Configuración de la compatibilidad con varias regiones

Cree una réplica de lectura: Para obtener información sobre cómo crear una réplica de lectura, consulte Creación de una réplica de lectura. Puede configurar réplicas después de crear el servidor principal, siempre que el servidor principal se ejecute y sea accesible.

Para crear un punto de conexión virtual, consulte Creación de puntos de conexión virtuales.
Eliminar una réplica de lectura: Para obtener información sobre cómo eliminar una réplica de lectura, consulte Eliminación de una réplica de lectura.

Comportamiento cuando todas las regiones están en buen estado

En esta sección se describe qué esperar cuando el servidor está configurado con una réplica de lectura en otra región y un punto de conexión virtual, y todas las regiones están operativas:

Enrutamiento del tráfico entre regiones: En las operaciones normales, el punto de conexión virtual dirige el tráfico del punto de conexión de lectura y escritura al servidor principal de la región primaria. Si también utiliza el punto de conexión virtual de solo lectura, dirige el tráfico a la réplica que haya configurado.
Replicación de datos entre regiones: Las réplicas de lectura entre regiones usan la replicación asincrónica para minimizar el impacto en el rendimiento del servidor principal. La cantidad de retraso de replicación depende de muchos factores, incluida la carga de escritura y la latencia entre el servidor principal y las réplicas. El retraso de replicación suele ser al menos varios minutos, pero puede ser más largo. Para más información, consulte Supervisión de la replicación.

Comportamiento durante una falla de región

En esta sección se describe qué esperar cuando el servidor está configurado con una réplica de lectura en otra región y un punto de conexión virtual, y hay una interrupción en la región primaria:

Detección y respuesta: Usted es responsable de detectar una interrupción en la región primaria y promover manualmente una réplica de lectura como el nuevo servidor principal. Durante una interrupción regional, debe realizar una promoción forzada, lo que resulta en la pérdida de cualquier dato no replicado.

Importante

Usted es responsable de activar la promoción. Azure no promueve las réplicas de lectura automáticamente, incluso si se produce una falla en una región.

Para obtener pasos detallados para comenzar una promoción, consulte Convertir réplica de lectura en principal.
Notificación: Microsoft no le notifica automáticamente cuando una región está inactiva. Sin embargo, puede usar Azure Service Health para comprender el estado general del servicio, incluidos los errores de región, y puede configurar alertas de Service Health para notificarle problemas.
Peticiones activas: El proceso de promoción interrumpe todas las conexiones activas con la región principal. Una vez completado el proceso de promoción, las aplicaciones deben reintentar la realización de conexiones a la réplica promocionada.
Pérdida de datos esperada: Durante una interrupción de la región, debe realizar una promoción obligatoria, lo que da lugar a la pérdida permanente de los datos no replicados.

La cantidad de pérdida de datos depende del retraso de replicación en el momento de la interrupción. El retraso de replicación suele ser al menos varios minutos, pero puede ser más largo. Para más información, consulte Supervisión de la replicación.
Tiempo de inactividad esperado: La promoción forzada se completa normalmente en un plazo de 1 a 3 minutos después de desencadenarse. Es posible que las aplicaciones también necesiten volver a conectarse al punto de conexión correcto. Los puntos de conexión virtuales se actualizan como parte del proceso de promoción forzada. Las aplicaciones deben respetar el período de vida (TTL) de los registros DNS del punto de conexión para asegurarse de que se vuelven a conectar rápidamente a la réplica correcta una vez completada la promoción.
Reenrutamiento del tráfico: El punto de conexión virtual del servidor redirige automáticamente el tráfico de la aplicación a la nueva réplica principal.

Nota:

Después de promover una réplica de lectura para que sea el servidor principal, no tiene habilitada la configuración de alta disponibilidad. Debe habilitar la configuración de alta disponibilidad manualmente o agregarla a sus propios procesos de automatización.

Recuperación de regiones

Cuando se usan puntos de conexión virtuales, una vez recuperada la región primaria, el servidor principal antiguo se configura automáticamente como una réplica de lectura. Puede realizar otra promoción para devolver las operaciones principales a la región primaria preferida.

Prueba de fallos de región

Pruebe periódicamente los procedimientos de promoción de réplica de lectura para asegurarse de que los procesos son válidos y que las funcionalidades cumplen los requisitos del objetivo de tiempo de recuperación (RTO) y del objetivo de punto de recuperación (RPO).

Puede promover una réplica de lectura para convertirse en el servidor principal en cualquier momento, incluso cuando todas las regiones estén en buen estado. Para las pruebas:

Puede realizar pruebas de promoción forzadas. Se recomienda realizar estas pruebas en un entorno que no sea de producción, ya que puede provocar la pérdida de datos. Las pruebas de promoción forzadas ayudan a simular el comportamiento que se observa durante una interrupción de una región.
Para el mantenimiento planeado o los escenarios de prueba en los que desea evitar la pérdida de datos, use una promoción planeada en su lugar. Sin embargo, la promoción planeada sigue un proceso diferente al de la promoción durante una interrupción de la región, por lo que es posible que no refleje el comportamiento durante una interrupción de región verdadera.

Para obtener instrucciones paso a paso, consulte Conmutar réplica de lectura a principal.

Como parte de la estrategia de recuperación ante desastres, ejecute periódicamente los simulacros de recuperación completos. Estos simulacros deben incluir la validación de datos, las pruebas de funcionalidad de la aplicación y los procedimientos de reversión documentados.

Copias de seguridad y restauración

Azure Database for PostgreSQL realiza automáticamente una copia de seguridad de los datos. Estas copias de seguridad proporcionan funcionalidades de recuperación a un momento dado y le ayudan a protegerse frente a daños accidentales y la eliminación de datos. Microsoft administra completamente las copias de seguridad. No interrumpen la disponibilidad del servidor e incluyen copias de seguridad completas y copias de seguridad del registro de transacciones.

Almacenamiento de copia de seguridad: Si implementa el servidor en una región con zonas de disponibilidad, el servicio almacena copias de seguridad en el almacenamiento con redundancia de zona (ZRS), independientemente de la configuración de alta disponibilidad del servidor. En el caso de los servidores implementados en regiones sin zonas de disponibilidad, el servicio almacena copias de seguridad en el almacenamiento con redundancia local (LRS).

En las regiones de Azure con pares, puede configurar el almacenamiento de copia de seguridad con redundancia geográfica al crear el servidor para replicar las copias de seguridad en la región emparejada de Azure y obtener protección adicional frente a fallos regionales. El servicio replica las copias de seguridad de forma asincrónica.

El período de retención de copia de seguridad predeterminado es de siete días, pero puede ampliar la retención hasta 35 días. También puede usar Azure Backup para el almacenamiento a largo plazo de copias de seguridad manuales durante hasta 10 años. Todas las copias de seguridad están cifradas.
Restaurar: La recuperación a un momento dado le permite restaurar la base de datos a cualquier momento dentro del período de retención de copia de seguridad. El proceso de restauración crea un nuevo servidor de bases de datos con un nuevo nombre de servidor proporcionado por el usuario. Puede usar el nuevo servidor as-is o copiar datos de él.

Al restaurar una copia de seguridad con redundancia geográfica, se crea un nuevo servidor en la región emparejada.

Esta funcionalidad es útil para recuperarse de modificaciones accidentales de datos, errores de aplicación o escenarios de prueba.

Para la mayoría de las soluciones, no debe confiar exclusivamente en copias de seguridad. En su lugar, utilice las otras capacidades descritas en esta guía para apoyar los requisitos de resiliencia. Sin embargo, las copias de seguridad protegen contra algunos riesgos que otros enfoques no. Para más información, consulte ¿Qué son la redundancia, la replicación y la copia de seguridad?.

Para más información, consulte Copia de seguridad y restauración en Azure Database for PostgreSQL.

Resistencia al mantenimiento del servicio

Azure Database for PostgreSQL controla automáticamente las tareas de mantenimiento críticas, incluida la aplicación de revisiones al hardware subyacente, el sistema operativo y el motor de base de datos. El servicio incluye actualizaciones de seguridad, actualizaciones de software y actualizaciones de versiones secundarias como parte del mantenimiento planeado.

Para asegurarse de que el servidor permanece disponible durante las ventanas de mantenimiento, siga estas recomendaciones:

Habilitar alta disponibilidad: Durante el mantenimiento, es posible que el servidor tenga que reiniciarse como parte del proceso de actualización. Si habilita alta disponibilidad, las operaciones de mantenimiento suelen usar actualizaciones graduales para minimizar el tiempo de inactividad. Las actividades de mantenimiento periódicas, como las actualizaciones de versiones secundarias, se producen primero en la réplica en espera. Para reducir el tiempo de inactividad, el modo de espera se promueve a principal para que las cargas de trabajo puedan continuar en el nodo promocionado mientras se aplican las tareas de mantenimiento al otro nodo. Esta secuenciación se aplica tanto si el servidor utiliza alta disponibilidad con redundancia de zona como si utiliza alta disponibilidad zonal.

En el caso de los servidores sin alta disponibilidad habilitada, espere un breve tiempo de inactividad durante las operaciones de mantenimiento. Con alta disponibilidad habilitada, las operaciones de mantenimiento normalmente se completan con un tiempo de inactividad mínimo o sin tiempo de inactividad.
Configurar ventanas de mantenimiento personalizadas: Puede configurar la programación de mantenimiento para administrar el sistema o definir una ventana de mantenimiento personalizada para minimizar el impacto en las operaciones empresariales. Programe el mantenimiento durante períodos de baja actividad para minimizar el impacto empresarial. Para obtener más información, consulte Programación del mantenimiento.
Implemente la lógica de reintento: Asegúrese de que las aplicaciones pueden controlar breves interrupciones de conectividad que pueden producirse durante los reinicios de mantenimiento. Para que las aplicaciones sean resistentes a estos tipos de problemas, consulte Guía sobre resistencia a errores transitorios .

Acuerdo de nivel de servicio

El acuerdo de nivel de servicio (SLA) para Azure servicios describe la disponibilidad esperada de cada servicio y las condiciones que la solución debe cumplir para lograr esa expectativa de disponibilidad. Para obtener más información, consulte Acuerdos de Nivel de Servicio para servicios en línea.

Azure Database for PostgreSQL proporciona diferentes acuerdos de nivel de servicio de disponibilidad, en función de la configuración del servidor:

Los servidores configurados con redundancia de zona de alta disponibilidad ofrecen un acuerdo de nivel de servicio (SLA) de tiempo de actividad del 99,99%.
Los servidores configurados con alta disponibilidad zonal ofrecen un SLA con un tiempo de actividad del 99,95%.
Los servidores configurados sin alta disponibilidad ofrecen un SLA del 99,9%.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-06-19

Confiabilidad en Azure Database for PostgreSQL

Recomendaciones de implementación de producción

Introducción a la arquitectura de confiabilidad

Arquitectura lógica

Arquitectura física

Resistencia a errores transitorios

Resistencia a errores de zona de disponibilidad

Requisitos

Consideraciones

Costo

Configurar soporte de zonas de disponibilidad

Comportamiento cuando todas las zonas están en buen estado

Comportamiento durante un fallo de zona

Recuperación de zona

Prueba de fallos de zona

Resistencia a errores en toda la región

Réplicas de lectura entre regiones

Requisitos

Consideraciones

Costo

Configuración de la compatibilidad con varias regiones

Comportamiento cuando todas las regiones están en buen estado

Comportamiento durante una falla de región

Recuperación de regiones

Prueba de fallos de región

Copias de seguridad y restauración

Resistencia al mantenimiento del servicio

Acuerdo de nivel de servicio

Contenido relacionado

Comentarios

Recursos adicionales