Compartir a través de


¿Qué es la documentación de confiabilidad de Azure?

Azure proporciona un conjunto completo de funcionalidades de confiabilidad que le ayudarán a cumplir los requisitos de carga de trabajo. La documentación de confiabilidad de Azure proporciona guías específicas del servicio sobre cómo cada servicio de Azure admite esas funcionalidades de confiabilidad de la plataforma, como el control de errores transitorios, las zonas de disponibilidad, la compatibilidad con varias regiones y la compatibilidad con copias de seguridad. Para ver la lista actual de guías de servicio de confiabilidad, consulte Guías de confiabilidad por servicio.

Además de las guías del servicio de confiabilidad, la documentación de confiabilidad de Azure también incluye información general, como:

  • Regiones de Azure: información sobre regiones de Azure, regiones emparejadas y no emparejadas y configuraciones de regiones diferentes.
  • Zonas de disponibilidad de Azure: información sobre las zonas de disponibilidad, incluido cómo admiten la alta disponibilidad y la recuperación ante desastres. En esta sección también se incluyen listas de servicios y regiones de Azure que admiten zonas de disponibilidad.
  • Conceptos de confiabilidad: conceptos fundamentales de confiabilidad, como:
    • Continuidad empresarial, alta disponibilidad y recuperación ante desastres.
    • Redundancia, replicación (redundancia de datos) y copia de seguridad
    • Conmutación por error y conmutación por recuperación.
    • Responsabilidad compartida entre Microsoft y usted.

¿Qué es la confiabilidad?

La confiabilidad hace referencia a la capacidad de una carga de trabajo para realizar de forma coherente en un nivel de servicio aceptable y de acuerdo con los requisitos de continuidad empresarial. La confiabilidad es un concepto clave en la informática en la nube. En Azure, la confiabilidad se logra mediante una combinación de factores, incluido el diseño de la propia plataforma, sus servicios, la arquitectura de las aplicaciones y la implementación de los procedimientos recomendados.

Dos enfoques clave para lograr la confiabilidad en una carga de trabajo son:

  • Resistencia: la capacidad de resistir y continuar funcionando cuando las cosas van mal, como errores temporales, interrupciones de infraestructura o picos inesperados de demanda. La resistencia le ayuda a evitar interrupciones.
  • Capacidad de recuperación: la capacidad de restaurar las operaciones normales después de una interrupción. Si se produce una interrupción, la capacidad de recuperación le ayuda a restaurar a un estado confiable.

La plataforma y los servicios de Azure ofrecen una serie de características de confiabilidad, como zonas de disponibilidad, compatibilidad con varias regiones, replicación de datos y copia de seguridad y restauración. Estas características deben tenerse en cuenta al diseñar una carga de trabajo para cumplir sus requisitos de continuidad empresarial.

Sugerencia

La confiabilidad también incorpora otros elementos del diseño de la solución, incluida la forma en que implementa cambios de forma segura, cómo administra el rendimiento para evitar el tiempo de inactividad debido a una carga alta y cómo se prueba y valida cada parte de la solución. Para obtener más información, consulte Azure Well- Architected Framework.

Regiones de Azure

Azure proporciona más de 60 regiones globalmente, que se encuentran en muchas zonas geográficas diferentes. Cada región es un conjunto de instalaciones físicas con centros de datos e infraestructura de red. Todas las regiones se pueden dividir en áreas geográficas denominadas zonas geográficas. Cada geografía es un límite de residencia de datos y puede contener una o varias regiones.

Las regiones de Azure proporcionan determinados tipos de opciones de resistencia. Muchas regiones proporcionan zonas de disponibilidad y algunas tienen una región emparejada, mientras que otras regiones no están emparejadas. Al elegir una región para los servicios, es importante prestar atención a las opciones de resistencia disponibles en esa región.

Zonas de disponibilidad de Azure

Muchas regiones de Azure proporcionan zonas de disponibilidad, que son grupos separados de centros de datos dentro de una región. Las zonas de disponibilidad son una manera importante de lograr confiabilidad en la plataforma Azure, ya que proporcionan cierto nivel de aislamiento físico dentro de una región.

Las zonas de disponibilidad están lo suficientemente cerca como para tener conexiones de baja latencia a otras zonas de disponibilidad, pero están lo suficientemente separadas para reducir la probabilidad de que más de una se vea afectada por interrupciones locales o el tiempo. Las zonas de disponibilidad tienen una infraestructura de suministro eléctrico, refrigeración y red independientes. Están diseñadas para que, si una zona experimenta una interrupción, los servicios regionales, la capacidad y la alta disponibilidad sean compatibles con las zonas restantes.

Conceptos de confiabilidad

En la sección de conceptos de confiabilidad se proporciona información general sobre algunos de los conceptos y principios clave que respaldan la confiabilidad en Azure.

Alta disponibilidad, continuidad empresarial y recuperación ante desastres

El planeamiento de la continuidad empresarial se puede entender como el proceso continuo de administración de riesgos a través del diseño de alta disponibilidad y recuperación ante desastres.

Al considerar la continuidad empresarial, es importante comprender los siguientes términos:

  • Continuidad empresarial es el estado en el que una empresa puede continuar las operaciones durante errores, interrupciones o desastres. La continuidad empresarial requiere planificación proactiva, preparación e implementación de sistemas y procesos resistentes.

  • Alta disponibilidad consiste en diseñar una solución para satisfacer las necesidades empresariales de disponibilidad y ser resistentes a problemas diarios que podrían afectar a los requisitos de tiempo de actividad.

  • La recuperación ante desastres consiste en planear cómo tratar riesgos poco comunes y las interrupciones catastróficas que puede haber como resultado.

Para obtener información sobre la continuidad empresarial y la planeación de la continuidad empresarial mediante el diseño de alta disponibilidad y recuperación ante desastres, consulte ¿Qué son la continuidad empresarial, la alta disponibilidad y la recuperación ante desastres?.

Redundancia, replicación y copia de seguridad

A menudo pensamos en la nube como un sistema omnipresente y distribuido globalmente. Sin embargo, en realidad, la nube se compone de hardware que se ejecuta en centros de datos. La resistencia requiere que tenga en cuenta algunos de los riesgos asociados a las ubicaciones físicas en las que se ejecutan los componentes hospedados en la nube.

La redundancia es la capacidad de mantener varias copias idénticas de un componente de servicio y usar esas copias de una manera que impida que cualquier componente se convierta en un único punto de error.

La replicación o la redundancia de datos es la capacidad de mantener varias copias de datos, denominadas réplicas.

La copia de seguridad es la capacidad de mantener una copia con marca de tiempo de los datos que se pueden usar para restaurar los datos que se han perdido.

Para obtener una introducción a la redundancia, la replicación y la copia de seguridad, consulte ¿Qué es la redundancia, la replicación y la copia de seguridad?.

Conmutación por error y conmutación por recuperación

Una razón común para mantener copias redundantes de las aplicaciones y réplicas de datos es poder realizar una conmutación en caso de fallo. Con la conmutación por error, puede redirigir el tráfico y las solicitudes de las instancias en estado incorrecto a instancias en estado correcto. A continuación, una vez que las instancias originales vuelvan a estar en buen estado, puede realizar una conmutación por recuperación para volver a la configuración original.

Para obtener más información sobre la conmutación por error y la conmutación por recuperación, consulte ¿Qué es la conmutación por error y la conmutación por recuperación?.

Responsabilidad compartida

Los servicios de Azure se crean para ser resistentes a muchos errores comunes y cada producto proporciona un acuerdo de nivel de servicio (SLA) que describe el tiempo de actividad que puede esperar. Sin embargo, la confiabilidad general de la carga de trabajo depende de cómo haya diseñado la solución para satisfacer sus necesidades empresariales. Algunos planes de continuidad empresarial pueden considerar que ciertos riesgos de error no son importantes, mientras que otros pueden considerarlos críticos.

En la plataforma de nube pública de Azure, la confiabilidad es una responsabilidad compartida entre Microsoft y usted. Dado que hay diferentes niveles de confiabilidad en cada carga de trabajo que diseñe e implemente, es importante que comprenda quién tiene la responsabilidad principal de cada uno de esos niveles desde una perspectiva de resistencia. Para comprender mejor cómo funciona la responsabilidad compartida, especialmente cuando se enfrenta a una interrupción o desastre, consulte Responsabilidad compartida de confiabilidad.