Inconvenientes de confiabilidad

Una carga de trabajo confiable cumple de forma coherente sus objetivos de confiabilidad definidos. Debe alcanzar los objetivos de resistencia establecidos, idealmente mediante la elusión de eventos que afectan a la confiabilidad. Sin embargo, de forma realista, una carga de trabajo debe tolerar y controlar el impacto de estos eventos y mantener las operaciones en un nivel predeterminado durante un funcionamiento incorrecto activo. Incluso durante un desastre, una carga de trabajo confiable debe recuperarse en un estado específico dentro de un período de tiempo determinado, ambos acordados entre las partes interesadas. Un plan de respuesta a incidentes que le permite lograr una detección y recuperación rápidas es fundamental.

Durante la fase de diseño de una carga de trabajo, debe tener en cuenta cómo las decisiones basadas en los principios de diseño de confiabilidad y las recomendaciones de la lista de comprobación de revisión de diseño para confiabilidad pueden influir en los objetivos y optimizaciones de otros pilares. Algunas decisiones pueden beneficiarse de algunos pilares, pero constituyen un equilibrio para otros. En este artículo se describen los inconvenientes de ejemplo que un equipo de carga de trabajo podría encontrar al diseñar la arquitectura y las operaciones de carga de trabajo para la confiabilidad.

Desventajas de confiabilidad con seguridad

Equilibrio: aumento del área expuesta de la carga de trabajo. El pilar Seguridad prioriza un área expuesta reducida y contenida para minimizar los vectores de ataque y reducir la administración de los controles de seguridad.

  • La confiabilidad se obtiene a menudo a través de la replicación. La replicación puede producirse en el nivel de componente, en el nivel de datos o incluso en un nivel geográfico. Las réplicas, por diseño, aumentan el área expuesta de una carga de trabajo. Desde una perspectiva de seguridad, se prefiere un área expuesta reducida y contenida para minimizar los posibles vectores de ataque y simplificar la administración de los controles de seguridad.

  • De forma similar, las soluciones de recuperación ante desastres, como las copias de seguridad, aumentan el área expuesta de una carga de trabajo. Sin embargo, a menudo están aislados del tiempo de ejecución de la carga de trabajo. Esto requiere la implementación de controles de seguridad adicionales, que pueden ser específicos de la solución de recuperación ante desastres.

  • Por motivos de confiabilidad, es posible que se necesiten componentes adicionales para la arquitectura, lo que aumenta el área expuesta. Por ejemplo, es posible que se agregue un bus de mensajes para que las solicitudes sean resistentes. Esta mayor complejidad aumenta el área expuesta de la carga de trabajo agregando nuevos componentes que deben protegerse, posiblemente de maneras que aún no se usen en el sistema. Normalmente, estos componentes van acompañados de código y bibliotecas adicionales para admitir sus patrones de uso o confiabilidad general, lo que también aumenta el área expuesta de la aplicación.

Compensación: omisión del control de seguridad. El pilar Seguridad recomienda que todos los controles permanezcan activos en sistemas normales y estresados.

  • Cuando una carga de trabajo experimenta un evento de confiabilidad que se está solucionando en respuesta a incidentes activos, la urgencia podría crear presión para que los equipos de cargas de trabajo omitan los controles de seguridad optimizados para el acceso rutinario.

  • Las actividades de solución de problemas pueden hacer que el equipo deshabilite temporalmente los protocolos de seguridad, dejando un sistema ya estresado potencialmente expuesto a riesgos de seguridad adicionales. También existe un riesgo de que los protocolos de seguridad no se restablezcan rápidamente.

  • Implementaciones pormenorizadas de controles de seguridad, como asignaciones de control de acceso basadas en roles o reglas de firewall, introducen complejidad de configuración y confidencialidad, lo que aumenta la posibilidad de configuración incorrecta. La mitigación de este posible impacto en la confiabilidad mediante el uso de reglas amplias reduce los tres principios de arquitectura Confianza cero.

Compensación: versiones de software antiguas. El pilar Seguridad fomenta un enfoque de "obtener actual, mantenerse al día" para las revisiones de seguridad del proveedor.

  • La aplicación de revisiones de seguridad o actualizaciones de software puede interrumpir el componente de destino, lo que provoca una falta de disponibilidad durante el cambio de software. Retrasar o evitar la aplicación de revisiones podría evitar los posibles riesgos de confiabilidad, pero deja el sistema desprotegido frente a amenazas en constante evolución.

  • La consideración anterior también se aplica al código de la carga de trabajo. Por ejemplo, se aplica al código de aplicación que usa bibliotecas y contenedores antiguos que usan imágenes base antiguas. Si la actualización e implementación del código de la aplicación se ve como un riesgo de confiabilidad sin omitir, la aplicación se expone a riesgos de seguridad adicionales a lo largo del tiempo.

Desventajas de confiabilidad con optimización de costos

Compensación: mayor redundancia de implementación o desperdicio. Una carga de trabajo optimizada para costos minimiza los recursos infrautilizados y evita los recursos de aprovisionamiento excesivo.

  • La replicación es una estrategia clave para la confiabilidad. En concreto, la estrategia es tener suficiente replicación para controlar un número determinado de errores de nodo simultáneos. La tolerancia a errores de nodo más simultáneos requiere un mayor recuento de réplicas, lo que provoca un aumento de los costos.

  • El aprovisionamiento excesivo es otra técnica para absorber la carga inesperada en un sistema que, de lo contrario, podría provocar un problema de confiabilidad. Cualquier exceso de capacidad que no se utilice se considera desperdiciada.

  • Si una carga de trabajo usa una solución de recuperación ante desastres que satisface excesivamente los objetivos de tiempo y punto de recuperación de la carga de trabajo, el exceso conduce a mayores costos debido a los residuos.

  • Las propias implementaciones de cargas de trabajo son un origen potencial para el impacto en la confiabilidad y ese impacto suele mitigarse mediante redundancia en el momento de la implementación a través de una estrategia de implementación como azul/verde. Esta duplicación transitoria de recursos durante la implementación segura suele aumentar el costo total de la carga de trabajo durante esos períodos. Los costos aumentan con la frecuencia de las implementaciones.

Equilibrio: mayor inversión en operaciones que no están alineadas con los requisitos funcionales. Un enfoque para la optimización de costos es evaluar el valor proporcionado por cualquier solución implementada.

  • Para lograr la confiabilidad, un sistema requiere observabilidad. Los sistemas de supervisión requieren la transferencia y recopilación de datos de observabilidad. A medida que aumentan las funcionalidades de supervisión, aumenta la frecuencia y el volumen de datos, lo que conduce a costos adicionales.

  • Las prestaciones de confiabilidad en las cargas de trabajo requieren pruebas y simulacros. El diseño y la ejecución de pruebas tardan tiempo y herramientas potencialmente especializadas, lo que conlleva costos.

  • Las cargas de trabajo con objetivos de alta confiabilidad suelen tener un proceso de respuesta rápido que requiere que los miembros del equipo técnico formen parte de una rotación formal de llamadas. Este proceso incurre en costos de personal adicionales y costos de oportunidad perdidos debido a la atención que se podría dirigir en otro lugar. También incurre en posibles costos de herramientas para la administración del proceso.

  • Los contratos de soporte técnico con proveedores de tecnología son un componente clave de una carga de trabajo confiable. Los contratos de soporte técnico que no se utilizan porque el nivel de soporte técnico es excesivamente aprovisionado incurre en residuos.

Desventajas de confiabilidad con excelencia operativa

Equilibrio: mayor complejidad operativa. La excelencia operativa, como la propia confiabilidad, da prioridad a la simplicidad.

  • La confiabilidad suele aumentar la complejidad de una carga de trabajo. A medida que aumenta la complejidad de una carga de trabajo, los elementos operativos de la carga de trabajo también pueden aumentar para admitir los componentes y procesos agregados en términos de coordinación de implementación y área expuesta de configuración.

  • Tener una estrategia de supervisión completa para una carga de trabajo es una parte clave de la excelencia operativa. La introducción de componentes adicionales en una arquitectura para implementar patrones de diseño de confiabilidad da como resultado más orígenes de datos para administrar, lo que aumenta la complejidad de implementar el seguimiento distribuido y la observabilidad.

  • El uso de varias regiones para superar las restricciones de capacidad de recursos de una sola región o implementar una arquitectura activa o activa aumenta la complejidad de la administración operativa de la carga de trabajo. Esta complejidad la introduce la necesidad de administrar varias regiones y la necesidad de administrar la replicación de datos entre ellas.

Equilibrio: mayor esfuerzo para generar conocimientos y concienciación de equipo. El pilar Excelencia operativa recomienda mantener y mantener un repositorio de documentación para procedimientos y topologías.

  • A medida que una carga de trabajo se vuelve más sólida gracias a la adición de componentes y patrones de confiabilidad, se tarda más tiempo en mantener los procedimientos operativos y la documentación de artefactos.

  • El entrenamiento se vuelve más complejo a medida que aumenta el número de componentes de la carga de trabajo. Esta complejidad afecta al tiempo necesario para la incorporación y aumenta el conocimiento necesario para realizar un seguimiento de las hojas de ruta del producto y la guía de nivel de servicio.

Desventajas de confiabilidad con eficiencia del rendimiento

Equilibrio: mayor latencia. La eficiencia del rendimiento requiere un sistema para lograr objetivos de rendimiento para flujos de datos y usuarios.

  • Los patrones de confiabilidad suelen incorporar la replicación de datos para sobrevivir al mal funcionamiento de la réplica. La replicación presenta una latencia adicional para las operaciones de escritura de datos confiables, que consume una parte del presupuesto de rendimiento para un usuario o flujo de datos específico.

  • La confiabilidad a veces emplea varias formas de equilibrio de recursos para distribuir o redistribuir la carga en réplicas correctas. Un componente dedicado que se usa para el equilibrio suele afectar al rendimiento de la solicitud o proceso que se equilibra.

  • La distribución de componentes entre límites geográficos o zonas de disponibilidad para sobrevivir a un impacto con ámbito introduce la latencia de red en la comunicación entre los componentes que abarcan esos límites de disponibilidad.

  • Los procesos extensos se usan para observar el estado de una carga de trabajo. Aunque la supervisión es fundamental para la confiabilidad, la instrumentación puede afectar al rendimiento del sistema. A medida que aumenta la observabilidad, el rendimiento podría disminuir.

Equilibrio: aumento del aprovisionamiento por encima del aprovisionamiento. El pilar Eficiencia del rendimiento desaproteja el exceso de aprovisionamiento, en lugar de recomendar el uso de recursos suficientes para satisfacer la demanda.

  • Las operaciones de escalado automático no son instantáneas y, por lo tanto, no pueden controlar de forma confiable un pico repentino y dramático en la demanda que no se puede dar forma ni suavizar. Por lo tanto, el exceso de aprovisionamiento a través de instancias más grandes o más instancias es una táctica de confiabilidad crítica para tener en cuenta el retraso entre la señal de demanda y la creación de la oferta. La capacidad sin usar contrarreste los objetivos de eficiencia del rendimiento.

  • A veces, un componente no se puede escalar en reacción a la demanda y esa demanda no es totalmente predecible. El uso de instancias grandes para cubrir el peor de los casos conduce a un exceso de aprovisionamiento de residuos en situaciones que están fuera de ese caso de uso.

Explore los inconvenientes de los otros pilares: