Lista de comprobación de revisión de diseño para la confiabilidad

Esta lista de comprobación presenta un conjunto de recomendaciones que puede usar para evaluar las estrategias de confiabilidad, resistencia y recuperación de errores en el diseño de la arquitectura. Para garantizar la confiabilidad, identifique la mejor infraestructura y diseño de aplicaciones para la carga de trabajo. Tome estas decisiones en función de los requisitos empresariales asignados a las métricas de destino de disponibilidad y capacidad de recuperación.

Para implementar un diseño confiable, considere exhaustivamente los puntos de decisión del diseño y tenga en cuenta cómo afectan esas decisiones a la carga de trabajo. Esta lista de comprobación y las guías complementarias proporcionan recursos para ayudarle a tomar esas decisiones. Haga que la confiabilidad de la carga de trabajo sea una consideración central a lo largo del ciclo de vida de diseño, desarrollo y operación de la carga de trabajo.

Lista de comprobación

Enfoque del diseño con un enfoque en la confiabilidad para ayudar a garantizar que diseñe una carga de trabajo resistente, manejable y repetible. Si no incluye prácticas de confiabilidad y tiene en cuenta los inconvenientes, el diseño podría correr riesgos. Considere detenidamente todos los puntos tratados en la lista de comprobación para infundir confianza en el éxito del sistema.

  Código Recomendación
RE:01 Diseñe la carga de trabajo para alinearse con los objetivos empresariales y evite una complejidad o sobrecarga innecesarias. Use un enfoque práctico y equilibrado para tomar decisiones de diseño que proporcionen los resultados deseados. Contenga el diseño de las necesidades para reducir las ineficiencias y los posibles problemas.
RE:02 Identificar y valorar los flujos de usuario y del sistema. Use una escala de importancia en función de los requisitos empresariales para priorizar los flujos.
RE:03 Use el análisis del modo de error (FMA) para identificar y priorizar posibles errores en los componentes de la solución. Realice FMA para ayudarle a evaluar el riesgo y el efecto de cada modo de error. Determine cómo responde y recupera la carga de trabajo.
RE:04 Defina los destinos de confiabilidad y recuperación para los componentes, los flujos y la solución general. Visualice los objetivos para negociar, obtener consenso, establecer expectativas e impulsar acciones para lograr el estado ideal. Use los destinos definidos para compilar el modelo de mantenimiento. El modelo de mantenimiento define el aspecto de los estados correctos, degradados y incorrectos.
RE:05
RE:05
RE:05
Agregue redundancia en distintos niveles, especialmente para flujos críticos. Aplique redundancia a los niveles de proceso, datos, red y otras infraestructuras de acuerdo con los objetivos de confiabilidad identificados.
RE:06
RE:06
Implemente una estrategia de escalado oportuna y confiable en los niveles de aplicación, datos e infraestructura.
RE:07
RE:07
RE:07
Fortalecer la resistencia y la capacidad de recuperación de la carga de trabajo mediante la implementación de medidas de autoconservación y recuperación automática. Cree funcionalidades en la solución mediante patrones de confiabilidad basados en infraestructura y patrones de diseño basados en software para controlar errores de componentes y errores transitorios. Cree funcionalidades en el sistema para detectar errores de componentes de solución e iniciar automáticamente acciones correctivas mientras la carga de trabajo sigue funcionando con funcionalidad completa o reducida.
RE:08 Pruebe escenarios de resistencia y disponibilidad aplicando los principios de ingeniería de caos en los entornos de prueba y producción. Use pruebas para asegurarse de que las estrategias de implementación y escalado de degradación correctos son eficaces mediante la realización de pruebas de carga simuladas y de mal funcionamiento activas.
RE:09 Implemente planes estructurados, probados y documentados de continuidad empresarial y recuperación ante desastres (BCDR) que se alineen con los destinos de recuperación. Los planes deben cubrir todos los componentes y el sistema en su conjunto.
RE:10 Mida y modele las señales de mantenimiento de la solución. Capture continuamente el tiempo de actividad y otros datos de confiabilidad de toda la carga de trabajo y también de componentes individuales y flujos clave.

Pasos siguientes

Se recomienda revisar los inconvenientes de confiabilidad para explorar otros conceptos.