Una carga de trabajo confiable debe ser resiliente para poder detectar y recuperarse de interrupciones y fallos de funcionamiento y brindar funcionalidad de manera constante. Debe ser capaz de recuperarse de fallos dentro de un plazo de tiempo razonable. También debe estar disponible para que los usuarios puedan acceder de manera consistente y confiable a la carga de trabajo durante el período de tiempo acordado y con el nivel de calidad acordado.
Utilice los siguientes principios de diseño del Microsoft Azure Well-Architected Framework para ayudar a garantizar la confiabilidad durante todo el ciclo de vida. Comience con las mejores prácticas recomendadas y justifique los beneficios de cada principio de confiabilidad. Una vez que establezca su estrategia, utilice la Lista de verificación de confiabilidad como su próxima paso.
Si no aplica estos principios a su diseño, lo más probable es que la carga de trabajo no esté preparada para anticipar o manejar problemas en la producción. El resultado podría ser interrupciones en el servicio que produzcan pérdidas financieras. En el caso de cargas de trabajo críticas, no aplicar estos principios podría poner en peligro la seguridad.
Diseño para requisitos empresariales
Recopilar y comprender las necesidades del negocio con un enfoque en el uso esperado de la carga de trabajo.
Los requisitos deben incluir la experiencia del usuario, los flujos de trabajo, los datos y las características específicas de la carga de trabajo. Los objetivos deben ser realistas y acordados con todas las partes interesadas, basándose en un presupuesto determinado. Los requisitos deben definir claramente las expectativas con el equipo y las partes interesadas. Documentar los requisitos para las opciones de tecnología, implementaciones y operaciones de guía.
Obtenga más información sobre el diseño para requisitos comerciales en Azure Well-Architected Framework. ...
Diseño con la resiliencia en mente
La carga de trabajo debe responder a las fallas y continuar operando con funcionalidad completa o reducida.
Diseñe su carga de trabajo para poder identificar fallas y fallas de componentes. Hacer que el sistema sea resiliente para que pueda tolerar fallas y manejarlas sin problemas. Informar a los usuarios sobre el estado del sistema y establecer las expectativas de qué componentes no están disponibles y cuánto tiempo tomará la recuperación esperada.
La carga de trabajo debe poder recuperarse de fallas con una interrupción mínima de la experiencia del usuario y los objetivos comerciales.
Implementar planes de recuperación estructurados, probados y documentados que conduzcan a una recuperación rápida. Asegúrese de que sus equipos de soporte y operaciones tengan acceso a estos planes y que se realicen simulacros de recuperación con frecuencia para evitar confusiones y caos durante una interrupción real.
La carga de trabajo debe ser observable y los equipos de desarrollo deben poder aprender de los errores.
Incorpore la supervisión a su carga de trabajo para que los equipos de desarrollo y soporte tengan datos suficientes para analizar cuándo, por qué y qué componente está fallando. Cree alertas significativas para notificar a los equipos de soporte en caso de falla. Utilice análisis y conocimientos para impulsar mejoras.
Obtenga más información sobre el diseño para operaciones en Azure Well-Architected Framework.
Mantener la sencillez
Evite sobrediseñar el diseño de la arquitectura, el código de la aplicación y las operaciones.
Concéntrese en los requisitos del negocio y elimine las características y componentes que no sean necesarios. Establecer estándares de desarrollo e implementación que aumenten la consistencia. Aproveche las funciones proporcionadas por la plataforma y los recursos prediseñados para minimizar el tiempo de desarrollo.
Obtenga más información sobre cómo simplificar las cosas en Azure Well-Architected Framework. ...