Compartir vía


Diseño para operaciones

Diseño de una aplicación para equipar al equipo de operaciones

El cambio a la nube ha cambiado fundamentalmente el rol del equipo de operaciones. Ya no son responsables de administrar el hardware y la infraestructura que hospeda la aplicación. Sin embargo, las operaciones siguen siendo cruciales para ejecutar una aplicación en la nube correcta. Entre las funciones clave se incluyen las siguientes:

  • Implementación.
  • Monitorización.
  • Escalación.
  • Respuesta a incidentes.
  • Auditoría de seguridad.

Un seguimiento y un registro sólidos son especialmente importantes en las aplicaciones en la nube. Incluya el equipo de operaciones en el diseño y la planeación para asegurarse de que reciben los datos y la información que necesitan para el éxito.

Recomendaciones

Hacer que todas las cosas sean observables. Una vez implementada y operativa una solución, los registros y seguimientos son la información principal del sistema. El seguimiento registra una ruta a través del sistema. Use el seguimiento para identificar cuellos de botella, problemas de rendimiento y puntos de error. El registro captura eventos individuales, como cambios de estado de aplicación, errores y excepciones. Active el registro en producción o podría perder datos cruciales cuando más los necesite.

Instrumento para la supervisión. La supervisión proporciona información sobre el rendimiento de una aplicación, incluida la disponibilidad, la eficiencia y el estado del sistema. Por ejemplo, muestra si cumple el contrato de nivel de servicio. La supervisión se produce durante el funcionamiento normal del sistema y debe estar lo más cerca posible del tiempo real. Este enfoque ayuda a garantizar que el personal de operaciones pueda reaccionar rápidamente a los problemas. Idealmente, la supervisión eficaz ayuda a evitar problemas antes de que se escalen en errores críticos. Para obtener más información, consulte Supervisión y diagnóstico.

Instrumento para el análisis de causa principal. El análisis de la causa principal es el proceso de encontrar la causa subyacente de errores. Se produce después de que se produzca un error.

Utiliza el rastreo distribuido. Use un sistema de seguimiento distribuido diseñado para la simultaneidad, asincronía y escala en la nube. Los seguimientos deben incluir un identificador de correlación que fluya a través de los límites del servicio. Una sola operación puede incluir llamadas a varios servicios de aplicación. Si se produce un error en una operación, el identificador de correlación ayuda a identificar la causa del error.

Estandarizar registros y métricas. El equipo de operaciones debe agregar registros de los distintos servicios de la solución. Si cada servicio usa su propio formato de registro, resulta difícil o imposible recuperar información útil. Defina un esquema común que incluya campos como el identificador de correlación, el nombre del evento y la dirección IP del remitente. Los servicios individuales pueden derivar esquemas personalizados que heredan el esquema base y pueden contener campos adicionales.

Automatice las tareas de administración, incluido el aprovisionamiento, la implementación y la supervisión. La automatización de una tarea hace que sea repetible y menos propenso a errores humanos.

Trate la configuración como código. Almacene los archivos de configuración en un sistema de control de versiones para que pueda realizar el seguimiento y la versión de los cambios y revertirlos si es necesario.