인시던트 대응의 중요성

완료됨

이 학습 경로의 다른 모듈에서 논의한 모니터링의 원칙과 방식을 기반으로 이제 모니터링을 통해 문제가 드러나는 경우 무엇을 할지를 알아봅니다. 시스템이 예상대로 작동하지 않는다고 알리는 실행으로 옮길 수 있는 경고를 받는다면 이는 문제를 다룰 대응을 촉발하는 계기가 됩니다.

인시던트란?

인시던트 대응은 인시던트가 발생했을 때 취하는 작업에 관한 것이지만, 인시던트를 구성하는 것은 정확히 무엇인가요? 답변은 주관적일 수 있으며, 엔지니어마다 인시던트가 무엇인지에 관해 생각이 다를 수도 있습니다. 다양한 산업 및 조직에서 질문해 보면 답변이 아주 다양합니다.

고객이 영향을 받는지 여부와 관계없이 모든 중단을 인시던트라고 하는 사람도 있습니다. 이 모듈의 컨텍스트에서는 인시던트를 서비스 중단, 즉 사용자가 이용하는 서비스의 사용 가능성에 영향을 주는 조건이나 항목으로 정의하는 데 동의할 수 있습니다. 시스템이 다운되거나 오작동하여 고객에게 영향을 주는 경우를 예로 들 수 있습니다.

인시던트 대응이란?

모든 문제를 예방하는 것은 칭찬할 만하지만 불가능한 목표입니다. 일이 잘못될 ‘가능성’은 있기 마련이므로 최종 사용자에게 미칠 영향을 제한하고 최대한 빨리 작동을 정상으로 되돌리기 위한 계획이 필요합니다.

핵심은 반응하는 것이 아니라 긴급하게 대응하는 것입니다. 반응은 충동적이며 장기적인 영향을 고려하지 않고 지금을 기준으로 하는 경향이 있습니다. 대응은 면밀하고, 체계적이며, 정보를 기반으로 합니다.

인시던트 대응의 접근 방식에 따라 다음에서의 효율성이 결정됩니다.

  • 진행 상황을 이해(문제 진단)합니다.
  • 심사(긴급도 파악) 및 문제 우선 순위를 지정합니다.
  • 문제를 완화하기 위한 적절한 리소스 채용.
  • 문제에 관해 관련자와 의사소통합니다.

인시던트를 수정한 후에는 인시던트 후 검토 프로세스를 통해 인시던트로부터 알아볼 수 있습니다. 이 중요한 주제는 완전히 별도의 모듈에서 논의할 가치가 있습니다.

인시던트 대응 실적 측정

익히 들어보셨을지 모르는 머리글자어 TTR은 "복구 시간", "수정 시간", "복원 시간" 등으로 다양하게 정의됩니다. 이러한 모든 다양한 정의는 결국은 같은 것, 즉 고객의 기대를 충족할 수 있는 위치로 서비스를 되돌리는 데 걸리는 총 시간을 의미합니다.

이 메트릭은 팀이 인시턴트에 얼마나 잘 대응하는지를 측정하는 한 가지 방법입니다. 서비스의 복구/수정/복원이 빠를수록 중단되거나 성능 저하된 서비스가 미치는 영향이 줄어듭니다.

조직이 인시던트 대응을 얼마나 잘 처리하는지 파악하는 것이 중요합니다. 매년 DORA(DevOps Research and Assessment) 조직에서는 ‘DevOps 상태’ 보고서를 발표합니다. 2019년 보고서의 몇몇 주요 조사 결과는 인시던트 대응 실적에 중점을 두고 있습니다.

  • 이 보고서에서는 서비스 중단을 1시간 내에 감지, 대응 및 수정할 수 있는 엔지니어링 팀을 "엘리트 또는 실적이 높은 조직"으로 분류했습니다.
  • 24시간 이내에 인시던트를 복구할 수 있는 조직은 "실적이 중간이 조직"으로 분류했습니다.
  • "실적이 낮은 조직"은 서비스 중단에서 복구하는 데 1주에서 한 달 사이가 걸리는 조직입니다.

이러한 수준 간의 차이는 중요합니다. 이 연구에 따르면 엘리트/실적이 높은 팀이 "실적이 낮은" 동료보다 인시던트를 2,604배 더 빠르게 복구합니다. 또한 엘리트/실적이 높은 조직이 프로덕션으로 배포를 208배 더 자주 합니다.

엘리트 조직이 나머지 조직보다 훨씬 더 빠르게 대응하고 복구하는 이유와 방법은 무엇일까요? 부분적으로는 엘리트 조직은 상황이 불가피하게 잘못될 경우를 대비해 훌륭한 기초 대응 계획을 마련하는 것의 중요성을 잘 알고 있기 때문입니다.

이 모듈을 진행하며서 인시던트의 특성 및 수명 주기를 알아보고 해당 정보를 활용하여 고유한 기초 계획을 만드는 방법을 알아봅니다.

지식 점검

1.

다음 중 효율적인 인시던트 대응의 목표는 무엇입니까?

2.

“엘리트 또는 실적이 높은 조직”으로 분류된 엔지니어링 팀은 일반적으로 얼마나 빨리 서비스 중단을 감지, 대응 및 수정할 수 있습니까?