인시던트의 특성 및 수명 주기
- 4분
마지막 단원에서 배운 것처럼, 인시던트는 고객과 최종 사용자에게 영향을 주는 서비스 중단입니다. 인시던트는 사용자를 좌절시키는 성능 저하("느림은 새로운 다운")부터 일정 기간 동안 서비스 또는 사이트를 사용할 수 없게 만드는 시스템 크래시에 이르기까지 다양한 형태로 발생합니다.
인시던트 특성
인시던트가 예기치 않으며 최악의 시간(예: 오전 2:00 또는 중요한 프로젝트에 깊이 몰입한 경우)에 발생하는 것으로 보입니다. 이 때문에 사람들이 때때로 사건의 중요성을 떨어뜨리는 시점까지도 일반적으로 사건을 두려워하고 피합니다. 조직 내에서 내부 압력이 너무 클 때는 잘못 표현하거나 질책을 두려워하여 문제를 보고하지 않는 유혹이 생길 수 있다.
인시던트는 적어도 계획되지 않은 작업을 발생시키며, 보통 수행해야 할 작업을 명확히 알고 계획된 작업을 주로 수행하기 때문에 인시던트를 나쁜 것으로 생각할 수 있습니다. 그러나 인시던트가 최종 사용자에게 제공하려는 가치를 제공하는 데 실제로 투자 된다는 것을 확인할 수 있는 또 다른 방법이 있습니다. 인시던트의 원인이나 영향 범위가 무엇이든 모든 인시던트에는 중요한 학습 환경을 제공할 수 있다는 한 가지 공통점이 있습니다.
인시던트를 시스템의 맥박으로 생각해야 합니다. 그들은 이전에 이해한 것보다 시스템에 대해 더 많은 것을 알려주며, 그 지식은 좋은 일입니다. 강력한 모니터링 기반이 있고 시스템에서 발생하는 일에 대해 자세히 알고 있으면 더 많은 경고와 인시던트 및 응답 기회가 필연적으로 생성됩니다. 최소한 사고는 무슨 일이 일어나고 있는지 알려주어, 운영에 대한 인식을 높입니다. 모니터링에 대한 이전 모듈에서는 이것이 안정성 작업의 중요한 전조라고 제안했습니다.
인시던트 수명 주기
인시던트 대응 성숙도를 개선하고 인시던트로부터 더 빠르게 복구하려면 서비스 중단이나 인시던트를 단순히 선형 타임라인으로 보는 것을 넘어서 주기적인 관점에서 접근해야 합니다.
인시던트 수명 주기를 처음부터 다시 반환하는 주기에서 논리적으로 하나씩 따르는 고유한 단계로 구분할 수 있습니다. 이 주기를 돌아다닐 때마다(그리고 여러 번 수행) 제대로 처리하면 시스템에 대한 더 큰 인사이트를 가지고 처음부터 다시 돌아갈 수 있습니다. 일부 의도적인 작업을 사용하면 다음에 인시던트가 발생할 때 신속하고 효과적으로 대응할 수 있도록 더 잘 준비할 수 있습니다.
인시던트 단계
인시던트 대응 프로세스의 개별 단계는 사용하는 모델에 따라 약간 다르게 보입니다. 이 모듈에서는 인시던트에 대응하는 5단계가 있습니다.
- 검색: 이 단계는 이 학습 경로의 이전 모듈의 모니터링 지식이 시작되는 단계입니다. 모니터링 도구는 로그에서 정보를 수집하고, 구성한 고객 중심 목표에 따라 해당 정보를 분석하고, 실행 가능한 경고를 보내 사람의 개입이 필요하다는 것을 알 수 있습니다.
- 응답: 이 단계는 사용자와 팀이 해당 경고를 수신한 후에 발생하는 작업입니다. 이 모듈에서 이 단계에 대해 자세히 알아보겠으므로 잠시 후에 이 아이디어에 대해 더 많은 이야기를 할 수 있습니다.
- 수정: 이 단계에서는 시스템을 정상적인 기능으로 복원합니다. 이 작업을 수행하는 방법은 서비스 중단의 원인에 따라 달라집니다. 서비스를 백업하고 실행하고 고객에게 제공하는 것이 최우선 과제입니다. 그러나 작업이 완료되면 작업이 중지되지 않습니다.
- 분석: 사건에서 지속적인 가치를 얻으려면 사건에서 배워야 합니다. 이 단계는 인시던트 중에 발생한 작업과 시기에 대한 정보를 수집하고 올바른 질문을 하여 학습할 수 있는 내용을 확인하는 프로세스입니다. 실패로부터 학습하는 것에 대한 전체 모듈이 있습니다.
- 준비 상태: 분석 단계에서 배운 교훈을 작업 연습에 통합해야 합니다. 향후 유사한 중단을 방지하는 데 도움이 되는 작업 항목이 있는 경우 이 단계의 일부이기도 합니다.
인시던트 대응 계획을 만들기 전에 인시던트 특성과 가치를 이해하고 인시던트 수명 주기의 단계를 숙지해야 합니다. 다음 단계는 응답 전략이 견고한 기반을 기반으로 구축되도록 하는 것입니다.