Dickerson의 안정성 계층 구조

완료됨

안정성 개선 학습 경로에 대한 맵은 Dickerson의 안정성 계층 구조라는 사이트 안정성 엔지니어링 세계의 모델을 기반으로 합니다. Mikey Dickerson은 United States Digital Service의 창립 관리자가 된 SRE였습니다. Dickerson은 지금까지 만난 가장 큰 안정성 위기에 직면했을 때 이 계층 구조를 생성했습니다.

a diagram of a pyramid showing the seven levels of the hierarchy of reliability.

이 모델은 인간의 동기를 다루는 Abraham Maslow의 욕망 계층 구조에 따라 구성됩니다. Maslow의 계층 구조처럼 계층 구조를 진행하려면 각 하위 수준이 먼저 다루어졌는지 확인해야 합니다. 이 학습 경로에서 시작부터 끝까지 초점을 맞출 수준:

모니터링

이 수준은 다른 수준의 토대가 되는 중요한 기초입니다. 객관적인 데이터를 중심으로 조직의 안정성에 대해 구체적으로 대화할 수 있는 정보의 소스입니다. 변경 사항을 만들면 이 사례를 통해 효과를 알게 됩니다. 더 극명하게 표현하자면 이 사례는 상황이 좋아지는지 나빠지는지 여부를 알 수 있는 방법입니다. 모니터링이 확실해질 때까지 다른 작업을 수행할 수 없습니다.

인시던트 대응

모든 프로덕션 환경이 어느 정도 중단됩니다. 이 사실에는 논쟁의 여지가 없습니다. 그러면 질문 내용은 "인시던트가 발생했을 때 어떻게 하나요? 시스템이 중단되고 고객이 영향을 받는 경우 어떻게 되나요?" 문제를 분류하고 올바른 리소스를 활용하여 문제를 완화할 수 있는 효과적인 표준 프로세스가 필요합니다. 동시에 해당 문제에 대해 관련자와 통신하고 있는지도 확인하려고 합니다.

인시던트 후 검토(오류에서 학습)

이 프로세스를 통해 중요한 각 인시던트의 경험을 종합적으로 조사, 검토, 논의하여 운영 사례 수준을 높일 수 있습니다. 인시던트 후 검토에서 오류를 통해 학습할 수 있으며 이는 안정성 작업에 매우 중요합니다.

테스트/릴리스(배포)

다음 단계에서는 테스트, 릴리스, 배포 프로세스에 초점을 맞춥니다. 이 단계를 "인시던트가 발생하기 전에 문제를 포착할 수 있는 시스템과 프로세스를 얼마나 잘 작성합니까?"의 의미로 생각할 수 있습니다.

용량 계획/크기 조정

성공과 그에 따른 성장은 시스템에서 발생하는 문제만큼이나 안정성에 위협이 될 수 있습니다. 고객은 코드의 버그로 인해 종료되는 시스템과 동시에 너무 많은 사용자가 액세스를 시도하여 부하를 처리할 수 없는 상황으로 인해 종료되는 시스템 간의 차이를 알 수 없습니다. 이 수준의 계층 구조는 해당 위협을 해결하는 방법으로 용량 계획 및 크기 조정에 주의를 기울이도록 지시합니다.

개발 프로세스 및 사용자 환경

안정성 향상 학습 경로에서 다루지 않는 계층 구조의 두 가지 추가 수준: 개발 프로세스 및 좋은 사용자 환경(UX)을 만드는 작업. 안정성 향상 학습 경로에서는 이러한 두 가지 주제를 다루지 않지만 이러한 주제에 대한 다른 좋은 Learn 모듈을 이용할 수 있습니다.

안정성 계층 구조의 각 수준에 대한 별도의 Learn 모듈을 만들었습니다. 이 학습 경로에서 5개 모듈 모두에 참여하기를 바랍니다.

지식 점검

1.

Dickerson의 안정성 계층 구조에서 첫 번째 기본 수준은 무엇입니까?