운영 우수성에 대한 디자인 검토 검사 목록

이 검사 목록은 운영 우수성 문화를 구축하는 데 도움이 되는 권장 사항 집합을 제공합니다. DevOps 접근 방식부터 시작하여 여러 분야의 특수화를 통합합니다. 이 방법은 엄격한 디자인 및 개발 사례를 만듭니다. 이 접근 방식은 인프라 및 코드의 반복 가능하고 안정적이며 안전한 배포로 이어집니다.

혜택을 받는 영역에서 사람의 개입 우선 순위를 지정하고 다른 영역에 자동화를 통합합니다. 가시성은 상태 이벤트를 모니터링하고 향후 제품 개발을 알리기 위해 현재 워크로드 디자인 및 구현의 유효성을 검사하여 운영 우수성을 제공합니다.

운영 우수성에 대한 절충안 및 권장 사항을 고려하지 않으면 워크로드가 위험에 처할 수 있습니다. 디자인의 성공에 대한 확신을 심어주기 위해 다음 검사 목록에 설명된 사항을 신중하게 고려합니다.

검사 목록

  코드 권장
OE:01 워크로드 팀 구성원의 특수화를 결정하고 워크로드를 설계, 개발, 배포 및 운영하기 위한 강력한 사례 집합에 통합하여 사양에 맞게 워크로드를 운영합니다. 팀 구성원은 의사 결정 및 책임을 명확히 하고, 지속적인 개선과 최적화를 소중히 여기며, 지속적인 학습을 통합하는 비난 없는 문화를 채택해야 합니다.
OE:02 설명서, 검사 목록 또는 자동화를 사용하여 필요에 따라 루틴을 실행하는 방법과 긴급 운영 작업을 공식화합니다. 왼쪽 이동 접근 방식과 같은 업계 최고의 사례 및 접근 방식을 채택하여 팀 프로세스 및 결과물에 대한 일관성과 예측 가능성을 위해 노력합니다.
OE:03 소프트웨어 아이디어 및 계획 프로세스를 공식화합니다. 확립된 산업 및 조직 표준에서 가져옵니다. 우선 순위가 지정된 공통 백로그 및 충분히 자세한 사양을 사용합니다. 결과에 따라 계획 프로세스의 지속적인 개선을 추진합니다.
OE:04
OE:04
OE:04
개발 및 테스트에 대한 업계에서 입증된 사례를 따라 소프트웨어 개발 및 품질 보증 프로세스를 최적화합니다. 명확한 역할 지정을 위해 도구, 소스 제어, 애플리케이션 디자인 패턴, 설명서 및 스타일 가이드와 같은 구성 요소의 사례를 표준화합니다.
OE:05 표준화된 IaC(Infrastructure as Code) 접근 방식을 사용하여 리소스 및 해당 구성을 준비합니다. 다른 코드와 마찬가지로 일관된 스타일, 적절한 모듈화 및 품질 보증으로 IaC를 디자인합니다. 가능한 경우 선언적 접근 방식을 선호합니다.
OE:06 예측 가능한 자동화된 파이프라인을 통해 제안된 변경 내용을 구동하는 워크로드 공급망을 빌드합니다. 파이프라인은 환경 전체에서 이러한 변경 내용을 테스트하고 승격합니다. 공급망을 최적화하여 워크로드를 안정적이고 안전하며 비용 효율적이고 성능이 뛰어나게 만듭니다.
OE:07
OE:07
모니터링 시스템을 설계 및 구현 하여 디자인 선택 사항의 유효성을 검사하고 향후 디자인 및 비즈니스 결정을 알릴 수 있습니다. 이 시스템은 워크로드의 인프라 및 코드에서 내보내는 운영 원격 분석, 메트릭 및 로그를 캡처하고 노출합니다.
OE:08 효과적인 응급 운영 사례를 개발합니다. 워크로드가 인프라 및 코드에서 의미 있는 상태 신호를 내보내도록 합니다. 결과 데이터를 수집하고 이를 사용하여 대시보드 및 쿼리를 통해 긴급 대응을 시행하는 실행 가능한 경고를 생성합니다. 호출 회전, 인시던트 관리, 긴급 리소스 액세스 및 사후 관리 실행과 같은 사람의 책임을 명확하게 정의합니다.
OE:09 인간의 개입에 대한 통찰력과 적응성을 활용하지 않고, 매우 절차적이며, 자동화 투자 수익을 산출하는 유통 기한이 있는 모든 작업을 자동화합니다. 가능하면 자동화 및 사용자 지정 구현을 위해 기성 소프트웨어를 선택합니다. 모든 자동화를 워크로드 구성 요소와 동일하게 처리하고 Well-Architected Framework 핵심 요소를 디자인 및 구현에 적용합니다.
OE:10 수명 주기 문제, 부트스트랩, 거버넌스 및 규정 준수 가드레일 적용과 같은 작업을 위해 자동화를 미리 설계하고 구현합니다. 나중에 자동화를 개조하지 마세요. 플랫폼에서 제공하는 자동화 기능을 선택합니다.
OE:11 워크로드의 안전한 배포 사례를 명확하게 정의합니다. 작고 증분적인 품질 제어 릴리스 방법의 이상을 강조합니다. 최신 배포 패턴 및 점진적 노출 기술을 사용하여 위험을 제어합니다. 일상적인 배포 및 긴급 또는 핫픽스 배포를 고려합니다.
OE:12 신속한 복구를 통해 예기치 않은 중간 출시 문제를 해결하는 배포 실패 완화 전략을 구현합니다. 롤백, 기능 사용 안 함 또는 배포 패턴의 네이티브 기능 사용과 같은 여러 방법을 결합합니다.

다음 단계

운영 우수성 절충을 검토하여 다른 개념을 살펴보는 것이 좋습니다.