운영 팀을 구성하기 위한 애플리케이션 디자인
클라우드로의 전환은 운영 팀의 역할을 근본적으로 변경했습니다. 더 이상 애플리케이션을 호스트하는 하드웨어 및 인프라를 관리할 책임이 없습니다. 그러나 성공적인 클라우드 애플리케이션을 실행하기 위한 작업은 여전히 중요합니다. 주요 함수는 다음과 같습니다.
- 배포.
- 모니터링.
- 에스컬레이션.
- 인시던트 대응.
- 보안 감사.
강력한 로깅 및 추적은 클라우드 애플리케이션에서 특히 중요합니다. 운영 팀이 성공에 필요한 데이터와 인사이트를 받을 수 있도록 설계 및 계획에 포함합니다.
권장 사항
모든 것을 관찰할 수 있도록 합니다. 솔루션이 배포되고 작동되면 로그 및 추적이 시스템에 대한 기본 인사이트입니다. 추적은 시스템을 통해 경로를 기록합니다. 추적을 사용하여 병목 상태, 성능 문제 및 오류 지점을 정확히 파악합니다. 로깅 은 애플리케이션 상태 변경, 오류 및 예외와 같은 개별 이벤트를 캡처합니다. 프로덕션 환경에서 로깅을 사용하도록 설정하거나 가장 필요할 때 중요한 인사이트를 잃을 수 있습니다.
모니터링을 위한 계측. 모니터링은 가용성, 효율성 및 시스템 상태를 포함하여 애플리케이션의 성능에 대한 인사이트를 제공합니다. 예를 들어 서비스 수준 계약을 충족하는지 여부를 보여 줍니다. 모니터링은 시스템의 정상 작동 중에 발생하며 가능한 한 실시간에 가까워야 합니다. 이 방법은 운영 직원이 문제에 신속하게 대응할 수 있도록 하는 데 도움이 됩니다. 이상적으로 효과적인 모니터링은 중요한 오류로 확대되기 전에 문제를 방지하는 데 도움이 됩니다. 자세한 내용은 모니터링 및 진단을 참조하세요.
근본 원인 분석을 위한 계측입니다. 근본 원인 분석은 오류의 근본 원인을 찾는 프로세스입니다. 오류가 발생한 후에 발생합니다.
분산 추적을 사용합니다. 동시성, 비동기 및 클라우드 규모를 위해 설계된 분산 추적 시스템을 사용합니다. 추적에는 서비스 경계를 넘어 흐르는 상관 관계 ID가 포함되어야 합니다. 단일 작업에는 여러 애플리케이션 서비스에 대한 호출이 포함될 수 있습니다. 작업이 실패하면 상관 관계 ID를 통해 오류의 원인을 파악할 수 있습니다.
로그 및 메트릭을 표준화합니다. 운영 팀은 솔루션의 다양한 서비스에서 로그를 집계해야 합니다. 모든 서비스가 자체 로깅 형식을 사용하는 경우 유용한 정보를 검색하기가 어렵거나 불가능해집니다. 보낸 사람의 상관 관계 ID, 이벤트 이름 및 IP 주소와 같은 필드를 포함하는 공통 스키마를 정의합니다. 개별 서비스는 기본 스키마를 상속하고 추가 필드를 포함할 수 있는 사용자 지정 스키마를 파생시킬 수 있습니다.
프로비전, 배포 및 모니터링을 비롯한 관리 작업을 자동화합니다. 작업을 자동화하면 반복 가능하며 인간의 오류 발생 가능성이 줄어듭니다.
구성을 코드로 처리합니다. 필요한 경우 변경 내용을 추적 및 버전 지정하고 변경 내용을 롤백할 수 있도록 버전 제어 시스템에 구성 파일을 저장합니다.