다음을 통해 공유


캐리어 등급 워크로드에 대한 테스트 및 유효성 검사

지속적인 테스트 및 유효성 검사는 잠재적으로 생명을 위협하기 전에 문제를 감지하고 resolve 데 도움이 될 수 있습니다. 카오스 테스트와 같은 잘 알려진 테스트 방법론을 고려합니다. 배포 환경이 복잡하고 다중 계층화되어 있으므로 애플리케이션의 수명 동안 테스트를 수행해야 합니다.

중요

중요 업무용 워크로드에 대한 지속적인 유효성 검사를 구현하는 방법에 대한 자세한 내용은 여기에서 확인할 수 있습니다.

또한 지원 가능성은 애플리케이션 수명 내내 강력해야 합니다. 고가용성 시스템은 현장의 문제에 신속하게 대응하고 resolve 근본 원인 분석을 수행하고 체계적인 디자인 결함을 찾을 수 있는 고품질 지원 팀에 의존합니다.

애플리케이션이 잘 설계되었음을 증명하려면 테스트가 필요하며 테스트 편향을 방지하기 위해 비정상 상황 테스트 프레임워크를 사용하는 것이 이상적입니다. 이 방법론은 모든 종속 요소의 오류를 시뮬레이션합니다. 강력하고 정기적인 테스트는 디자인을 증명하고 원래 실패 모드 분석의 유효성을 검사해야 합니다.

너무 위험한 것으로 간주되므로 중복성 또는 복원력 측정값을 테스트할 수 없는 애플리케이션 또는 서비스에 대해 경고 플래그를 발생시켜야 합니다.

중복성 및 복원력 측정값을 테스트하지 않으면 안전에 중요한 관점에서 볼 때 이러한 조치가 필요할 때 작동하지 않을 것이라는 유일한 유효한 가정이 있습니다. 예를 들어 소프트웨어 업그레이드, 구성 업데이트 및 오류 복구에 공통 경로를 사용하면 측정값이 작동하는지 확인하는 데 유용한 메커니즘을 제공합니다.

사용자 오류

Telcos의 경험은 모든 중단의 60%가 실제로 인간의 실수의 결과라는 것입니다. 잘 설계된 애플리케이션은 이를 인식하고 보정하려고 합니다. 다음은 몇 가지 제안된 방법이지만 목록은 완전하지 않으며 지정된 워크로드에 적용 가능한 항목은 사례별로 고려해야 합니다.

  • 자동화 사용을 최대화하면 작업자가 길고 복잡한 명령을 입력하거나 여러 요소에서 반복적인 작업을 수행하지 않아도 됩니다. 그러나 자동화가 실제로 구성 오류의 영향을 확대하여 몇 초 만에 글로벌 네트워크를 통해 롤아웃할 수 있으므로 폭발 반경을 고려하려면 주의해야 합니다. 다음 단계로 진행하기 전에 사람의 승인이 필요한 의사 결정 게이트와 같은 강력한 검사 및 균형이 권장됩니다.
  • 구문 검사기 및 시뮬레이션 도구를 활용하여 광범위한 프로덕션으로 전환되는 변경으로 인한 오류 또는 예기치 않은 부작용의 가능성을 최소화합니다.
  • 신중하게 제어된 카나리아 배포를 사용하면 제한된 scope 전체 프로덕션에서 변경의 영향을 관찰하고 유효성을 검사할 수 있습니다.
  • 오류 복구에 필요한 관리 인터페이스 및 프로세스가 일상적인 작업에 사용되는 것과 동일하도록 보장하면 운영자가 익숙하지 않은 화면과 거의 사용되지 않는 MOP(프로시저 방법)에 직면하지 않도록 합니다.

클라이언트

일반 클라이언트 라이브러리는 엔드 투 엔드 시스템의 일부이기도 하며 동등한 분석 및 테스트가 필요합니다. 시스템 클라이언트의 비율에 동시에 영향을 주는 공통 클라이언트 코드의 소프트웨어 문제는 애플리케이션 서버 쪽 문제와 동일한 방식으로 전체 가용성에 영향을 줍니다.

다음 단계

아키텍처 우수성의 5가지 핵심 요소를 다시 검토하여 캐리어 등급 워크로드에 대한 견고한 기반을 형성합니다.