가용성 모니터링 및 용량 계획에 대한 이해

완료됨

가장 탄력적인 온라인 서비스라도 효과적으로 실행하기 위해서는 적절한 리소스가 필요합니다. 이는 예기치 않게 높은 수요가 Microsoft Online Services의 가용성에 영향을 미칠 가능성이 있는 응급 상황에서 특히 그렇습니다. Microsoft는 광범위한 가용성 모니터링 및 빈번한 용량 계획을 사용하여 긴급 상황에서도 고객이 서비스를 계속 사용할 수 있도록 합니다.

가용성 모니터링

Microsoft는 모든 온라인 서비스에 최적으로 실행하는 데 필요한 리소스가 있는지 확인하기 위해 광범위한 가용성 모니터링을 구현합니다. 서비스 팀은 자동화된 로그 및 원격 측정 분석을 사용하여 대기 중인 엔지니어에게 가용성 문제를 알립니다. 예를 들어, 서비스 팀은 서비스 상태를 위협할 수 있는 급증 현상에 대해 프로세서 및 메모리 사용률을 모니터링합니다. 서비스 팀은 일반 공급 모니터링 외에도 서비스의 특성에 따라 적절한 가용성 메트릭을 선택합니다. 예를 들어, SharePoint Online(SPO)은 홈페이지 가용성, 문서 업로드 및 다운로드 기능과 같은 핵심 고객 기능을 모니터링합니다.

대부분의 경우 당사 서비스는 추가 리소스를 프로비전하거나 영향을 받지 않는 서비스 구성 요소로 트래픽을 다시 라우팅하여 가용성을 위협하는 문제에 자동으로 대응합니다. 서비스 팀 엔지니어는 기본 문제를 조사하고 해결하여 경고에 대응합니다. 잠재적인 보안 인시던트가 보안 인시던트 대응 프로세스를 사용하여 해결을 위해 워크로드별 보안 대응 팀으로 에스컬레이션됨을 나타내는 가용성 문제입니다.

용량 계획

용량 계획은 서비스 팀이 Microsoft Online Services 가용성을 지원하는 데 필요한 리소스를 할당하는 데 도움이 됩니다. 장애 조치(failover)에 대한 일관된 용량을 보장하는 Microsoft의 ERCM 프로그램의 일부로 정기적인 용량 계획이 필요합니다. 서비스 팀은 분기별 검토 및 추가 용량 검토가 필요한 비상 상황 시 용량 데이터를 검토합니다.

용량 계획에 대한 원시 데이터는 각 서비스 팀에서 유지 관리하며 시스템 처리, 메모리 및 하드웨어 용량과 같은 메트릭을 포함합니다. 예정된 검토는 시스템의 현재 용량 모델을 사용하고 긴급 상황에서 예상되는 요구 사항에 대해 해당 모델을 테스트합니다. 모델이 용량의 격차를 나타내는 경우 시스템 용량에 대한 제안된 변경 사항은 검토를 위해 서비스 팀 리더에게 제출됩니다. 승인된 변경 사항은 서비스 팀 엔지니어가 구현하기 전에 새 모델에 통합됩니다.

용량 계획의 일환으로 각 서비스 팀은 성능 데이터를 수집하고 시스템 용량의 정확한 모델을 유지 관리할 책임이 있는 용량 프로젝트 관리자(PM)를 지정합니다. 분기별 용량 검토를 조정하는 것 외에도 용량 PM은 자동화된 가용성 모니터링 경고에 대한 기본 연락 창구 역할을 수행합니다. 용량 PM은 적절한 서비스 팀 직원에게 해당 사실이 전달되어 해당 지구언이 가용성 문제를 해결하기 위해 즉시 대응할 수 있도록 합니다.

자세한 정보