클라우드 관리의 워크로드 작업

아티클
07/11/2023

일부 워크로드는 비즈니스의 성공에 매우 중요합니다. 이러한 워크로드의 경우 클라우드 관리에 필요한 비즈니스 약속을 충족하기에는 관리 기준이 충분하지 않습니다. 플랫폼 운영은 비즈니스 약속을 충족하기에 충분하지 않을 수도 있습니다. 이러한 매우 중요한 워크로드 하위 집합에는 워크로드가 작동하는 방식 및 지원 방법에 대한 특수한 포커스가 필요합니다.

그 대가로 워크로드 운영에 투자하면 성능이 향상되고 비즈니스 중단 위험이 감소하며 시스템 오류가 발생할 때 복구 속도가 빨라질 수 있습니다. 이 문서에서는 비즈니스 약속 개선을 추진하기 위해 우선 순위가 높은 워크로드의 지속적인 운영에 투자하는 방법을 설명합니다.

워크로드 운영에 투자하는 시기

파레토 원칙(80/20 규칙이라고도 함)은 효과의 80%가 원인의 20%에서 나온다고 말합니다. IT 포트폴리오가 시간이 지남에 따라 유기적으로 성장할 수 있는 경우 이 규칙은 종종 IT 포트폴리오 검토에 설명되곤 합니다. 투자가 필요한 효과에 따라 원인은 다를 수 있지만 다음과 같은 일반적인 원칙이 적용됩니다.

시스템 오류의 80%는 일반적인 오류 또는 버그 20%의 결과인 경향이 있습니다.
비즈니스 가치의 80%는 포트폴리오의 워크로드 중 20%에서 나오는 경향이 있습니다.
클라우드로 마이그레이션하는 작업의 80%는 이동되는 워크로드의 20%에서 비롯됩니다.
클라우드 관리 작업의 80%는 서비스 인시던트 또는 문제 티켓의 20%를 지원합니다.
가동 중단으로 인한 비즈니스 영향의 80%는 가동 중단의 영향을 받는 시스템의 20%에서 비롯됩니다.

워크로드 작업은 클라우드 채택 전략, 비즈니스 결과 및 운영 메트릭이 각각 제대로 이해되는 경우에만 적용되어야 합니다. 이는 클래식 IT 관점에서의 패러다임 전환입니다. 일반적으로 IT는 모든 워크로드가 동일한 수준의 지원을 경험했으며 비슷한 수준의 우선 순위가 필요하다고 가정했습니다.

심층 워크로드 운영에 투자하기 전 IT 및 비즈니스 모두 비즈니스 타당성과 클라우드 관리에 대한 투자 증가에 대한 기대를 이해해야 합니다.

데이터 시작

워크로드 작업은 워크로드 성능 및 지원 요구 사항에 대한 심층적인 이해로 시작합니다. 팀이 워크로드 작업에 투자하기 전에 워크로드 종속성, 애플리케이션 성능, 데이터베이스 진단, 가상 머신 원격 분석 및 인시던트 기록에 대한 풍부한 데이터가 있어야 합니다.

이 데이터는 워크로드 작업 결정을 주도하는 인사이트를 시드합니다.

지속적인 관찰

초기 데이터 및 지속적인 원격 분석은 워크로드의 성능에 대한 이론을 공식화하고 테스트하는 데 도움이 될 수 있습니다. 그러나 지속적인 워크로드 작업은 애플리케이션 및 데이터 성능에 중점을 두어 워크로드 성능에 대한 지속적이고 확장된 관찰에 뿌리를 두고 있습니다.

자동화 테스트

애플리케이션 수준에서 워크로드 작업의 첫 번째 요구 사항은 심층 테스트에 대한 투자입니다. 워크로드 작업을 통해 지원되는 모든 애플리케이션의 경우 애플리케이션 전체에 걸쳐 기능 및 규모 테스트를 제공하기 위해 테스트 계획을 수립하고 정기적으로 실행해야 합니다.

정기적인 테스트 원격 분석은 워크로드 작업에 대한 다양한 가설의 즉각적인 유효성 검사를 제공할 수 있습니다. 운영 및 아키텍처 패턴 개선은 실행 및 테스트가 가능합니다. 결과 델타는 지속적인 투자를 안내하는 명확한 영향 분석을 제공합니다.

릴리스 이해

릴리스 주기 및 릴리스 파이프라인에 대한 명확한 이해는 워크로드 작업의 중요한 요소입니다.

주기를 이해하면 잠재적 중단에 대비하고 팀이 운영에 부정적인 영향을 줄 수 있는 모든 릴리스를 사전에 해결할 수 있습니다. 또한 이러한 이해를 통해 클라우드 관리 팀은 채택 팀과 협력하여 제품의 품질을 지속적으로 개선하고 안정성에 영향을 줄 수 있는 버그를 해결할 수 있습니다.

더 중요한 점은 릴리스 파이프라인을 이해하면 워크로드의 RPO(복구 지점 목표)를 크게 향상시킬 수 있다는 것입니다. 수많은 시나리오에서 애플리케이션 복구에 대한 가장 빠르고 정확한 경로는 릴리스 파이프라인입니다. 새 릴리스가 발생할 때만 변경되는 애플리케이션 레이어의 경우 기존 백업 프로세스에서 애플리케이션을 복구하는 것보다 파이프라인 최적화에 더 많은 투자를 하는 것이 좋습니다.

배포 파이프라인은 복구에 가장 빠른 경로일 수 있지만 가장 빠른 수정 경로일 수도 있습니다. 애플리케이션에 빠르고 효율적이며 안정적인 릴리스 파이프라인이 있는 경우 클라우드 관리 팀은 자동화된 수정의 한 형태로 새 호스트에 대한 배포를 자동화하는 옵션을 제공합니다.

수정 및 복구를 위한 더 빠르고 효과적인 메커니즘이 더 많이 있을 수 있습니다. 그러나 기존 파이프라인의 사용이 비즈니스 약속을 충족하고 기존 DevOps 투자를 활용할 수 있는 경우 기존 파이프라인이 실행 가능한 대안이 될 수 있습니다.

워크로드에 변경 내용을 명확하게 전달

모든 워크로드에 대한 변경은 워크로드 작업의 가장 큰 위험 중 하나입니다. 클라우드 관리의 워크로드 작업 수준에 있는 모든 워크로드의 경우 클라우드 관리 팀은 클라우드 채택 팀과 긴밀히 협력하여 각 릴리스의 변경 내용을 이해해야 합니다. 사전 이해에 대한 이러한 투자는 운영 안정성에 직접적이고 긍정적인 영향을 미칠 것입니다.

결과 개선

워크로드에 대한 데이터 및 통신 투자는 다음 세 가지 영역 중 하나에서 지속적인 운영 개선에 대한 제안을 따를 수 있습니다.

기술적인 문제 해결
자동화된 수정
향상된 시스템 디자인

기술적인 문제 해결

최상의 워크로드 작업 계획에는 여전히 수정이 필요합니다. 클라우드 관리 팀이 채택 노력 및 릴리스를 이해하기 위해 연결 상태를 유지하려고 할 때 팀은 기술적인 문제 및 버그가 개발 팀의 지속적인 우선 순위인지 확인하기 위해 정기적으로 수정 요구 사항을 공유해야 합니다.

자동화된 수정

파레토 원칙을 적용하면 부정적인 비즈니스 영향의 80%가 서비스 인시던트의 20%에서 비롯된다고 말할 수 있습니다. 이러한 인시던트가 정상적인 개발 주기에서 해결될 수 없는 경우 수정 자동화에 대한 투자는 비즈니스 중단을 크게 줄일 수 있습니다.

향상된 시스템 디자인

기술적인 문제 해결 및 자동화된 수정의 경우 시스템 결함은 대부분의 시스템 중단의 일반적인 원인입니다. 다음과 같은 몇 가지 설계 원칙을 준수하여 전체 워크로드 작업에 가장 큰 영향을 줄 수 있습니다.

확장성: 증가된 부하를 처리하는 시스템의 기능입니다.
가용성: 시스템이 작동하고 작동하는 시간의 백분율입니다.
복원력: 시스템이 오류로부터 복구하고 계속 작동할 수 있는 기능입니다.
관리: 프로덕션 환경에서 시스템 실행을 유지하는 운영 프로세스입니다.
보안: 위협으로부터 애플리케이션 및 데이터를 보호합니다.

전체 작업을 개선하기 위해 Microsoft Azure Well-Architected Framework는 이러한 핵심 요소에 대한 준수를 위해 특정 워크로드를 평가하는 방법을 제공합니다. 플랫폼 작업 및 워크로드 작업 모두에 핵심 요소를 적용합니다.

다음 단계

클라우드 채택 프레임워크 내의 관리 방법을 완전히 이해하면 이제 클라우드 관리 원칙을 구현할 수 있습니다. 이 방법론을 작업 환경 내에서 실행 가능하게 만드는 방법을 알아봅니다.

이 방법론 적용