Share via


Azure의 캐리어 등급 워크로드

중요 업무용 시스템은 주로 가동 시간을 극대화하는 데 중점을 두고 있으며 많은 산업에 존재합니다. 통신 업계에서는 통신 등급 시스템이라고 합니다. 이러한 시스템은 다음 드라이버 중 하나 이상으로 인해 개발됩니다.

  • 인명 손실 또는 부상 최소화.
  • 벌금을 지불하지 않도록 안정성에 대한 규제 요구 사항을 충족합니다.
  • 경쟁 업체에 대한 변동을 최소화하기 위해 고객에게 서비스를 최적화합니다.
  • 비즈니스 또는 정부 고객과 계약 SLA(서비스 수준 계약)를 충족합니다.

이 문서 시리즈는 중요 업무용 워크로드에 대한 디자인 방법론 을 적용하여 Azure에서 매우 안정적이고 복원력이 뛰어나며 사용 가능한 통신 워크로드를 빌드하고 운영하기 위한 규범적 지침을 알려줍니다.

참고

이 시리즈의 문서는 통신 산업 내에서 99.999% ('5 9s') 수준의 안정성을 설계할 때 추가적인 중요 업무상 고려 사항을 제공하는 데 중점을 줍니다.

이동 통신 사업자 등급 워크로드란?

워크로드라는 용어는 공통 비즈니스 목표 또는 공통 비즈니스 프로세스의 실행을 지원하는 애플리케이션 리소스 컬렉션을 말하며, API 및 데이터 저장소와 같은 여러 서비스가 함께 작동하여 특정 엔드투엔드 기능을 제공합니다.

중요 업무용이라는 용어는 상당한 재무 비용(중요 비즈니스용) 또는 인적 비용(안전에 중요)이 사용 불가 또는 성능 저하와 관련된 중요도 분류를 의미합니다.

캐리어 등급 워크로드는 중요 비즈니스용 워크로드와 안전에 중요한 워크로드를 모두 기반으로 하며, 연간 가동 중지 시간(분 또는 초)만 사용하여 운영해야 하는 기본 요구 사항이 있습니다. 이 작동 시간 요구 사항을 달성하지 못하면 광범위한 인명 손실, 상당한 벌금 또는 계약상의 처벌이 발생할 수 있습니다.

워크로드의 운영 측면에는 안정성을 측정하는 방법과 충족하거나 초과해야 하는 목표가 포함됩니다. 신뢰할 수 있는 시스템은 일반적으로 99.999% 가동 시간(일반적으로 '5 9s'이라고 함) 또는 1년 동안 0.001% 가동 중지 시간(약 5분)을 대상으로 합니다. 일부 시스템은 99.9999% 작동 시간 또는 연간 30초 가동 중지 시간 또는 더 높은 수준의 안정성을 대상으로 합니다. 예약된 유지 관리, 인프라 오류, 인적 오류, 소프트웨어 문제, 자연 재해 등 모든 형태와 중단 원인을 다룹니다.

사용되는 플랫폼은 상용, 기성 하드웨어를 통해 전용 전용 하드웨어에서 OpenStack 또는 VMware 클라우드로 발전했지만, 통신 회사는 연간 ≤ 5분의 가동 중지 시간을 달성하는 서비스를 지속적으로 제공하며, 대부분의 경우 예약되지 않은 중단으로 인해 ≤ 30초의 가동 중지 시간을 달성합니다.

일반적인 과제는 무엇인가요?

다음과 같은 기본 이유로 캐리어 등급 워크로드를 빌드하는 것은 어려운 일입니다.

리프트 앤 시프트 접근 방식

통신 회사에는 기존 인프라에서 예상되는 동작을 제공하는 잘 설계된 애플리케이션이 있습니다. 그러나 이러한 애플리케이션을 퍼블릭 클라우드 인프라 이식하는 것이 복원력에 영향을 미치지 않는다고 가정하기 전에 주의해야 합니다.

기존 애플리케이션은 온-프레미스에서 퍼블릭 클라우드로 이동할 때 그대로 유지되지 않을 수 있는 기본 인프라에 대한 일련의 가정을 만듭니다. 설계자는 여전히 새로운 현실을 수용하기 위해 인프라 및 애플리케이션 디자인을 보유하고 조정해야 검사. 또한 설계자는 새 인프라가 온-프레미스에 존재하는 제한을 제거하는 기회를 찾아야 합니다.

예를 들어 온-프레미스 시스템의 업그레이드는 함께 새 배포를 만들기에 충분한 하드웨어를 유지 관리하고 안전한 방식으로 천천히 전환할 수 없으므로 제자리에 있어야 합니다. 이 업그레이드 경로는 업그레이드 및 롤백을 관리하는 방법에 대한 다양한 요구 사항을 생성합니다. 이러한 요구 사항은 복잡성을 유발하며 업그레이드가 드물고 신중하게 관리되는 유지 관리 기간에서만 허용됨을 의미합니다.

그러나 퍼블릭 클라우드에서는 기존 배포와 병렬로 새 배포를 만드는 것이 합리적입니다. 이 프로세스는 애플리케이션의 운영 디자인과 사용자 환경의 개선 사항 및 기대치를 크게 단순화할 수 있는 기회를 만듭니다.

모놀리식 솔루션

다양한 중요 업무용 산업의 경험은 원하는 수준의 가용성을 달성할 모놀리식 솔루션을 만드는 것이 현실적이지 않다는 것을 보여줍니다. 복잡한 시스템에는 실패의 잠재적인 원본이 너무 많습니다. 대신 성공적인 솔루션은 개별 독립 및 중복 요소로 구성됩니다. 각 단위는 비교적 기본적인 가용성(일반적으로 ~99.9%)을 가지지만 함께 결합하면 총 솔루션이 필요한 가용성 목표를 달성합니다. 그런 다음, 캐리어 등급 엔지니어링의 기술은 중복 요소에 공통적인 유일한 종속성이 전체 가용성에 가장 중요한 영향을 미치므로 절대적으로 필요한 종속성이며, 종종 디자인에서 다른 어떤 것보다 큰 크기의 순서를 가집니다.

영역 중복성 빌드만

Microsoft Azure 가용성 영역 사용하는 것은 하드웨어 오류 또는 지역화된 환경 문제로 인한 중단 위험을 줄이기 위한 기본 선택입니다. 그러나 주로 다음과 같은 이유로 캐리어 등급 가용성을 달성하는 것만으로는 충분하지 않습니다.

  • AZ(가용성 영역)는 단일 지역의 두 영역 간의 네트워크 대기 시간이 2ms ≤ 있도록 설계되었습니다. AZ는 광범위하고 지리적으로 분산될 수 없습니다. 따라서 AZ는 홍수 또는 대규모 정전과 같은 자연 재해로 인한 오류의 상관 관계가 있는 위험을 공유하므로 지역 내에서 여러 AZ를 사용하지 않도록 설정할 수 있습니다.

  • 많은 Azure 서비스는 명시적으로 영역 중복으로 설계되므로 이를 사용하는 애플리케이션은 가용성 향상을 위해 명시적 논리가 필요하지 않습니다. 서비스 내에서 이 중복 함수를 사용하려면 각 영역의 요소 간에 협업이 필요합니다. 한 영역에서 다른 영역에서 상호 관련된 오류를 유발하는 소프트웨어 오류의 불가피한 위험이 있는 경우가 많습니다. 예를 들어 영역 중복 서비스와 함께 사용되는 비밀 또는 인증서와 관련된 모든 문제는 모든 AZ에 동시에 영향을 미칠 수 있습니다.

주요 디자인 영역은 무엇인가요?

이동 통신 사업자 등급 워크로드를 설계할 때 다음 영역을 고려합니다.

디자인 영역 설명
내결함성 애플리케이션 디자인은 애플리케이션 전체가 일정 수준에서 계속 작동할 수 있도록 피할 수 없는 오류를 허용해야 합니다. 디자인은 실패 지점을 최소화하고 페더레이션된 접근 방식을 취해야 합니다.
데이터 모델 디자인은 데이터베이스의 일관성, 가용성 및 파티션 허용 오차 요구 사항을 해결해야 합니다. 캐리어 등급 가용성을 사용하려면 애플리케이션이 여러 지역에 배포되어야 합니다. 이 배포를 수행하려면 해당 지역에서 애플리케이션의 데이터를 관리하는 방법을 신중하게 고려해야 합니다.
상태 모델링 효과적인 상태 모델은 모든 구성 요소, 플랫폼 및 애플리케이션의 가시성을 제공하므로 문제를 신속하게 검색할 수 있고 자체 복구 또는 기타 수정을 통해 응답이 준비됩니다.
테스트 및 유효성 검사 애플리케이션의 디자인 및 구현을 철저히 테스트해야 합니다. 또한 전체 솔루션으로 애플리케이션의 통합 및 배포를 테스트해야 합니다.

다음 단계

먼저 이동 통신 사업자 등급 애플리케이션 시나리오에 대한 디자인 원칙을 검토합니다.