다음을 통해 공유


Azure Kubernetes Service의 Azure HDInsight 안정성

이 문서에서는 AKS(Azure Kubernetes Service)의 Azure HDInsight 안정성 지원을 설명하고 특정 안정성 권장 사항재해 복구 및 비즈니스 연속성을 모두 다룹니다. Azure의 안정성 원칙에 대한 자세한 개요는 Azure 안정성을 참조하세요.

안정성 권장 사항

이 섹션에는 복원력과 가용성을 달성하기 위한 권장 사항이 포함되어 있습니다. 각 권장 사항은 다음 두 가지 범주 중 하나에 속합니다.

  • 상태 항목은 Azure 리소스 구성 설정, 다른 서비스에 대한 종속성 등 Azure 워크로드를 구성하는 주요 구성 요소의 적절한 기능 및 구성 항목과 같은 영역을 다룹니다.

  • 위험 항목은 가용성 및 복구 요구 사항, 테스트, 모니터링, 배포 및 해결되지 않은 상태로 둘 경우 환경에서 문제가 될 가능성이 큰 기타 항목과 같은 영역을 다룹니다.

안정성 권장 사항 우선 순위 매트릭스

각 권장 사항은 다음 우선 순위 매트릭스에 따라 표시됩니다.

이미지 우선 순위 설명
높음 즉시 수정 필요.
중간 3-6개월 이내에 수정.
낮음 검토 필요.

안정성 권장 사항 요약

범주 우선 순위 권장
가용성 기본 및 최소 가상 머신 크기 권장 사항
AKS 클러스터에서 HDInsight 자동 크기 조정
모니터링 Log Analytics에 통합하는 방법
Azure Managed Prometheus 및 Grafana를 사용한 모니터링
보안 NSG를 사용하여 AKS의 Azure HDInsight로의 트래픽 제한

가용성 영역 지원

Azure 가용성 영역은 각 Azure 지역 내에서 물리적으로 분리된 세 개 이상의 데이터 센터 그룹입니다. 각 영역 내의 데이터 센터에는 독립적인 전원, 냉각, 네트워킹 인프라가 장착되어 있습니다. 가용성 영역은 로컬 영역이 실패한 경우에 한 영역이 영향을 받는 경우 나머지 두 영역에서 지역 서비스, 용량 및 고가용성을 지원하도록 설계되었습니다.

오류는 소프트웨어 및 하드웨어 오류에서 지진, 홍수 및 화재와 같은 이벤트에 이르기까지 다양합니다. Azure 서비스의 중복성과 논리적 격리로 인해 오류 허용성에 도달합니다. Azure의 가용성 영역에 대한 자세한 내용은 지역 및 가용성 영역을 참조하세요.

Azure 가용성 영역 지원 서비스는 적절한 수준의 복원력과 유연성을 제공하도록 설계되었습니다. 두 가지 방법으로 구성할 수 있습니다. 영역 간 자동 복제를 사용하는 영역 중복 또는 특정 영역에 고정된 인스턴스를 사용하는 영역일 수 있습니다. 이러한 방식을 결합할 수도 있습니다. 영역 및 영역 중복 아키텍처에 대한 자세한 내용은 가용성 영역 및 지역 사용에 대한 권장 사항을 참조하세요.

AKS의 Azure HDInsight는 영역 중복 노드 풀을 만드는 Azure Kubernetes Service의 기능을 활용하여 가용성 영역을 지원합니다. 클러스터 풀 및 클러스터를 만드는 동안 배포할 가용성 영역을 선택할 수 있습니다. 클러스터 풀 또는 클러스터가 만들어지면 가용성 영역을 변경할 수 없습니다.

필수 조건

  • 가용성 영역은 클러스터 풀 버전 = 및 클러스터 버전 >>= 1.2 1.2.1에 대해서만 지원됩니다.

  • AKS의 Azure HDInsight에는 하나의 기본 SKU만 있으며 Azure 지역에 AZ 지원이 있는 한 AZ를 지원합니다.

    아래 지역은 AZ를 지원하지 않습니다.

    아메리카 유럽 중동 아프리카 아시아 태평양
    미국 서부 독일 북부
  • 일부 VM SKU는 지역의 모든 가용성 영역을 지원하지 않을 수 있습니다. 이러한 SKU를 선택하는 경우 AKS 클러스터 풀 또는 클러스터의 HDInsight는 해당 가용성 영역도 지원하지 않습니다.

SLA 개선 사항

가용성 영역을 사용하도록 설정된 AKS 클러스터에는 Azure HDInsight에 대한 SLA가 증가하지 않습니다.

가용성 영역을 사용하도록 설정된 리소스 만들기

  • 클러스터 풀 지역을 선택한 후 클러스터 풀을 만드는 동안 하나 이상의 가용성 영역을 선택할 수 있습니다.

  • 클러스터를 만드는 동안 하나 이상의 가용성 영역을 선택할 수 있습니다.

내결함성

가용성 영역 오류에 대비하려면 클러스터가 한 가용성 영역에서 용량 손실을 허용할 수 있도록 서비스 용량을 과도하게 프로비전하고 영역 전체 가동 중단 시 성능 저하 없이 계속 작동하도록 하는 것이 좋습니다. 예를 들어 3개의 가용성 영역을 사용하도록 설정하는 경우 클러스터는 노드 중 1/3을 허용해야 합니다(가장 가까운 정수로 반올림).

영역 다운 환경

AKS 서비스의 Azure HDInsight는 영역 중복입니다. 영역 전체 가동 중단 시 고객은 용량 감소로 인한 성능 저하를 예상해야 합니다. 고객은 영향을 받지 않는 가용성 영역에서 여전히 새 클러스터 풀 및 클러스터를 만들 수 있습니다. 기존 클러스터는 용량 감소로 작동할 수 있습니다. 개별 오픈 소스 워크로드 권장 사항 및 모범 사례는 설명서에 제공됩니다.

재해 복구 및 비즈니스 연속성

DR(재해 복구)은 가동 중지 시간 및 데이터 손실을 초래하는 자연 재해 또는 실패한 배포와 같은 영향이 큰 이벤트로부터 복구하는 것입니다. 원인에 관계없이 최상의 재해 해결책은 잘 정의되고 테스트된 DR 계획과 DR을 적극적으로 지원하는 애플리케이션 디자인입니다. 재해 복구 계획을 만들기 전에 재해 복구 전략을 디자인하기 위한 권장 사항을 참조하세요.

DR과 관련하여 Microsoft는 공유 책임 모델을 사용합니다. 공유 책임 모델에서 Microsoft는 기준 인프라 및 플랫폼 서비스를 사용할 수 있도록 보장합니다. 동시에 많은 Azure 서비스는 데이터를 자동으로 복제하거나 실패한 지역에서 대체하여 사용하도록 설정된 다른 지역으로 교차 복제하지 않습니다. 이러한 서비스의 경우 자신의 워크로드에 적합한 재해 복구 계획을 설정할 책임이 있습니다. Azure PaaS(Platform as a Service) 제품에서 실행되는 대부분의 서비스는 DR을 지원하는 기능과 지침을 제공하며, 서비스별 기능을 사용하여 빠른 복구를 지원하여 DR 계획을 개발하는 데 도움이 될 수 있습니다.

AKS 컨트롤 플레인 서비스 및 데이터베이스의 Azure HDInsight는 Azure 지역에 배포됩니다. 이러한 지역 중 AKS의 Azure HDInsight 인스턴스와 데이터베이스 인스턴스는 격리되어 있습니다. 지역 수준에서 중단이 발생하면 하나의 지역이 다운됩니다. AKS 컨트롤 플레인의 Azure HDInsight RP(리소스 공급자), AKS 컨트롤 플레인의 Azure HDInsight 데이터베이스 및 이 지역의 모든 고객 클러스터를 포함하여 이 지역의 모든 리소스. 이 경우 지역 중단이 끝날 때까지 기다릴 수 밖에 있습니다. 영역 중단이 완전히 복구되면 AKS 서비스의 Azure HDInsight가 복구되고 모든 고객 클러스터가 정상으로 돌아갑니다. 중단 후 데이터 불일치로 인해 몇 가지 문제가 발생할 수 있으며 애플리케이션 워크로드에 따라 수동 수정이 필요할 수 있습니다.

다중 지역 재해 복구

AKS의 Azure HDInsight는 현재 지역 간 장애 조치(failover)를 지원하지 않습니다. 지역 간 고가용성 재해 복구를 사용하여 비즈니스 연속성을 향상하려면 복잡성과 비용이 더 높은 아키텍처 디자인이 필요합니다. 고객은 다른 지역에 걸쳐 주요 데이터 및 작업 상태를 백업하기 위해 자체 솔루션을 설계하려 할 수 있습니다.

중단 검색, 알림 및 관리

  • AKS의 HDInsight에서 Azure 모니터링 도구를 사용하여 클러스터에서의 비정상적인 동작을 탐지하고 해당 경고 알림을 설정하세요. 다양한 방법으로 Log Analytics를 사용하고 모니터링을 위해 Azure Grafana 대시보드에서 관리되는 Prometheus 서비스를 사용할 수 있습니다. 자세한 내용은 Azure Monitor 통합을 참조하세요.

  • 구독, 서비스 또는 지역과 관련된 서비스 문제, 계획된 유지 관리, 상태, 보안 공지에 관한 알림을 받으려면 Azure 상태 경고를 구독합니다. 문제 원인과 해결 ETA를 포함하는 상태 알림은 장애 조치와 장애 복구를 더 효율적으로 실행하는 데 도움이 됩니다. 자세한 내용은 서비스 상태 관리Azure Service Health 설명서를 참조하세요.

단일 지역 재해 복구

현재 AKS의 Azure HDInsight에는 하나의 표준 서비스 제공 사항만 있으며 클러스터는 단일 지역 지리에서 만들어집니다. 고객은 애플리케이션 요구 사항에 따라 디스터 복구 설정을 담당합니다.

용량과 사전 예방적 재해 복구 복원력

AKS의 Azure HDInsight 및 해당 고객은 공유 책임 모델에서 작동합니다. 즉, 고객이 배포하고 제어하는 서비스에 대한 재해 복구 요구 사항을 해결해야 합니다. 복구가 사전 예방적이도록 하려면 사전 할당되지 않은 사용자에게 영향을 미치는 시점에 용량이 보장되지 않음을 고려하여 고객이 항상 보조 복제본을 미리 배포해야 합니다.

HDInsight와 달리 AKS 클러스터의 HDInsight에서 사용되는 Virtual Machines에는 Azure VM과 동일한 할당량이 필요합니다. 자세한 내용은 용량 계획을 참조하세요.

이 문서에서 설명한 항목에 관해 자세히 알아보려면 다음을 참조하세요.