Azure Kubernetes Service의 Azure HDInsight 안정성

아티클
11/02/2024

참고 항목

2025년 1월 31일에 Azure HDInsight on AKS가 사용 중지됩니다. 2025년 1월 31일 이전에 워크로드가 갑자기 종료되지 않도록 워크로드를 Microsoft Fabric 또는 동등한 Azure 제품으로 마이그레이션해야 합니다. 구독의 나머지 클러스터는 호스트에서 중지되고 제거됩니다.

사용 중지 날짜까지 기본 지원만 사용할 수 있습니다.

Important

이 기능은 현지 미리 보기로 제공됩니다. Microsoft Azure 미리 보기에 대한 보충 사용 약관에는 베타 또는 미리 보기로 제공되거나 아직 일반 공급으로 릴리스되지 않은 Azure 기능에 적용되는 더 많은 약관이 포함되어 있습니다. 이 특정 미리 보기에 대한 자세한 내용은 Azure HDInsight on AKS 미리 보기 정보를 참조하세요. 질문이나 기능 제안이 있는 경우 AskHDInsight에서 세부 정보와 함께 요청을 제출하고 Azure HDInsight 커뮤니티에서 더 많은 업데이트를 확인하세요.

이 문서에서는 AKS(Azure Kubernetes Service)의 Azure HDInsight 안정성 지원과 재해 복구 및 비즈니스 연속성을 설명합니다.

가용성 영역 지원

Azure 가용성 영역은 각 Azure 지역 내에서 물리적으로 분리된 세 개 이상의 데이터 센터 그룹입니다. 각 영역 내의 데이터 센터에는 독립적인 전원, 냉각, 네트워킹 인프라가 장착되어 있습니다. 가용성 영역은 로컬 영역이 실패한 경우에 한 영역이 영향을 받는 경우 나머지 두 영역에서 지역 서비스, 용량 및 고가용성을 지원하도록 설계되었습니다.

오류는 소프트웨어 및 하드웨어 오류에서 지진, 홍수 및 화재와 같은 이벤트에 이르기까지 다양합니다. Azure 서비스의 중복성과 논리적 격리로 인해 오류 허용성에 도달합니다. Azure의 가용성 영역에 대한 자세한 내용은 지역 및 가용성 영역을 참조하세요.

Azure 가용성 영역 지원 서비스는 적절한 수준의 복원력과 유연성을 제공하도록 설계되었습니다. 두 가지 방법으로 구성할 수 있습니다. 영역 간 자동 복제를 사용하는 영역 중복 또는 특정 영역에 고정된 인스턴스를 사용하는 영역일 수 있습니다. 이러한 방식을 결합할 수도 있습니다. 영역 및 영역 중복 아키텍처에 대한 자세한 내용은 가용성 영역 및 지역 사용에 대한 권장 사항을 참조하세요.

AKS의 Azure HDInsight는 영역 중복 노드 풀을 만드는 Azure Kubernetes Service의 기능을 활용하여 가용성 영역을 지원합니다. 클러스터 풀 및 클러스터를 만들면서 배포할 가용성 영역을 선택할 수 있습니다. 클러스터 풀 또는 클러스터를 만든 후에는 가용성 영역을 변경할 수 없습니다.

필수 조건

가용성 영역은 클러스터 풀 버전 >= 1.2 및 클러스터 버전 >= 1.2.1에 대해서만 지원됩니다.
AKS의 Azure HDInsight는 하나의 기본 SKU만 있으며 Azure 지역에 AZ 지원이 있는 한 AZ를 지원합니다.

아래 지역은 AZ를 지원하지 않습니다.

아메리카 유럽 중동 아프리카 아시아 태평양

미국 서부 독일 북부
일부 VM SKU는 지역의 모든 가용성 영역을 지원하지는 않을 수 있습니다. 이러한 SKU를 선택하는 경우 AKS의 HDInsight 클러스터 풀 또는 클러스터도 해당 가용성 영역을 지원하지 않습니다.

아메리카	유럽	중동	아프리카	아시아 태평양
미국 서부	독일 북부

SLA 개선 사항

가용성 영역을 사용하는 AKS의 Azure HDInsight 클러스터에 대해 SLA의 증가는 없습니다.

가용성 영역을 사용하도록 설정된 리소스 만들기

클러스터 풀 지역을 선택한 후 클러스터 풀을 만드는 동안 하나 이상의 가용성 영역을 선택할 수 있습니다.
클러스터 클러스터를 만드는 동안 하나 이상의 가용성 영역을 선택할 수 있습니다.

내결함성

가용성 영역 오류에 대비하려면 서비스 용량을 여유 있게 프로비전하여 클러스터가 한 가용성 영역에서 용량 손실을 견딜 수 있게 하고 영역 전체에서 중단이 발생해도 성능 저하 없이 계속 작동할 수 있도록 하는 것이 좋습니다. 예를 들어 3개의 가용성 영역을 사용하는 경우 클러스터는 노드 중 1/3이 다운되는 것을 허용해야 합니다(가장 가까운 정수로 반올림).

영역 다운 환경

AKS 서비스의 Azure HDInsight는 영역 중복입니다. 영역 전체에 가동 중단이 발생하면 고객은 용량 감소로 인한 성능 저하를 예상해야 합니다. 고객은 영향을 받지 않는 가용성 영역에서 여전히 새 클러스터 풀과 클러스터를 만들 수 있습니다. 기존 클러스터는 감소된 용량으로 작동할 수 있습니다. 개별 오픈 소스 워크로드 권장 사항 및 모범 사례는 설명서에서 제공합니다.

재해 복구 및 비즈니스 연속성

DR(재해 복구)은 가동 중지 시간 및 데이터 손실을 초래하는 자연 재해 또는 실패한 배포와 같은 영향이 큰 이벤트로부터 복구하는 것입니다. 원인에 관계없이 최상의 재해 해결책은 잘 정의되고 테스트된 DR 계획과 DR을 적극적으로 지원하는 애플리케이션 디자인입니다. 재해 복구 계획을 만들기 전에 재해 복구 전략을 디자인하기 위한 권장 사항을 참조하세요.

DR과 관련하여 Microsoft는 공유 책임 모델을 사용합니다. 공유 책임 모델에서 Microsoft는 기준 인프라 및 플랫폼 서비스를 사용할 수 있도록 보장합니다. 동시에 많은 Azure 서비스는 데이터를 자동으로 복제하거나 실패한 지역에서 대체하여 사용하도록 설정된 다른 지역으로 교차 복제하지 않습니다. 이러한 서비스의 경우 자신의 워크로드에 적합한 재해 복구 계획을 설정할 책임이 있습니다. Azure PaaS(Platform as a Service) 제품에서 실행되는 대부분의 서비스는 DR을 지원하는 기능과 지침을 제공하며, 서비스별 기능을 사용하여 빠른 복구를 지원하여 DR 계획을 개발하는 데 도움이 될 수 있습니다.

AKS의 Azure HDInsight 컨트롤 플레인 서비스와 데이터베이스는 Azure 지역에 배포됩니다. 이러한 지역 중 AKS의 Azure HDInsight 인스턴스와 데이터베이스 인스턴스는 격리되어 있습니다. 지역 수준에서 중단이 발생하면 하나의 지역이 다운됩니다. AKS의 Azure HDInsight 컨트롤 플레인의 RP(리소스 공급자)와 데이터베이스 및 이 지역의 모든 고객 클러스터를 포함한 이 지역의 모든 리소스가 해당합니다. 이 경우 지역 중단이 끝날 때까지 기다릴 수 밖에 있습니다. 영역 중단이 완전히 복구되면 AKS의 Azure HDInsight 서비스가 복구되고 모든 고객 클러스터가 정상으로 돌아갑니다. 중단 후 데이터 불일치로 인한 몇 가지 문제가 발생할 수 있으며, 애플리케이션 워크로드에 따라 수동 수정이 필요할 수 있습니다.

다중 지역 재해 복구

AKS의 Azure HDInsight는 현재 지역 간 장애 조치(failover)를 지원하지 않습니다. 지역 간 고가용성 재해 복구를 사용하여 비즈니스 연속성을 향상하려면 복잡성과 비용이 더 높은 아키텍처 디자인이 필요합니다. 고객은 다른 지역에 걸쳐 주요 데이터 및 작업 상태를 백업하기 위해 자체 솔루션을 설계하려 할 수 있습니다.

중단 검색, 알림 및 관리

AKS의 HDInsight에서 Azure 모니터링 도구를 사용하여 클러스터에서의 비정상적인 동작을 탐지하고 해당 경고 알림을 설정하세요. 다양한 방법으로 Log Analytics를 사용하고 모니터링을 위해 Azure Grafana 대시보드에서 관리되는 Prometheus 서비스를 사용할 수 있습니다. 자세한 내용은 Azure Monitor 통합을 참조하세요.
구독, 서비스 또는 지역과 관련된 서비스 문제, 계획된 유지 관리, 상태, 보안 공지에 관한 알림을 받으려면 Azure 상태 경고를 구독합니다. 문제 원인과 해결 ETA를 포함하는 상태 알림은 장애 조치와 장애 복구를 더 효율적으로 실행하는 데 도움이 됩니다. 자세한 내용은 서비스 상태 관리 및 Azure Service Health 설명서를 참조하세요.

단일 지역 재해 복구

현재 AKS의 Azure HDInsight에는 하나의 표준 서비스 제공 사항만 있으며 클러스터는 단일 지역 지리에서 만들어집니다. 고객은 애플리케이션 요구 사항에 따라 재해 복구 설정에 대한 책임을 집니다.

용량과 사전 예방적 재해 복구 복원력

AKS의 Azure HDInsight와 그 고객은 공유 책임 모델에 따라 운영됩니다. 즉, 고객은 자신이 배포하고 제어하는 서비스에 대한 재해 복구 요구 사항을 해결해야 합니다. 복구가 사전 예방적이도록 하려면 사전 할당되지 않은 사용자에게 영향을 미치는 시점에 용량이 보장되지 않음을 고려하여 고객이 항상 보조 복제본을 미리 배포해야 합니다.

HDInsight와 달리 AKS의 HDInsight 클러스터에서 사용되는 Virtual Machines에는 Azure VM과 동일한 할당량이 필요합니다. 자세한 내용은 용량 계획을 참조하세요.

이 문서에서 설명한 항목에 관해 자세히 알아보려면 다음을 참조하세요.

다음을 통해 공유

Azure Kubernetes Service의 Azure HDInsight 안정성

가용성 영역 지원

필수 조건

SLA 개선 사항

가용성 영역을 사용하도록 설정된 리소스 만들기

내결함성

영역 다운 환경

재해 복구 및 비즈니스 연속성

다중 지역 재해 복구

중단 검색, 알림 및 관리

단일 지역 재해 복구

용량과 사전 예방적 재해 복구 복원력

피드백

추가 리소스

다음을 통해 공유

Azure Kubernetes Service의 Azure HDInsight 안정성

가용성 영역 지원

필수 조건

SLA 개선 사항

가용성 영역을 사용하도록 설정된 리소스 만들기

내결함성

영역 다운 환경

재해 복구 및 비즈니스 연속성

다중 지역 재해 복구

중단 검색, 알림 및 관리

단일 지역 재해 복구

용량과 사전 예방적 재해 복구 복원력

관련 콘텐츠

피드백

추가 리소스