AKS(Azure Kubernetes Service) 클러스터에 대한 기본 아키텍처

Azure Application Gateway
Azure Container Registry
Azure Firewall
AKS(Azure Kubernetes Service)
Azure 역할 기반 액세스 제어

이 참조 아키텍처는 Azure에 AKS(Azure Kubernetes Service) 클러스터를 배포하는 데 권장되는 기준 인프라 아키텍처를 제공합니다. 디자인 원칙을 사용하고 Azure Well-Architected Framework아키텍처 모범 사례를 기반으로 이 범용 인프라를 배포하여 네트워킹, 보안, ID와 같은 학제간 팀 또는 여러 개별 팀을 안내합니다.

이 아키텍처는 워크로드에 초점을 맞추지 않고 AKS 클러스터 자체에 집중합니다. 여기에 있는 정보는 대부분의 AKS 클러스터에 권장되는 최소 기준입니다. 다중 지역 성장을 지원하고 클러스터 내 트래픽을 보호하는 네트워크 토폴로지인 관찰 가능성을 제공하는 Azure 서비스와 통합됩니다.

대상 아키텍처는 비즈니스 요구 사항의 영향을 받으므로 애플리케이션 컨텍스트마다 다를 수 있습니다. 사전 프로덕션 및 프로덕션 스테이지의 시작점으로 간주되어야 합니다.

이 아키텍처의 구현은 GitHub: AKS(Azure Kubernetes Service) 기준 참조 구현에서도 사용할 수 있습니다. 대체 시작점으로 사용하고 필요에 따라 구성할 수 있습니다.

참고 항목

이 참조 아키텍처에는 Kubernetes 및 해당 개념에 대한 지식이 필요합니다. 복습이 필요한 경우 리소스에 대한 AKS에 대해 자세히 알아보기 섹션을 참조하세요.

네트워크 토폴로지

이 아키텍처는 허브-스포크 네트워크 토폴로지를 사용합니다. 허브와 스포크는 피어링을 통해 연결된 별도의 가상 네트워크에 배포됩니다. 이 토폴로지의 몇 가지 장점은 다음과 같습니다.

  • 분리된 관리. 거버넌스를 적용하고 최소 권한 원칙을 준수하는 방법을 사용하도록 설정합니다. 또한 업무 분리를 통해 Azure 랜딩 존의 개념을 지원합니다.

  • 퍼블릭 인터넷에 대한 Azure 리소스의 직접 노출을 최소화합니다.

  • 조직은 지역 허브-스포크 토폴로지를 사용해 운영되는 경우가 많습니다. 허브-스포크 네트워크 토폴로지는 나중에 확장하여 워크로드 격리를 제공할 수 있습니다.

  • 모든 웹 애플리케이션에는 HTTP 트래픽 흐름 관리를 지원하는 WAF(웹 애플리케이션 방화벽) 서비스가 필요합니다.

  • 여러 구독에 걸쳐 있는 워크로드의 경우 자연스러운 선택입니다.

  • 아키텍처를 확장 가능하게 만들어주며, 새 기능 또는 워크로드를 수용하기 위해 네트워크 토폴로지의 재설계 대신 새 스포크를 추가할 수 있습니다.

  • 방화벽 및 DNS와 같은 특정 리소스를 네트워크 전체에서 공유할 수 있습니다.

  • Azure 엔터프라이즈 규모 랜딩 존에 맞춥니다.

허브-스포크 네트워크 토폴로지의 아키텍처 다이어그램

이 아키텍처의 Visio 파일을 다운로드합니다.

자세한 내용은 Azure의 허브 스포크 네트워크 토폴로지를 참조하세요.

AKS 기준 참조 아키텍처의 Windows 컨테이너에 포함된 네트워크 디자인 변경 내용을 검토하려면 도우미 문서를 참조하세요.

허브

허브 가상 네트워크는 연결 및 가시성의 중심점입니다. 허브에는 조직 차원의 방화벽 정책을 적용하기 위해 중앙 IT 팀에서 정의한 전역 방화벽 정책이 있는 Azure Firewall, Azure Bastion, VPN 연결을 위한 게이트웨이 서브넷, 네트워크 가시성을 위한 Azure Monitor가 항상 포함됩니다.

네트워크 내에 세 개의 서브넷이 배포됩니다.

Azure Firewall을 호스트하는 서브넷

Azure Firewall은 서비스로서의 방화벽입니다. 방화벽 인스턴스는 아웃바운드 네트워크 트래픽을 보호합니다. 이 보안 계층이 없으면 이 트래픽은 중요한 회사 데이터를 유출할 수 있는 악의적인 타사 서비스와 통신할 수 있습니다. Azure Firewall Manager를 사용하면 여러 Azure Firewall 인스턴스를 중앙에서 배포 및 구성하고 이 허브 가상 네트워크의 네트워크 아키텍처 유형에 대한 Azure Firewall 정책을 관리할 수 있습니다.

게이트웨이를 호스트하는 서브넷

이 서브넷은 VPN 또는 ExpressRoute 게이트웨이의 자리 표시자입니다. 게이트웨이는 온-프레미스 네트워크와 가상 네트워크의 라우터를 연결합니다.

Azure Bastion을 호스트하는 서브넷

이 서브넷은 Azure Bastion의 자리 표시자입니다. Bastion을 사용하여 리소스를 인터넷에 노출하지 않고도 Azure 리소스에 안전하게 액세스할 수 있습니다. 이 서브넷은 관리 및 작업 전용입니다.

스포크

스포크 가상 네트워크에는 AKS 클러스터와 기타 관련 리소스가 포함됩니다. 스포크에는 세 개의 서브넷이 있습니다.

Azure Application Gateway를 호스트하는 서브넷

Azure Application Gateway는 계층 7에서 작동하는 웹 트래픽 부하 분산 장치입니다. 참조 구현은 WAF(Web Application Firewall)를 사용하도록 설정하는 Application Gateway v2 SKU를 사용합니다. WAF는 봇을 포함한 일반적인 웹 트래픽 공격으로부터 들어오는 트래픽을 보호합니다. 인스턴스에는 사용자 요청을 수신하는 퍼블릭 프런트 엔드 IP 구성이 있습니다. 기본적으로 Application Gateway에는 전용 서브넷이 필요합니다.

수신 리소스를 호스트하는 서브넷

Traefik은 트래픽을 라우팅하고 분산하기 위해 Kubernetes 수신 리소스를 수행하는 수신 컨트롤러입니다. Azure 내부 부하 분산 장치가 이 서브넷에 있습니다. 자세한 내용은 AKS(Azure Kubernetes Service)를 사용하여 내부 부하 분산 장치 사용을 참조하세요.

클러스터 노드를 호스트하는 서브넷

AKS는 두 개의 개별 노드 그룹(또는 노드 풀)을 유지 관리합니다. 시스템 노드 풀은 핵심 클러스터 서비스를 실행하는 Pod를 호스트합니다. 사용자 노드 풀은 작업 부하와 수신 컨트롤러를 실행하여 워크로드에 대한 인바운드 통신을 사용합니다.

Azure Private Link 연결은 Azure Container RegistryAzure Key Vault에 대해 만들어지므로 스포크 가상 네트워크 내에서 프라이빗 엔드포인트를 사용하여 이러한 서비스에 액세스할 수 있습니다. 프라이빗 엔드포인트에는 전용 서브넷이 필요하지 않으며 허브 가상 네트워크에도 배치할 수 있습니다. 기준 구현에서는 스포크 가상 네트워크 내의 전용 서브넷에 배포됩니다. 이 방법은 피어링된 네트워크 연결을 통과하는 트래픽을 줄이고, 클러스터에 속하는 리소스를 동일한 가상 네트워크에 유지하며, 네트워크 보안 그룹을 사용하여 서브넷 수준에서 세분화된 보안 규칙을 적용할 수 있도록 합니다.

자세한 내용은 Private Link 배포 옵션을 참조하세요.

IP 주소 계획

AKS 클러스터의 네트워크 토폴로지를 보여 주는 다이어그램

이 아키텍처의 Visio 파일을 다운로드합니다.

가상 네트워크의 주소 공간은 모든 서브넷을 보유할 수 있을 만큼 커야 하므로 트래픽을 수신할 모든 엔터티를 고려합니다. 해당 엔터티의 IP 주소는 서브넷 주소 공간에서 할당됩니다. 다음 사항을 고려해야 합니다.

  • Upgrade

    AKS는 정기적으로 노드를 업데이트하여 기본 가상 머신에서 보안 기능 및 기타 시스템 패치가 최신 상태로 유지되도록 합니다. 업그레이드 프로세스 중에 AKS는 Pod를 일시적으로 호스트하는 노드를 만들고, 업그레이드 노드는 통제되고 드레이닝됩니다. 해당 임시 노드에는 클러스터 서브넷의 IP 주소가 할당됩니다.

    Pod의 경우 전략에 따라 추가 주소가 필요할 수 있습니다. 롤링 업데이트의 경우 실제 Pod가 업데이트되는 동안 워크로드를 실행하는 임시 Pod에 대한 주소가 필요합니다. 바꾸기 전략을 사용하는 경우 Pod가 제거되고 새 Pod가 만들어집니다. 따라서 이전 Pod와 연결된 주소가 재사용됩니다.

  • 확장성

    모든 시스템 및 사용자 노드의 노드 수와 최대 스케일링 성능 제한을 고려합니다. 400%까지 스케일 아웃하는 경우를 가정해 보겠습니다. 스케일 아웃되는 모든 노드에 대해 4배의 주소 수가 필요합니다.

    이 아키텍처에서는 각 Pod에 직접 연결할 수 있으므로 각 Pod에 개별 주소가 필요합니다. Pod 스케일링 성능은 주소 계산에 영향을 미칩니다. 이러한 결정은 증가할 Pod 수 선택에 따라 달라집니다.

  • Azure Private Link 주소

    Private Link를 통해 다른 Azure 서비스와 통신하는 데 필요한 주소를 고려합니다. 이 아키텍처에는 Azure Container Registry 및 Key Vault에 대한 링크에 두 개의 주소가 할당됩니다.

  • Azure에서 사용하도록 특정 주소가 예약되어 있습니다. 이 주소는 할당할 수 없습니다.

앞의 목록은 완전하지 않습니다. 사용 가능한 IP 주소 수에 영향을 주는 다른 리소스가 디자인에 있을 경우, 해당 주소를 수용합니다.

이 아키텍처는 단일 워크로드용으로 디자인되었습니다. 다중 워크로드의 경우에는 사용자 노드 풀을 서로 격리하고 시스템 노드 풀에서도 격리하는 것이 좋습니다. 이러한 선택으로 인해 크기가 작은 서브넷이 더 많아집니다. 또한 수신 리소스는 더 복잡할 수 있으므로 추가 IP 주소가 필요한 여러 수신 컨트롤러가 필요할 수 있습니다.

이 아키텍처에 대한 전체 고려 사항은 AKS 기준 네트워크 토폴로지를 참조하세요.

AKS 클러스터의 IP 계획과 관련된 자세한 내용은 클러스터에 대한 IP 주소 지정 계획을 참조하세요.

AKS 기준 참조 아키텍처의 Windows 컨테이너에 포함된 IP 주소 계획 고려 사항을 검토하려면 도우미 문서를 참조 하세요.

추가 항목 및 미리 보기 기능

Kubernetes 및 AKS는 온-프레미스 환경에 대한 소프트웨어보다 더 빠른 릴리스 주기를 통해 지속적으로 진화하는 제품입니다. 이 기준 아키텍처는 선택된 AKS 미리 보기 기능과 AKS 추가 항목에 따라 달라집니다. 둘 사이의 차이점은 다음과 같습니다.

  • AKS 팀은 미리 보기 기능을 출시 후 개선 중으로 설명합니다. 그 이유는 많은 미리 보기 기능이 GA(일반 공급) 단계로 이동하기 전에 몇 달 동안만 해당 상태로 유지되기 때문입니다.
  • AKS 추가 기능 및 확장은 지원되는 추가 기능을 제공합니다. 해당 설치, 구성 및 수명 주기는 AKS에서 관리됩니다.

이 기준 아키텍처에는 모든 미리 보기 기능 또는 추가 항목이 포함되어 있지 않으며 범용 클러스터에 중대한 가치를 더하는 기능만 포함되어 있습니다. 이러한 기능이 미리 보기에서 나오면 기준 아키텍처가 그에 따라 수정됩니다. 보안, 관리 효율성 또는 기타 요구 사항을 강화하는 사전 프로덕션 클러스터에서 평가할 수 있는 몇 가지 추가 미리 보기 기능 또는 AKS 추가 항목이 있습니다. 타사 추가 항목을 사용하면 클러스터의 Kubernetes 버전을 업그레이드한 후 사용 가능한 버전 추적 및 업데이트 설치를 포함하여 설치하고 유지 관리해야 합니다.

컨테이너 이미지 참조

클러스터에는 워크로드 외에도 수신 컨트롤러와 같은 여러 다른 이미지가 포함될 수 있습니다. 이러한 이미지 중 일부는 퍼블릭 레지스트리에 상주할 수 있습니다. 이들을 클러스터로 끌어올 때 이러한 점을 고려합니다.

  • 클러스터는 이미지를 끌어오기 위해 인증됩니다.

  • 공용 이미지를 사용하는 경우 SLO에 맞는 컨테이너 레지스트리로 가져오는 것이 좋습니다. 그렇지 않으면 이미지에 예기치 않은 가용성 문제가 발생할 수 있습니다. 필요할 때 이미지를 사용할 수 없는 경우 이러한 문제가 운영 문제를 초래할 수 있습니다. 퍼블릭 레지스트리 대신 컨테이너 레지스트리를 사용할 경우, 다음과 같은 이점이 있습니다.

    • 이미지에 대한 무단 액세스를 차단할 수 있습니다.
    • 공용 종속성이 없습니다.
    • 이미지 끌어오기 로그에 액세스하여 활동을 모니터링하고 연결 문제를 심사할 수 있습니다.
    • 통합된 컨테이너 검사 및 이미지 규정 준수를 활용합니다.

    ACR(Azure Container Registry)이 하나의 옵션입니다.

  • 권한 있는 레지스트리에서 이미지를 끌어옵니다. Azure Policy를 통해 이 제한을 적용할 수 있습니다. 이 참조 구현에서 클러스터는 아키텍처의 일부로 배포된 ACR에서만 이미지를 끌어옵니다.

기본 클러스터에 대한 컴퓨팅 구성

AKS에서 각 노드 풀은 가상 머신 확장 집합에 매핑됩니다. 노드는 각 노드 풀의 VM입니다. 비용을 최소화하기 위해 시스템 노드 풀에 더 작은 VM 크기를 사용하는 것이 좋습니다. 이 참조 구현은 세 개의 DS2_v2 노드가 있는 시스템 노드 풀을 배포합니다. 이 크기는 시스템 Pod의 예상 부하를 충족하기에 충분합니다. OS 디스크는 512GB입니다.

사용자 노드 풀에 대한 몇 가지 고려 사항은 다음과 같습니다.

  • 노드에 설정된 최대 Pod 수를 압축하려면 더 큰 노드 크기를 선택합니다. 모니터링 및 로깅과 같이 모든 노드에서 실행되는 서비스의 공간을 최소화합니다.

  • 두 개 이상의 노드를 배포합니다. 이렇게 하면 워크로드에 두 개의 복제본이 있는 고가용성 패턴이 있게 됩니다. AKS를 사용하면 클러스터를 다시 만들지 않고 노드 수를 변경할 수 있습니다.

  • 워크로드의 실제 노드 크기는 디자인 팀에서 결정한 요구 사항에 따라 달라집니다. 여기서는 비즈니스 요구 사항에 따라 프로덕션 워크로드에 대한 DS4_v2 선택했습니다. 비용을 낮추려면 최소 권장 사항인 DS3_v2로 크기를 줄일 수 있습니다.

  • 클러스터에 대한 용량을 계획할 때는 워크로드가 각 노드의 최대 80%를 사용할 수 있고, 나머지 20%는 AKS 서비스에 예약된다고 가정합니다.

  • 용량 계획에 따라 노드당 최대 Pod를 설정합니다. 용량 기준을 설정하려는 경우 값은 30으로 시작합니다. 워크로드, 노드 크기 및 IP 제약 조건의 요구 사항에 따라 해당 값을 조정합니다.

클러스터용 Microsoft Entra ID 통합

클러스터에 대한 액세스를 보호하는 것은 매우 중요합니다. 보안 선택을 할 때 클러스터의 관점에서 생각해 보세요.

  • 인사이드 아웃 액세스. 네트워킹 인프라, Azure Container Registry 및 Azure Key Vault와 같은 Azure 구성 요소에 대한 AKS 액세스. 클러스터에 액세스할 수 있는 리소스에만 권한을 부여합니다.
  • 아웃사이드 인 액세스. Kubernetes 클러스터에 대한 ID 액세스를 제공합니다. Kubernetes API 서버 및 Azure Resource Manager에 액세스할 수 있는 외부 엔터티에만 권한을 부여합니다.

Azure에 대한 AKS 액세스

Microsoft Entra ID를 통해 AKS에서 Azure로의 액세스를 관리하는 방법에는 서비스 주체 또는 Azure 리소스에 대한 관리 ID라는 두 가지 방법이 있습니다.

두 가지 방법 중에 관리 ID가 권장됩니다. 서비스 주체를 사용하면 사용자가 수동으로 또는 프로그래밍 방식으로 비밀을 관리하고 회전할 책임을 집니다. Microsoft Entra ID는 관리 ID를 사용하여 인증 및 비밀의 적시에 회전을 관리하고 수행합니다.

클러스터가 Microsoft Entra ID를 통해 외부 Azure 리소스와 상호 작용할 수 있도록 관리 ID를 사용하도록 설정하는 것이 좋습니다. 이 설정은 클러스터를 만드는 동안에만 사용할 수 있습니다. Microsoft Entra ID가 즉시 사용되지 않더라도 나중에 통합할 수 있습니다.

기본적으로 클러스터에서 사용하는 기본 ID는 클러스터 ID와 kubelet ID 두 가지입니다. 클러스터 ID는 수신 부하 분산기, AKS 관리 공개 IP 등을 비롯한 클러스터 리소스를 관리하기 위해 AKS 제어 영역 구성요소에서 사용됩니다. kubelet ID는 ACR(Azure Container Registry) 인증에 사용됩니다. 일부 추가 항목은 관리 ID를 사용하는 인증도 지원합니다.

인사이드 아웃 사례의 예로 클러스터가 컨테이너 레지스트리에서 이미지를 끌어와야 할 때 관리 ID를 사용하는 경우를 살펴보겠습니다. 이 작업을 수행하려면 클러스터가 레지스트리의 자격 증명을 가져와야 합니다. 한 가지 방법은 해당 정보를 Kubernetes Secrets 개체 형식으로 저장하고 비밀을 검색하는 데 imagePullSecrets를 사용하는 것입니다. 이러한 접근 방식은 보안 복잡성 때문에 권장되지 않습니다. 비밀에 대한 사전 지식이 필요할 뿐만 아니라 DevOps 파이프라인을 통해 해당 비밀을 공개해야 합니다. 또 다른 이유는 비밀의 회전을 관리하는 운영 오버헤드 때문입니다. 대신 클러스터의 kubelet 관리 ID에 대한 acrPull 액세스 권한을 레지스트리에 부여하세요. 이 방법은 위와 같은 문제를 해결합니다.

이 아키텍처에서 클러스터는 Microsoft Entra ID로 보호되는 Azure 리소스에 액세스하고 관리 ID를 지원하는 작업을 수행합니다. 클러스터가 수행하려는 작업에 따라 Azure RBAC(Azure 역할 기반 액세스 제어) 및 권한을 클러스터의 관리 ID에 할당합니다. 클러스터는 Microsoft Entra ID에 인증한 다음 할당된 역할에 따라 액세스가 허용되거나 거부됩니다. 다음은 Azure 기본 제공 역할이 클러스터에 할당된 참조 구현의 몇 가지 예입니다.

  • 네트워크 기여자 스포크 가상 네트워크를 제어하는 클러스터의 기능입니다. 이 역할 할당을 사용하면 AKS 클러스터 시스템 할당 ID가 내부 수신 컨트롤러 서비스에 대한 전용 서브넷과 함께 작동할 수 있습니다.
  • 모니터링 메트릭 게시자 Azure Monitor에 메트릭을 보내는 클러스터의 기능입니다.
  • AcrPull. 지정된 Azure Container Registries에서 이미지를 끌어오는 클러스터의 기능입니다.

클러스터 액세스

Microsoft Entra 통합은 외부 액세스에 대한 보안도 간소화합니다. 사용자가 kubectl을 사용하려는 경우를 가정해 보겠습니다. 초기 단계로 az aks get-credentials 명령을 실행하여 클러스터의 자격 증명을 가져옵니다. Microsoft Entra ID는 클러스터 자격 증명을 가져올 수 있는 Azure 역할에 대해 사용자의 ID를 인증합니다. 자세한 내용은 사용 가능한 클러스터 역할 권한을 참조하세요.

AKS를 사용하면 두 가지 방법으로 Microsoft Entra ID를 사용하여 Kubernetes에 액세스할 수 있습니다. 첫 번째는 Microsoft Entra ID를 네이티브 Kubernetes RBAC 시스템과 통합된 ID 공급자로 사용하는 것입니다. 다른 방법은 네이티브 Azure RBAC를 사용하여 클러스터 액세스를 제어하는 것입니다. 둘 다 아래에 자세히 설명되어 있습니다.

Kubernetes RBAC를 Microsoft Entra ID에 연결

Kubernetes는 다음을 통해 RBAC(역할 기반 액세스 제어)를 지원합니다.

  • 사용 권한 집합. 클러스터 전체 권한에 대한 Role 또는 ClusterRole 개체에 의해 정의됩니다.

  • 작업을 수행할 수 있는 사용자 및 그룹을 할당하는 바인딩. RoleBinding 또는 CluserRoleBinding 개체에 의해 정의됩니다.

Kubernetes에는 클러스터 관리자, 편집, 보기 등과 같은 몇 가지 기본 제공 역할이 있습니다. 이러한 역할을 Microsoft Entra 사용자 및 그룹에 바인딩하여 엔터프라이즈 디렉터리를 사용하여 액세스를 관리합니다. 자세한 내용은 Microsoft Entra 통합과 함께 Kubernetes RBAC 사용을 참조하세요.

클러스터 및 네임스페이스 액세스에 사용되는 Microsoft Entra 그룹이 Microsoft Entra 액세스 검토에 포함되어 있는지 확인합니다.

Kubernetes 권한 부여에 Azure RBAC 사용

Kubernetes 네이티브 RBAC(ClusterRoleBindings 및 RoleBindings)를 통합된 Microsoft Entra 인증으로 권한 부여에 사용하는 대신 Azure RBAC 및 Azure 역할 할당을 사용하여 클러스터에 권한 부여 검사 적용하는 것이 좋습니다. 이러한 역할 할당은 심지어 구독 또는 리소스 그룹 범위에서 추가할 수도 있으므로 Kubernetes 클러스터의 개체에 대한 액세스 권한이 있는 사용자라는 면에서 범위에 해당하는 모든 클러스터가 일관된 역할 할당 집합을 상속할 수 있습니다.

자세한 내용은 Kubernetes 권한 부여를 위한 Azure RBAC를 참조하세요.

로컬 계정

AKS는 네이티브 Kubernetes 사용자 인증을 지원합니다. 이 방법을 사용하는 클러스터에 대한 사용자 액세스는 권장되지 않습니다. 인증서 기반이며 기본 ID 공급자 외부에서 수행되므로 중앙 집중식 사용자 액세스 제어 및 거버넌스를 어렵게 만듭니다. 항상 Microsoft Entra ID를 사용하여 클러스터에 대한 액세스를 관리하고 로컬 계정 액세스를 명시적으로 사용하지 않도록 클러스터를 구성합니다.

이 참조 구현에서는 클러스터가 배포될 때 로컬 클러스터 계정을 통한 액세스가 명시적으로 비활성화됩니다.

워크로드에 대한 Microsoft Entra ID 통합

전체 클러스터에 대해 Azure 시스템 할당 관리 ID를 보유하는 것과 유사하게 Pod 수준에서 관리 ID를 할당할 수 있습니다. 워크로드 ID를 사용하면 호스트된 워크로드가 Microsoft Entra ID를 통해 리소스에 액세스할 수 있습니다. 예를 들어 워크로드는 Azure Storage에 파일을 저장합니다. 이러한 파일에 액세스해야 하는 경우 Pod는 리소스에 대해 자체적으로 인증합니다.

이 참조 구현에서 Pod에 대한 관리 ID는 AKS의 Microsoft Entra 워크로드 ID 통해 제공됩니다. Kubernetes에 기본 제공 기능과 통합되어 외부 ID 공급자와 페더레이션합니다. Microsoft Entra 워크로드 ID 페더레이션에 대한 자세한 내용은 다음 개요를 참조하세요.

수신 리소스 배포

Kubernetes 수신 리소스는 들어오는 트래픽을 라우팅하여 클러스터에 분산합니다. 수신 리소스에는 다음 두 부분이 있습니다.

  • 내부 부하 분산 장치입니다. AKS에서 관리합니다. 이 부하 분산 장치는 개인 고정 IP 주소를 통해 수신 컨트롤러를 노출합니다. 인바운드 흐름을 수신하는 단일 연락 지점 역할을 합니다.

    이 아키텍처에서는 Azure Load Balancer가 사용되며, 수신 리소스 전용 서브넷의 클러스터 외부에 배치됩니다. Azure Application Gateway에서 트래픽을 수신하며 해당 통신은 TLS를 통해 제공됩니다. 인바운드 트래픽에 대한 TLS 암호화에 대한 자세한 내용은 수신 트래픽 흐름을 참조하세요.

  • 수신 컨트롤러. 여기서는 Traefik을 선택했습니다. 이는 클러스터의 사용자 노드 풀에서 실행되며, 내부 부하 분산 장치에서 트래픽을 수신하고, TLS를 종료하여 HTTP를 통해 워크로드 Pod에 전달합니다.

수신 컨트롤러는 클러스터의 중요한 구성 요소입니다. 이 구성 요소를 구성할 때 다음과 같은 점을 고려합니다.

  • 디자인 결정의 일부로서 수신 컨트롤러가 작동하도록 허용되는 범위를 선택합니다. 예를 들어 컨트롤러가 특정 워크로드를 실행하는 Pod와만 상호 작용하도록 허용할 수 있습니다.

  • 동일한 노드에 복제본 배치를 피하여 부하를 분산하고 노드가 다운되는 경우 비즈니스 연속성을 보장합니다. 이 용도에 podAntiAffinity를 사용합니다.

  • nodeSelectors를 사용하여 사용자 노드 풀에서만 Pod를 예약하도록 제한합니다. 이 설정은 워크로드 및 시스템 Pod를 격리합니다.

  • 특정 엔터티가 수신 컨트롤러에 트래픽을 보내도록 허용하는 포트 및 프로토콜을 엽니다. 이 아키텍처에서 Traefik는 Azure Application Gateway에서만 트래픽을 수신합니다.

  • 수신 컨트롤러는 Pod의 상태를 나타내는 신호를 보내야 합니다. 지정된 간격으로 Pod의 상태를 모니터링하는 readinessProbelivenessProbe 설정을 구성합니다.

  • 특정 리소스에 대한 수신 컨트롤러의 액세스 및 특정 작업을 수행하는 기능을 제한하는 것이 좋습니다. 이러한 제한은 Kubernetes RBAC 권한을 통해 구현할 수 있습니다. 예를 들어 이 아키텍처에서는 Kubernetes ClusterRole 개체의 규칙을 사용하여 서비스 및 엔드포인트를 감시, 가져오기 및 나열할 수 있는 권한이 Traefik에 부여되었습니다.

참고

적절한 수신 컨트롤러에 대한 선택은 워크로드 요구 사항, 운영자의 기술 집합 및 기술 옵션의 지원 가능성에 따라 좌우됩니다. 가장 중요한 것은 SLO 기대치를 충족하는 기능입니다.

Traefik는 Kubernetes 클러스터에 사용되는 인기 오픈 소스 옵션이며 이 아키텍처에서 설명을 위해 선택했습니다. Azure 서비스와 타사 제품의 통합을 보여 줍니다. 예를 들어 구현에서는 Traefik을 Microsoft Entra 워크로드 ID 및 Azure Key Vault와 통합하는 방법을 보여 줍니다.

또 다른 선택은 Azure Application Gateway 수신 컨트롤러이며 AKS와 잘 통합됩니다. 수신 컨트롤러로서의 기능 외에도 다른 이점을 제공합니다. 예를 들어 Application Gateway는 클러스터의 가상 네트워크 진입점 역할을 합니다. 클러스터로 들어오는 트래픽을 관찰할 수 있습니다. WAF에 요구되는 애플리케이션이 있는 경우 Application Gateway는 WAF와 통합되어 있으므로 좋은 선택입니다. 또한 TLS 종료를 수행할 기회를 제공합니다.

AKS 기준 참조 아키텍처의 Windows 컨테이너에 사용되는 수신 디자인을 검토하려면 도우미 문서를 참조 하세요.

라우터 설정

수신 컨트롤러는 경로를 사용하여 트래픽을 보낼 위치를 결정합니다. 경로는 트래픽이 수신되는 원본 포트 및 대상 포트와 프로토콜에 대한 정보를 지정합니다.

이 아키텍처의 예제는 다음과 같습니다.

Traefik는 Kubernetes 공급자를 사용하여 경로를 구성합니다. annotations, tlsentrypoints는 경로가 HTTPS를 통해 제공될 것임을 나타냅니다. middlewares는 Azure Application Gateway 서브넷의 트래픽만 허용되도록 지정합니다. 응답은 클라이언트가 수락하는 경우 gzip 인코딩을 사용합니다. Traefik는 TLS 종료를 수행하므로 백 엔드 서비스와의 통신은 HTTP를 통해 수행됩니다.

apiVersion:networking.k8s.io/v1
kind: Ingress
metadata:
  name: aspnetapp-ingress
  namespace: a0008
  annotations:
    kubernetes.io/ingress.allow-http: "false"
    kubernetes.io/ingress.class: traefik-internal
    traefik.ingress.kubernetes.io/router.entrypoints: websecure
    traefik.ingress.kubernetes.io/router.tls: "true"
    traefik.ingress.kubernetes.io/router.tls.options: default
    traefik.ingress.kubernetes.io/router.middlewares: app-gateway-snet@file, gzip-compress@file
spec:
  tls:
  - hosts:
      - bu0001a0008-00.aks-ingress.contoso.com
  rules:
  - host: bu0001a0008-00.aks-ingress.contoso.com
    http:
      paths:
      - path: /
        pathType: Prefix
        backend:
          service:
            name: aspnetapp-service
            port: 
              number: 80

네트워크 흐름 보안

이 컨텍스트에서 네트워크 흐름은 다음과 같이 분류할 수 있습니다.

  • 수신 트래픽. 클라이언트부터 클러스터에서 실행되는 워크로드까지의 흐름.

  • 송신 트래픽. 클러스터의 Pod 또는 노드부터 외부 서비스까지의 흐름.

  • Pod-Pod 트래픽. Pod 간 통신. 이 트래픽에는 수신 컨트롤러와 워크로드 간의 통신이 포함됩니다. 또한 워크로드가 클러스터에 배포된 여러 애플리케이션으로 구성된 경우 해당 애플리케이션 간 통신은 이 범주에 속합니다.

  • 관리 트래픽. 클라이언트와 Kubernetes API 서버 간에 이동하는 트래픽.

클러스터 트래픽 흐름을 보여 주는 다이어그램.

이 아키텍처의 Visio 파일을 다운로드합니다.

이 아키텍처에는 모든 유형의 트래픽을 보호하는 여러 계층의 보안이 있습니다.

수신 트래픽 흐름

아키텍처는 클라이언트의 TLS 암호화 요청만 허용합니다. TLS v1.2는 제한된 암호화 집합을 사용하여 허용되는 최소 버전입니다. SNI(서버 이름 표시) strict가 사용하도록 설정되어 있습니다. 엔드투엔드 TLS는 다음 이미지에 보듯이 두 개의 서로 다른 TLS 인증서를 사용하여 Application Gateway를 통해 설정됩니다.

TLS 종료를 보여 주는 다이어그램

이 아키텍처의 Visio 파일을 다운로드합니다.

  1. 클라이언트는 도메인 이름(bicycle.contoso.com)에 HTTPS 요청을 보냅니다. 해당 이름은 DNS A 레코드를 통해 Azure Application Gateway의 공용 IP 주소에 연결됩니다. 이 트래픽은 클라이언트 브라우저와 게이트웨이 간의 트래픽을 검사하거나 변경할 수 없도록 암호화됩니다.

  2. Application Gateway에는 통합 WAF(웹 애플리케이션 방화벽)가 있으며 bicycle.contoso.com에 대한 TLS 핸드셰이크를 협상하여 보안 암호만 허용합니다. Application Gateway는 WAF 검사 규칙을 처리하고 트래픽을 구성된 백 엔드로 전달하는 라우팅 규칙을 실행하는 데 필요하므로 TLS 종료 지점입니다. TLS 인증서는 Azure Key Vault에 저장되며, Application Gateway와 통합된 사용자 할당 관리 ID를 사용하여 액세스됩니다. 자세한 내용은 Key Vault 인증서를 사용한 TLS 종료를 참조하세요.

  3. 트래픽이 Application Gateway에서 백 엔드로 이동할 때 내부 부하 분산 장치로 전달되면서 다른 TLS 인증서(*.aks-ingress.contoso.com의 경우 와일드카드)로 다시 암호화됩니다. 이렇게 다시 암호화하면 안전하지 않은 트래픽이 클러스터 서브넷으로 전달되지 않습니다.

  4. 수신 컨트롤러는 부하 분산 장치를 통해 암호화된 트래픽을 수신합니다. 컨트롤러는 *.aks-ingress.contoso.com에 대한 또 다른 TLS 종료 지점이며 HTTP를 통해 워크로드 Pod에 트래픽을 전달합니다. 인증서는 Azure Key Vault에 저장되고 CSI(Container Storage Interface) 드라이버를 사용하여 클러스터에 탑재됩니다. 자세한 내용은 비밀 관리 추가를 참조하세요.

워크로드 Pod까지 모든 홉에서 엔드투엔드 TLS 트래픽을 구현할 수 있습니다. Pod-Pod 트래픽 보안을 결정할 때는 성능, 대기 시간 및 운영 영향을 측정해야 합니다. 적절한 제어 평면 RBAC 및 성숙한 소프트웨어 개발 수명 주기 사례를 사용하는 대부분의 단일 테넌트 클러스터의 경우 TLS가 수신 컨트롤러까지 암호화하고 WAF(Web Application Firewall)로 보호하는 것으로 충분합니다. 그러면 워크로드 관리 및 네트워크 성능 영향의 오버헤드가 최소화됩니다. 워크로드 및 규정 준수 요구 사항에 따라 TLS 종료를 수행하는 위치가 결정됩니다.

송신 트래픽 흐름

이 아키텍처에서는 NAT Gateway 또는 HTTP 프록시와 같은 다른 옵션보다 Azure Firewall 또는 자체 유사 네트워크 가상 어플라이언스를 통해 통신하는 클러스터의 모든 송신 트래픽을 권장합니다. 제로 트러스트 제어 및 트래픽 검사 기능의 경우 클러스터의 모든 송신 트래픽이 Azure Firewall을 통해 이동합니다. UDR(사용자 정의 경로)을 사용하여 해당 선택을 구현할 수 있습니다. 경로의 다음 홉은 Azure Firewall의 개인 IP 주소입니다. 여기서 Azure Firewall은 송신 트래픽을 차단할지 허용할지를 결정합니다. 이 결정은 Azure Firewall에 정의된 특정 규칙 또는 기본 제공 위협 인텔리전스 규칙에 따라 결정됩니다.

Azure Firewall 사용에 대한 대안은 AKS의 HTTP 프록시 기능을 활용하는 것입니다. 클러스터를 송신하는 모든 트래픽은 먼저 HTTP 프록시의 IP 주소로 설정되어 트래픽을 전달하거나 삭제하도록 결정합니다.

두 방법 중 하나를 사용하여 AKS에 필요한 송신 네트워크 규칙을 검토합니다.

참고

퍼블릭 부하 분산 장치를 수신 트래픽에 대한 퍼블릭 포인트로 사용하고 UDR을 사용하여 Azure Firewall을 통해 송신하는 경우 비대칭 라우팅 상황이 발생할 수 있습니다. 이 아키텍처는 Application Gateway 뒤에 있는 전용 수신 서브넷에서 내부 부하 분산 장치를 사용합니다. 이러한 설계를 선택하면 보안이 강화될 뿐만 아니라 비대칭 라우팅 문제도 제거합니다. 또는 Application Gateway 전후에 Azure Firewall을 통해 수신 트래픽을 라우팅할 수 있지만 이 접근 방식은 대부분의 상황에서 필요하거나 권장되지 않습니다. 비대칭 라우팅에 대한 자세한 내용은 Azure Standard Load Balancer와 Azure Firewall 통합을 참조하세요.

제로 트러스트 컨트롤의 예외는 클러스터가 다른 Azure 리소스와 통신해야 하는 경우입니다. 예를 들어 클러스터는 컨테이너 레지스트리에서 업데이트된 이미지 또는 Azure Key Vault 비밀을 가져와야 합니다. 이때 권장되는 방법은 Azure Private Link를 사용하는 것입니다. 장점은 인터넷을 통해 이동하는 클러스터와 서비스 간의 트래픽 대신 특정 서브넷이 서비스에 직접 도달한다는 것입니다. 단점은 Private Link의 경우 퍼블릭 엔드포인트를 통해 대상 서비스를 사용하는 대신 추가 구성이 필요하다는 것입니다. 또한 모든 Azure 서비스 또는 SKU가 Private Link를 지원하지는 않습니다. 이러한 경우 서비스에 액세스하려면 서브넷에서 가상 네트워크 서비스 엔드포인트를 사용하도록 설정하는 것이 좋습니다.

Private Link 또는 서비스 엔드포인트가 옵션이 아닌 경우 퍼블릭 엔드포인트를 통해 다른 서비스에 연결하고 Azure Firewall 규칙 및 대상 서비스에 기본 제공되는 방화벽을 통해 액세스를 제어할 수 있습니다. 이 트래픽은 방화벽의 고정 IP 주소를 통과하므로 해당 주소를 서비스의 IP 허용 목록에 추가할 수 있습니다. 한 가지 단점은 Azure Firewall에 추가 규칙을 두어 특정 서브넷의 트래픽만 허용하게 해야 한다는 것입니다. Azure Firewall을 사용하여 송신 트래픽에 대해 여러 IP 주소를 계획할 때 해당 주소를 고려합니다. 그러지 않으면 포트가 고갈될 수 있습니다. 여러 IP 주소 계획에 대한 자세한 내용은 아웃바운드 트래픽 제한 및 제어를 참조하세요.

AKS 기준 참조 아키텍처의 Windows 컨테이너에서 사용되는 Windows 관련 송신 고려 사항을 검토하려면 도우미 문서를 참조 하세요.

Pod-Pod 트래픽

기본적으로 Pod는 클러스터의 모든 다른 Pod에서 트래픽을 허용할 수 있습니다. Kubernetes NetworkPolicy은 Pod 간의 네트워크 트래픽을 제한하는 데 사용됩니다. 이 정책은 신중하게 적용해야 하는데, 그렇지 않을 경우 중요한 네트워크 흐름이 차단되는 상황이 발생할 수 있습니다. 수신 컨트롤러와 워크로드 간의 트래픽과 같이 필요에 따라 오직 특정 통신 경로만 허용합니다. 자세한 내용은 네트워크 정책을 참조하세요.

나중에 추가할 수 없으므로 클러스터가 프로비전될 때 네트워크 정책을 사용하도록 설정합니다. NetworkPolicy을 구현하는 기술에는 몇 가지 선택지가 있습니다. Azure CNI(Container Networking Interface)가 필요한 Azure 네트워크 정책을 사용하는 것이 좋습니다. 아래 참고 사항을 참조하세요. 다른 옵션으로는 잘 알려진 오픈 소스 옵션인 Calico 네트워크 정책이 있습니다. 클러스터 전체 네트워크 정책을 관리해야 하는 경우 Calico가 좋습니다. Calico는 표준 Azure 지원이 적용되지 않습니다.

자세한 내용은 Azure 네트워크 정책과 Calico 정책의 차이점 및 해당 기능을 참조하세요.

참고 항목

AKS는 kubenet, Azure CNI(Container Networking Interface) 및 Azure CNI 오버레이와 같은 네트워킹 모델을 지원합니다. CNI 모델은 고급 모델이며 Azure 네트워크 정책을 사용하도록 설정하려면 CNI 기반 모델이 필요합니다. 비 오버레이 CNI 모델에서 모든 Pod는 서브넷 주소 공간에서 IP 주소를 가져옵니다. 동일한 네트워크(또는 피어링된 리소스) 내의 리소스는 해당 IP 주소를 통해 직접 Pod에 액세스할 수 있습니다. NAT는 해당 트래픽을 라우팅하는 데 필요하지 않습니다. 두 CNI 모델은 모두 성능이 뛰어나며 가상 네트워크의 가상 머신과 동등한 Pod 간의 성능을 제공합니다. 또한 Azure CNI는 Azure 네트워크 정책을 사용할 수 있으므로 향상된 보안 제어를 제공합니다. 노드에 대해 nodepool 서브넷의 IP 주소만 할당하고 Pod IP에 대해 고도로 최적화된 오버레이 계층을 사용하는 IP 주소 제한 배포에 Azure CNI 오버레이를 사용하는 것이 좋습니다. CNI 기반 네트워킹 모델을 사용하는 것이 좋습니다.

모델에 대한 자세한 내용은 kubenet 및 Azure CNI 네트워크 모델을 사용하고 비교할 CNI 네트워크 모델 선택을 참조하세요.

관리 트래픽

클러스터 실행의 일부인 Kubernetes API 서버는 리소스 만들기 또는 클러스터 스케일링 요청과 같이 클러스터에서 관리 작업을 수행하려는 리소스에서 트래픽을 수신합니다. 이러한 리소스의 예에는 DevOps 파이프라인의 빌드 에이전트 풀, Bastion 서브넷 및 노드 풀 자체가 포함됩니다. 모든 IP 주소에서 이 관리 트래픽을 수락하는 대신 AKS의 권한 있는 IP 범위 기능을 사용하여 권한 있는 IP 범위에서 API 서버로 오는 트래픽만 허용합니다.

자세한 내용은 API 서버 권한 있는 IP 범위 정의를 참조하세요.

추가 제어 계층을 위해 추가 복잡성의 비용으로 프라이빗 AKS 클러스터를 프로비저닝할 수 있습니다. 프라이빗 클러스터를 사용하면 API 서버와 노드 풀 사이의 네트워크 트래픽이 인터넷에 노출되지 않고 개인 네트워크에만 유지되도록 할 수 있습니다. 자세한 내용은 AKS 프라이빗 클러스터를 참조하세요.

비밀 관리 추가

Azure Key Vault와 같은 관리형 키 저장소에 비밀을 저장합니다. 장점은 관리형 저장소가 비밀 회전을 처리하고, 강력한 암호화를 제공하고, 액세스 감사 로그를 제공하고, 핵심 비밀을 배포 파이프라인 외부에 유지한다는 것입니다. 이 아키텍처에서 Azure Key Vault 방화벽은 비밀과 인증서에 액세스해야 하는 Azure의 리소스에 대한 프라이빗 링크 연결로 사용하도록 설정되고 구성됩니다.

Azure Key Vault는 다른 Azure 서비스와 잘 통합됩니다. 이러한 서비스의 기본 제공 기능을 사용하여 비밀에 액세스합니다. Azure Application Gateway가 수신 흐름에 대한 TLS 인증서에 액세스하는 방법에 대한 예시는 수신 트래픽 흐름 섹션을 참조하세요.

Key Vault에 대한 Azure RBAC 권한 모델을 사용하면 워크로드 ID를 Key Vault 비밀 사용자 또는 Key Vault 읽기 권한자 역할 할당에 할당하고 비밀에 액세스할 수 있습니다. 자세한 내용은 RBAC를 사용하여 Azure Key Vault 액세스를 참조하세요.

클러스터 비밀에 대한 액세스

Pod가 특정 저장소의 비밀에 액세스하도록 허용하려면 워크로드 ID를 사용해야 합니다. 검색 프로세스를 용이하게 하려면 비밀 저장소 CSI 드라이버를 사용합니다. Pod에 비밀이 필요한 경우 드라이버는 지정된 저장소와 연결하고, 볼륨에서 비밀을 검색하고, 클러스터에 해당 볼륨을 탑재합니다. 그런 다음 Pod는 볼륨 파일 시스템에서 비밀을 가져올 수 있습니다.

CSI 드라이버에는 다양한 관리 저장소를 지원하는 많은 공급자가 있습니다. 이 구현에서는 추가 항목을 사용하여 비밀 저장소 CSI 드라이버가 포함된 Azure Key Vault를 선택하고 Azure Key Vault에서 TLS 인증서를 검색하고 수신 컨트롤러를 실행하는 Pod에 이를 로드했습니다. 이 작업은 Pod를 만드는 동안 수행되며 볼륨은 퍼블릭 키와 프라이빗 키를 모두 저장합니다.

워크로드 스토리지

이 아키텍처에 사용되는 워크로드는 상태 비저장입니다. 상태를 저장해야 하는 경우 클러스터 외부에 유지하는 것이 좋습니다. 워크로드 상태에 대한 참고 자료는 이 문서의 범위를 벗어납니다.

스토리지 옵션에 대한 자세한 내용은 AKS(Azure Kubernetes Service)의 애플리케이션에 대한 스토리지 옵션을 참조하세요.

정책 관리

AKS 클러스터를 관리하는 효과적인 방법은 정책을 통해 거버넌스를 적용하는 것입니다. Kubernetes는 OPA Gatekeeper를 통해 정책을 구현합니다. AKS의 경우 정책은 Azure Policy를 통해 제공됩니다. 각 정책은 해당 범위의 모든 클러스터에 적용됩니다. Azure Policy 적용은 궁극적으로 클러스터의 OPA Gatekeeper에 의해 처리되며 모든 정책 검사가 로깅됩니다. 정책 변경 내용은 클러스터에 즉시 반영되지 않으므로 약간의 지연을 예상하세요.

AKS 클러스터를 관리하기 위해 Azure Policy에서 제공하는 두 가지 다른 시나리오가 있습니다.

  • 조직 표준을 평가하여 리소스 그룹 또는 구독에서 AKS 클러스터의 배포를 방지하거나 제한합니다. 예를 들어 명명 규칙을 따르고 태그를 지정합니다.
  • Kubernetes용 Azure Policy를 통해 AKS 클러스터를 보호합니다.

정책을 설정할 때 워크로드의 요구 사항에 따라 정책을 적용합니다. 다음 항목을 고려합니다.

  • 정책 컬렉션(이니셔티브라고 함) 설정 또는 개별 정책 선택 중 무엇을 원하시나요? Azure Policy는 기본 및 제한이라는 두 가지 기본 제공 이니셔티브를 제공합니다. 각 이니셔티브는 AKS 클러스터에 적용되는 기본 제공 정책의 컬렉션입니다. 하나의 이니셔티브를 선택하고 또한 조직의 요구 사항에 따라 클러스터와 상호 작용하는 클러스터 및 리소스(ACR, Application Gateway, Key Vault 및 기타)에 대한 추가 정책을 선택하는 것이 좋습니다.

  • 작업을 감사하거나 거부하고 싶은가요? 감사 모드에서는 작업이 허용되지만 비규격으로 플래그가 지정됩니다. 정기적인 주기로 비준수 상태를 확인하고 필요한 조치를 취하는 프로세스가 있어야 합니다. 거부 모드에서는 정책이 위반되므로 작업이 차단됩니다. 워크로드가 작동하기에는 너무 제한적일 수 있으므로 이 모드를 선택할 때는 주의해야 합니다.

  • 워크로드에 설계상 규정을 준수하지 않아야 하는 영역이 있나요? Azure Policy는 정책 적용에서 제외되는 Kubernetes 네임스페이스를 지정하는 기능이 있습니다. 이러한 인스턴스를 인식할 수 있도록 감사 모드에서 정책을 계속 적용하는 것이 좋습니다.

  • 기본 제공 정책에서 다루지 않는 요구 사항이 있나요? 사용자 지정 OPA Gatekeeper 정책을 적용하는 사용자 지정 Azure Policy 정의를 만들 수 있습니다. 클러스터에 직접 사용자 지정 정책을 적용하지 마세요. 사용자 지정 정책을 만드는 방법에 대한 자세한 내용은 사용자 지정 정책 정의 만들기 및 할당을 참조하세요.

  • 조직 전체 요구 사항이 있나요? 있는 경우 관리 그룹 수준에서 해당 정책을 추가합니다. 또한 조직에 일반 정책이 있더라도 클러스터에서 자체 워크로드별 정책을 할당해야 합니다.

  • Azure 정책은 특정 범위에 할당됩니다. 프로덕션 정책이 사전 프로덕션 환경에 대해서도 유효성 검사가 되도록 해야 합니다. 그렇지 않으면 프로덕션 환경에 배포할 때 사전 프로덕션에서 고려되지 않은 예기치 않은 추가 제한이 발생할 수 있습니다.

이 참조 구현에서는 AKS 클러스터가 만들어지고 감사 모드에서 제한적인 이니셔티브를 할당하여 비준수에 대한 가시성을 확보한 경우 Azure Policy를 사용할 수 있습니다.

또한 이 구현은 기본 제공 이니셔티브에 없는 추가 정책을 설정합니다. 이러한 정책은 거부 모드로 설정됩니다. 예를 들어 배포된 ACR에서만 이미지를 끌어오도록 하는 정책이 있습니다. 고유한 사용자 지정 이니셔티브를 만드는 것이 좋습니다. 워크로드에 적용 가능한 정책을 단일 할당으로 결합합니다.

클러스터 내에서 Azure Policy가 작동하는 방식을 관찰하려면 gatekeeper-system 네임스페이스의 모든 Pod에 대한 Pod 로그와 kube-system 네임스페이스의 azure-policyazure-policy-webhook Pod에 대한 로그에 액세스할 수 있습니다.

AKS 기준 참조 아키텍처의 Windows 컨테이너에 포함된 Windows 관련 Azure Policy 고려 사항을 검토하려면 도우미 문서를 참조 하세요.

노드 및 Pod 스케일링 성능

수요가 증가하면 Kubernetes는 HPA(수평 Pod 자동 스케일링)를 통해 기존 노드에 더 많은 Pod를 추가하여 스케일 아웃할 수 있습니다. 추가 Pod를 더 이상 예약할 수 없는 경우 AKS 클러스터 자동 스케일링을 통해 노드 수를 늘려야 합니다. 전체 스케일링 솔루션에는 Pod 복제본과 클러스터의 노드 수를 모두 스케일링하는 방법이 있어야 합니다.

자동 스케일링 또는 수동 스케일링의 두 가지 방법이 있습니다.

수동 또는 프로그래밍 방식의 경우 사용자가 CPU 사용률 또는 사용자 지정 메트릭에 대한 경고를 모니터링하고 설정해야 합니다. Pod 스케일링의 경우 애플리케이션 운영자는 Kubernetes API를 통해 ReplicaSet를 조정하여 Pod 복제본 수를 늘리거나 줄일 수 있습니다. 클러스터 스케일링을 위한 한 가지 방법은 Kubernetes 스케줄러가 실패할 때 알림을 받는 것입니다. 또 다른 방법은 시간 경과하면서 보류 중인 Pod를 감시하는 것입니다. Azure CLI 또는 포털을 통해 노드 수를 조정할 수 있습니다.

이러한 수동 메커니즘 중 일부가 자동 크기 조정기에 기본 제공되어 있으므로 자동 크기 조정이 권장되는 방식입니다.

일반적인 접근 방식은 최소 개수의 Pod 및 노드를 사용하는 성능 테스트부터 시작합니다. 이러한 값을 사용하여 기준 기대치를 설정합니다. 그런 다음 성능 메트릭과 수동 스케일링의 조합을 사용하여 병목 상태를 찾고 스케일링에 대한 애플리케이션의 응답을 파악합니다. 마지막으로 이 데이터를 사용하여 자동 스케일링에 대한 매개 변수를 설정합니다. AKS를 사용하는 성능 튜닝 시나리오에 대한 자세한 내용은 성능 튜닝 시나리오: 분산 비즈니스 트랜잭션을 참조하세요.

Horizontal Pod Autoscaler

HPA(Horizontal Pod Autoscaler)는 Pod 수를 스케일링하는 Kubernetes 리소스입니다.

HPA 리소스에서 최소 및 최대 복제본 수를 설정하는 것이 좋습니다. 이러한 값은 자동 스케일링 범위를 제한합니다.

HPA는 CPU 사용률, 메모리 사용량 및 사용자 지정 메트릭을 기준으로 스케일링할 수 있습니다. CPU 사용률만 기본 제공됩니다. HorizontalPodAutoscaler 정의는 해당 메트릭의 대상 값을 지정합니다. 예를 들어 사양은 대상 CPU 사용률을 설정합니다. Pod가 실행되는 동안 HPA 컨트롤러는 Kubernetes 메트릭 API를 사용하여 각 Pod의 CPU 사용률을 확인합니다. 해당 값을 대상 사용률과 비교하고 비율을 계산합니다. 그런 다음 비율을 사용하여 Pod가 초과 할당되었는지 또는 과소 할당되었는지를 결정합니다. Kubernetes 스케줄러를 사용하여 노드에 새 Pod를 할당하거나 노드에서 Pod를 제거합니다.

스케일링 작업이 완료되기 전에 HPA가 확인하는 경합 상태가 있을 수 있으며 그 결과 비율 계산이 잘못될 수 있습니다. 자세한 내용은 스케일링 이벤트의 휴지를 참조하세요.

워크로드가 이벤트 기반인 경우 인기 있는 오픈 소스 옵션은 KEDA입니다. 워크로드가 CPU 또는 메모리 바인딩이 아니고 메시지 큐와 같은 이벤트 원본에 의해 구동되는 경우 KEDA가 좋습니다. KEDA는 많은 이벤트 원본(또는 스케일러)을 지원합니다. Azure Monitor 스케일러를 포함하여 지원되는 KEDA 스케일러 목록을 여기서 찾을 수 있습니다. 스케일러는 Azure Monitor 메트릭을 기반으로 KEDA 워크로드를 스케일링하는 편리한 방법입니다.

클러스터 자동 크기 조정기

클러스터 자동 스케일러는 노드 풀의 노드 수를 스케일링하는 AKS 추가 항목 구성 요소입니다. 클러스터 프로비전 중에 추가해야 합니다. 각 사용자 노드 풀에 대해 별도의 클러스터 자동 스케일러가 필요합니다.

클러스터 자동 스케일러는 Kubernetes 스케줄러에 의해 트리거됩니다. 리소스 제약 조건으로 인해 Kubernetes 스케줄러가 Pod를 예약하지 못하면 자동 스케일러는 노드 풀에 새 노드를 자동으로 프로비전합니다. 반대로 클러스터 자동 스케일러는 노드의 사용되지 않는 용량을 확인합니다. 노드가 예상된 용량에서 실행되고 있지 않으면 Pod가 다른 노드로 이동되고 사용되지 않는 노드는 제거됩니다.

자동 스케일러를 사용하도록 설정하면 최대 및 최소 노드 수를 설정합니다. 권장 값은 워크로드의 성능 기대치, 늘리려는 클러스터의 양 및 비용 영향에 따라 달라집니다. 최소 수는 해당 노드 풀에 대한 예약된 용량입니다. 이 참조 구현에서는 워크로드의 간단한 특성으로 인해 최소값이 2로 설정됩니다.

시스템 노드 풀의 경우 권장되는 최소값은 3입니다.

AKS 기준 참조 아키텍처의 Windows 컨테이너에 포함된 크기 조정 고려 사항을 검토하려면 도우미 문서를 참조하세요.

비즈니스 연속성 결정

비즈니스 연속성을 유지하려면 인프라 및 애플리케이션에 대한 Service Level Agreement(서비스 수준 약정)을 정의합니다. 월별 작동 시간 계산에 대한 자세한 내용은 AKS(Azure Kubernetes Service)에 대한 SLA를 참조하세요.

클러스터 노드

워크로드에 대한 최소 가용성 수준을 충족하려면 노드 풀에 여러 노드가 필요합니다. 한 노드가 다운되면 동일한 클러스터의 노드 풀에 있는 다른 노드가 애플리케이션을 계속 실행할 수 있습니다. 안정성을 위해 시스템 노드 풀에 3개의 노드가 있는 것이 좋습니다. 사용자 노드 풀의 경우 두 개 이하의 노드로 시작합니다. 더 높은 가용성이 필요한 경우 더 많은 노드를 프로비전합니다.

애플리케이션을 사용자 노드 풀이라고 하는 별도의 노드 풀에 배치하여 시스템 서비스에서 격리합니다. 이렇게 하면 Kubernetes 서비스는 전용 노드에서 실행되며 다른 워크로드와 경쟁하지 않습니다. 태그, 레이블, taint를 사용하여 워크로드를 예약할 노드 풀을 식별하고 시스템 노드 풀이 CriticalAddonsOnly[taint](/azure/aks/use-system-pools#system-and-user-node-pools)로 오염되었는지 확인합니다.

클러스터의 정기적인 유지 관리(예: 적시에 업데이트)는 안정성에 매우 중요합니다. 또한 프로브를 통해 Pod의 상태를 모니터링하는 것이 좋습니다.

Pod 가용성

Pod 리소스를 보장합니다. 배포에서 Pod 리소스 요구 사항을 지정하는 것이 좋습니다. 그러면 스케줄러가 Pod를 적절하게 예약할 수 있습니다. Pod를 예약할 수 없는 경우 안정성은 크게 감소합니다.

Pod 중단 예산을 설정합니다. 이 설정은 업데이트 또는 업그레이드 이벤트 중에 중단할 수 있는 배포의 복제본 수를 결정합니다. 자세한 내용은 Pod 중단 예산을 참조하세요.

하드웨어 오류와 같은 중단을 처리하도록 배포에 여러 복제본을 구성합니다. 업데이트 및 업그레이드와 같은 계획된 이벤트의 경우 중단 예산은 예상된 애플리케이션 부하를 처리하는 데 필요한 Pod 복제본 수가 있는지 확인할 수 있습니다.

워크로드 네임스페이스에 대한 리소스 할당량을 설정합니다. 네임스페이스의 리소스 할당량은 Pod 요청 및 제한이 배포에 올바르게 설정되도록 합니다. 자세한 내용은 리소스 할당량 적용을 참조하세요.

참고

클러스터 수준에서 리소스 할당량을 설정하면 적절한 요청 및 한도가 없는 타사 워크로드에 배포할 때 문제가 발생할 수 있습니다.

Pod 요청 및 한도를 설정합니다. 이러한 한도를 설정하면 Kubernetes가 CPU와 메모리 리소스를 Pod에 효율적으로 할당하고 노드에서 컨테이너 밀도를 높일 수 있습니다. 또한 한도를 통해 하드웨어 사용률이 개선되기 때문에 비용은 줄고 안정성이 향상될 수 있습니다.

한도를 추정하려면 기준을 테스트하고 설정합니다. 요청 및 제한에 대해 동일한 값으로 시작합니다. 그런 다음, 클러스터에서 불안정을 일으킬 수 있는 임계값을 설정할 때까지 해당 값을 점진적으로 조정합니다.

배포 매니페스트에서 해당 한도를 지정할 수 있습니다. 자세한 내용은 Pod 요청 및 한도 설정을 참조하세요.

가용성 영역 및 다중 지역 지원

SLA에 더 높은 가동 시간이 필요한 경우 가용성 영역을 사용하여 중단으로부터 보호하세요. 지역에서 지원하는 경우 가용성 영역을 사용할 수 있습니다. 그러면 컨트롤 플레인 구성 요소와 노드 풀의 노드가 모두 영역에 걸쳐 분산될 수 있습니다. 전체 영역을 사용할 수 없는 경우에도 지역 내의 다른 영역에 있는 노드는 계속 사용할 수 있습니다. 각 노드 풀은 노드 인스턴스 및 확장성을 관리하는 별도의 Virtual Machine Scale Set에 매핑됩니다. 확장 집합 작업 및 구성은 AKS 서비스에서 관리합니다. 다음은 다중 영역을 사용하도록 설정할 때 고려해야 할 사항입니다.

  • 전체 인프라. 가용성 영역을 지원하는 지역을 선택합니다. 자세한 내용은 제한 사항 및 지역 가용성을 참조하세요. 작동 시간 SLA를 구입하려는 경우 해당 옵션을 지원하는 지역을 선택합니다. 가용성 영역을 사용하는 경우 작동 시간 SLA가 더 커집니다.

  • 클러스터. 가용성 영역은 노드 풀이 만들어질 때만 설정할 수 있으며 나중에 변경할 수 없습니다. 예상되는 분산이 가능하도록 노드 크기가 모든 영역에서 지원되어야 합니다. 기본 Virtual Machine Scale Set는 영역 간에 동일한 하드웨어 구성을 제공합니다.

    다중 영역 지원은 노드 풀뿐만 아니라 컨트롤 플레인에도 적용됩니다. AKS 컨트롤 플레인은 노드 풀과 같이 요청된 영역에 걸쳐 있습니다. 클러스터에서 영역 지원을 사용하지 않는 경우 컨트롤 플레인 구성 요소가 가용성 영역에 분산되는 것이 보장되지 않습니다.

  • 종속 리소스. 전체 영역 혜택을 위해 모든 서비스 종속성도 영역을 지원해야 합니다. 종속 서비스가 영역을 지원하지 않는 경우 영역 오류로 인해 해당 서비스가 실패할 수 있습니다.

예를 들어 관리 디스크는 프로비전되는 영역에서 사용할 수 있습니다. 오류가 발생할 경우 노드는 다른 영역으로 이동할 수 있지만 관리 디스크는 노드와 함께 해당 영역으로 이동하지 않습니다.

간단히 하기 위해 이 아키텍처에서 AKS는 가용성 영역 1, 2 및 3에 걸친 노드 풀이 포함된 단일 지역에 배포됩니다. Azure Firewall 및 Application Gateway와 같은 인프라의 다른 리소스도 다중 영역 지원을 사용하여 동일한 지역에 배포됩니다. 지역 복제는 Azure Container Registry에 사용할 수 있습니다.

다중 영역

전체 지역이 중단되는 경우 가용성 영역 사용하는 것만으로는 충분하지 않습니다. 더 높은 가용성을 유지하려면 여러 지역에서 여러 AKS 클러스터를 실행해야 합니다.

  • 쌍을 이루는 지역을 사용합니다. 쌍을 이루는 지역을 사용하여 지역 오류로부터 복구하도록 구성된 CI/CD 파이프라인을 사용하는 것이 좋습니다. 쌍을 이루는 지역을 사용할 경우의 이점은 업데이트 중의 안정성입니다. Azure에서 한 번에 쌍의 한 지역만 업데이트되도록 합니다. Flux와 같은 특정 DevOps 도구를 사용하면 더 간편하게 여러 지역에 배포할 수 있습니다.

  • Azure 리소스가 지역 중복성을 지원하는 경우 중복 서비스가 보조 지역을 가지는 위치를 제공합니다. 예를 들어 Azure Container Registry에 대해 지역 복제를 사용하도록 설정하면 선택한 Azure 지역에 이미지가 자동으로 복제되고 지역에서 중단이 발생하더라도 이미지에 대한 지속적인 액세스를 제공합니다.

  • 요구 사항에 따라 영역 또는 지역에 트래픽을 분산할 수 있는 트래픽 라우터를 선택합니다. 이 아키텍처는 영역 간에 비 웹 트래픽을 분산할 수 있으므로 Azure Load Balancer를 배포합니다. 지역 간에 트래픽을 분산해야 하는 경우 Azure Front Door를 사용하는 것이 좋습니다. 다른 고려 사항은 부하 분산 장치 선택을 참조하세요.

참고

활성/활성 및 고가용성 구성에 여러 지역을 포함하도록 이 참조 아키텍처를 확장했습니다. 해당 참조 아키텍처에 대한 자세한 내용은 다중 지역 클러스터에 대한 AKS 기준을 참조하세요.

GitHub 로고 다중 지역 아키텍처 구현은 GitHub: 다중 지역 배포를 위한 AKS(Azure Kubernetes Service)에서 제공됩니다. 이를 시작점으로 사용하고 필요에 따라 구성할 수 있습니다.

재해 복구

주 지역에서 오류가 발생할 경우 다른 지역에 새 인스턴스를 신속하게 만들 수 있어야 합니다. 몇 가지 권장 사항입니다.

  • 쌍을 이루는 지역을 사용합니다.

  • 상태 비저장 워크로드를 효율적으로 복제할 수 있습니다. 클러스터에 상태를 저장해야 하는 경우(권장되지 않음) 쌍을 이루는 지역에서 데이터를 자주 백업해야 합니다.

  • SLO(서비스 수준 목표)를 충족하기 위해 DevOps 파이프라인의 일부로 다른 지역에 복제와 같은 복구 전략을 통합합니다.

  • 각 Azure 서비스를 프로비전할 때 재해 복구를 지원하는 기능을 선택합니다. 예를 들어 이 아키텍처에서는 지역 복제를 위해 Azure Container Registry를 사용하도록 설정합니다. 지역이 다운된 경우에도 복제된 지역에서 이미지를 끌어올 수 있습니다.

클러스터 백업

많은 아키텍처의 경우 GitOps 기반 [클러스터 부트스트랩}(#cluster 부트스트래핑)을 통해 새 클러스터를 프로비전하고 작동 상태로 되돌리고 애플리케이션 배포를 수행할 수 있습니다. 그러나 구성 맵, 작업 및 부트스트래핑 프로세스 내에서 어떤 이유로든 캡처할 수 없는 잠재적으로 비밀과 같은 중요한 리소스 상태가 있는 경우 복구 전략을 고려합니다. 일반적으로 Kubernetes에서 상태 비주성 워크로드를 실행하는 것이 좋지만 아키텍처에 디스크 기반 상태가 포함된 경우 해당 콘텐츠에 대한 복구 전략도 고려해야 합니다.

클러스터 백업이 복구 전략의 일부여야 하는 경우 클러스터 내에서 비즈니스 요구 사항과 일치하는 솔루션을 설치해야 합니다. 이 에이전트는 클러스터 리소스 상태를 Azure Disk 기반 영구 볼륨 스냅샷 선택하고 조정하는 대상으로 푸시하는 역할을 담당합니다.

VMware의 Velero 는 직접 설치하고 관리할 수 있는 일반적인 Kubernetes 백업 솔루션의 예입니다. 또는 AKS 백업 확장을 사용하여 관리되는 Velero 구현을 제공할 수 있습니다. AKS 백업 확장은 Azure Backup에서 자격 증명 모음 구성으로 외부화된 일정 및 백업 범위를 사용하여 Kubernetes 리소스와 영구 볼륨을 모두 백업할 수 있습니다.

참조 구현은 백업을 구현하지 않으며, 관리, 모니터링, 지불 및 보안을 위해 아키텍처에 추가 Azure 리소스가 포함됩니다. Azure Storage 계정, Azure Backup 자격 증명 모음 및 구성 및 신뢰할 수 있는 액세스같은 상태 비지정 워크로드를 실행하려는 의도와 결합된 GitOps는 구현된 복구 솔루션입니다.

정의된 RPO(복구 지점 목표) 및 RTO(복구 시간 목표)를 포함하여 비즈니스 목표를 충족하는 솔루션을 선택하고 유효성을 검사합니다. 팀 Runbook에서 이 복구 프로세스를 정의하고 모든 중요 비즈니스용 워크로드에 대해 연습합니다.

Kubernetes API Server SLA

AKS는 무료 서비스로 사용할 수 있지만 해당 계층은 재정적으로 지원되는 SLA를 제공하지 않습니다. 해당 SLA를 가져오려면 표준 계층을 선택해야 합니다. 모든 프로덕션 클러스터는 표준 계층을 사용하는 것이 좋습니다. 사전 프로덕션 클러스터에 대해 무료 계층 클러스터를 예약합니다. Azure 가용성 영역과 결합하면 Kubernetes API 서버 SLA가 99.95%로 증가합니다. 노드 풀 및 기타 리소스는 자체 SLA로 처리됩니다.

절충

영역 및 특히 지역에 걸쳐 아키텍처를 배포할 때 비용 대 가용성의 상충 관계가 있습니다. Azure Container Registry의 지역 복제와 같은 일부 복제 기능은 더 비싼 프리미엄 SKU에서 제공됩니다. 또한 트래픽이 영역 및 지역 간에 이동할 때 적용되는 대역폭 요금 때문에도 비용이 증가합니다.

또한 영역 또는 지역 간의 노드 통신에 추가 네트워크 대기 시간도 예상됩니다. 이러한 아키텍처 결정이 워크로드에 미치는 영향을 측정합니다.

시뮬레이션 및 강제 장애 조치(failover)로 테스트

노드 중단, 영역 오류를 시뮬레이션하기 위한 특정 영역의 모든 AKS 리소스 중단 또는 외부 종속성 실패 호출과 같은 시뮬레이션된 중단을 사용한 강제 장애 조치(failover) 테스트를 통해 안정성을 보장합니다. Azure Chaos Studio를 활용하여 Azure와 클러스터에서 다양한 유형의 중단을 시뮬레이션할 수도 있습니다.

자세한 내용은 Azure Chaos Studio를 참조하세요.

메트릭 모니터링 및 수집

Azure Monitor 컨테이너 인사이트는 이벤트를 실시간으로 볼 수 있으므로 컨테이너 워크로드의 성능을 모니터링하는 데 권장되는 도구입니다. 실행 중인 Pod에서 컨테이너 로그를 캡처하고 집계하여 볼 수 있습니다. 또한 메모리 및 CPU 사용률에 대한 메트릭 API에서 정보를 수집하여 실행 중인 리소스 및 워크로드의 상태를 모니터링합니다. Pod를 스케일링할 때 성능을 모니터링하는 데 사용할 수도 있습니다. 여기에는 수집된 데이터의 모니터링, 분석 및 시각화에 중요한 원격 측정 수집이 포함되어 추세를 식별하고 중요한 문제를 사전에 알리도록 경고를 구성합니다.

Pod에서 호스트되는 대부분의 워크로드는 Prometheus 메트릭을 내보냅니다. 컨테이너 인사이트는 Prometheus와 통합하여 노드 및 Kubernetes에서 수집한 애플리케이션과 워크로드 메트릭을 볼 수 있습니다.

조직에서 이미 사용하는 경우 Datadog, Grafana 또는 New Relic과 같이 활용할 수 있는 Kubernetes와 통합되는 몇 가지 타사 솔루션이 있습니다.

AKS를 사용하여 Azure는 일부 핵심 Kubernetes 서비스를 관리하며 AKS 컨트롤 플레인 구성 요소에 대한 로그는 Azure에서 리소스 로그로 구현됩니다. 대부분의 클러스터에서 다음을 항상 사용하도록 설정하는 것이 권장되는 이유는 클러스터 문제를 해결하고 로그 밀도를 상대적으로 낮게 하는 데 도움이 될 수 있기 때문입니다.

  • 스케일링 작업에 대한 가시성을 얻기 위해 ClusterAutoscaler에 로깅. 자세한 내용은 클러스터 자동 스케일러 로그 및 상태 검색을 참조하세요.
  • Kubernetes와 Azure 컨트롤 플레인 간의 상호 작용에 대한 가시성 확보를 위한 KubeControllerManager.
  • 클러스터를 수정하는 활동에 대한 가시성 확보를 위한 KubeAuditAdmin. KubeAuditKubeAuditAdmin을 둘 다 사용하도록 설정할 이유는 없습니다. KubeAuditKubeAuditAdmin의 상위 집합으로 비수정 (읽기) 작업도 포함하기 때문입니다.
  • Guard 는 Microsoft Entra ID 및 Azure RBAC 감사를 캡처합니다.

KubeScheduler 또는 KubeAudit과 같은 다른 로그 범주는 클러스터 자동 크기 조정, Pod 배치 및 예약 및 유사한 데이터가 클러스터 또는 워크로드 작업 문제를 해결하는 데 도움이 될 수 있는 초기 클러스터 또는 워크로드 수명 주기 개발 중에 사용하도록 설정하는 데 매우 유용할 수 있습니다. 문제 해결 요구 사항이 끝난 후에도 확장된 문제 해결 로그를 항상 켜짐 상태로 유지하면 Azure Monitor에 수집하고 저장하는 데 불필요한 비용이 발생할 수 있습니다.

Azure Monitor에는 시작할 기존 로그 쿼리 집합이 포함되어 있으며 이를 기본으로 사용하여 사용자 고유의 쿼리를 빌드할 수도 있습니다. 라이브러리가 증가함에 따라 하나 이상의 쿼리 팩을 사용하여 로그 쿼리를 저장하고 다시 사용할 수 있습니다. 사용자 지정 쿼리 라이브러리는 AKS 클러스터의 상태 및 성능에 대한 추가 가시성을 가능하게 하고 SLO(서비스 수준 목표)를 지원하는 데 도움이 됩니다.

AKS 모니터링 모범 사례에 대한 자세한 내용은 Azure Monitor로 AKS(Azure Kubernetes Service) 모니터링을 참조하세요.

AKS 기준 참조 아키텍처의 Windows 컨테이너에 포함된 Windows 관련 모니터링 고려 사항을 검토하려면 도우미 문서를 참조 하세요.

자동 복구 사용

활동성 및 준비 상태 프로브를 설정하여 Pod의 상태를 모니터링합니다. 응답하지 않는 Pod가 검색되면 Kubernetes는 Pod를 다시 시작합니다. 활동성 프로브는 Pod가 정상인지를 결정합니다. 응답하지 않으면 Kubernetes는 Pod를 다시 시작합니다. 준비 상태 프로브는 Pod가 요청/트래픽을 수신할 준비가 되었는지 확인합니다.

참고

AKS는 노드 자동 복구를 사용하여 기본 제공 인프라 노드 자동 복구를 제공합니다.

AKS 클러스터 업데이트

비즈니스 요구 사항과 일치하는 업데이트 전략을 정의하는 것이 가장 중요합니다. AKS 클러스터 버전 또는 해당 노드가 업데이트되는 날짜 및 시간에 대한 예측 가능성 수준과 설치되는 특정 이미지 또는 이진 파일에 대한 원하는 제어 수준을 이해하는 것은 AKS 클러스터 업데이트 청사진을 나타내는 기본적인 측면입니다. 예측 가능성은 업데이트 주기 및 기본 테넌트 창인 두 기본 AKS 클러스터 업데이트 속성에 연결됩니다. 업데이트가 수동 또는 자동으로 설치되는지 여부를 제어합니다. 엄격한 보안 규정이 적용되지 않는 AKS 클러스터가 있는 조직은 매주 또는 월별 업데이트를 고려할 수 있으며, 나머지는 사용 가능한 한 빨리(매일) 보안 레이블 패치를 업데이트해야 합니다. 변경할 수 없는 인프라로 AKS 클러스터를 운영하는 조직은 업데이트되지 않습니다. 즉, 자동 또는 수동 업데이트는 수행되지 않습니다. 대신 원하는 업데이트를 사용할 수 있게 되면 복제본(replica) 스탬프가 배포되고 새 인프라 인스턴스가 준비될 때만 이전 인프라 인스턴스가 드레이닝되어 가장 높은 수준의 제어가 제공됩니다.

AKS 클러스터 업데이트 청사진이 결정되면 AKS 노드 및 AKS 클러스터 버전에 사용 가능한 업데이트 옵션에 쉽게 매핑할 수 있습니다.

  • AKS 노드:

    1. 없음/수동 업데이트: 변경할 수 없는 인프라용이거나 수동 업데이트가 기본 설정인 경우입니다. 이렇게 하면 AKS 노드 업데이트에 대한 더 높은 수준의 예측 가능성과 제어가 수행됩니다.
    2. 자동 무인 업데이트: AKS는 네이티브 OS 업데이트를 실행합니다. 이를 통해 비즈니스에 적합한 기본 테넌트 창을 구성하여 예측 가능성을 제공합니다. 사용량이 많은 시간과 가장 적합한 작업을 기반으로 할 수 있습니다. AKS 노드 내에 구체적으로 설치될 내용을 미리 알 수 없으므로 제어 수준이 낮습니다.
    3. 자동 노드 이미지 업데이트: 새 VHD(가상 하드 디스크)를 사용할 수 있게 되면 AKS 노드 이미지를 자동으로 업데이트하는 것이 좋습니다. 비즈니스 요구 사항에 최대한 맞게 기본 테넌트 창을 디자인합니다. 보안 레이블이 지정된 VHD 업데이트의 경우 예측 가능성을 가장 낮게 제공하는 일별 기본 테넌트 창을 구성하는 것이 좋습니다. 정기적인 VHD 업데이트는 매주 기본 기간(2주 또는 매월)으로 구성할 수 있습니다. 예약된 기본 테넌트 기간과 결합된 보안 레이블 VHD와 일반 VHD의 필요성에 따라 예측 가능성은 비즈니스 요구 사항에 맞게 다소 유연성을 제공하는 변동이 있습니다. 항상 비즈니스 요구 사항을 충족하는 것이 이상적이지만, 현실에서는 조직이 티핑 포인트를 찾아야 합니다. 새 VHD에 포함된 특정 이진 파일을 미리 알 수 없기 때문에 컨트롤 수준이 낮으며, 이미지를 사용할 수 있게 되기 전에 이미지를 검사하기 때문에 이러한 유형의 자동 업데이트가 권장되는 옵션입니다.

    참고 항목

    자동 AKS 노드 업데이트를 구성하는 방법에 대한 자세한 내용은 노드 OS 자동 업그레이드 이미지를 살펴보세요.

  • AKS 클러스터 버전:

    1. 없음/수동 업데이트: 변경할 수 없는 인프라용이거나 수동 업데이트가 기본 설정인 경우입니다. 이렇게 하면 AKS 클러스터 버전 업데이트를 보다 높은 수준의 예측 가능성과 제어할 수 있습니다. 프로덕션 환경에 적중하기 전에 더 낮은 환경에서 새 AKS 클러스터 버전(예: 1.14.x에서 1.15.x)을 테스트할 수 있는 기회를 제공하기 때문에 이를 옵트인하는 것이 좋습니다.
    2. 자동 업데이트: 프로덕션 클러스터는 하위 환경에서 제대로 테스트되지 않고 사용 가능한 새 AKS 클러스터 버전으로 어떤 방식으로든(예: 1.16.x ~ 1.16.y) 자동으로 패치되거나 업데이트되지 않는 것이 좋습니다. Kubernetes 업스트림 릴리스 및 AKS 클러스터 버전 업데이트는 정기적인 주기를 제공하도록 조정되지만, 프로덕션 환경에서 AKS 클러스터를 방어하여 업데이트 프로세스에 대한 예측 가능성과 제어를 높이는 것이 좋습니다. 운영 우수성의 일부로 낮은 환경에 대해 이 구성을 고려하여 사전 일상적인 테스트 실행을 통해 가능한 한 빨리 잠재적인 문제를 검색할 수 있습니다.

지원되는 N-2 버전을 사용하여 Kubernetes 버전을 최신 상태로 유지합니다. 새 버전이 자주 릴리스되기 때문에 Kubernetes의 최신 버전으로 업그레이드하는 것이 중요합니다.

자세한 내용은 Kubernetes 최신 버전으로 정기적인 업데이트AKS(Azure Kubernetes Service) 클러스터 업그레이드를 참조하세요.

클러스터에 대한 새 AKS 버전 제공과 같이 클러스터에서 발생하는 이벤트 알림은 Azure Event Grid 대한 AKS 시스템 토픽을 통해 달성할 수 있습니다. 참조 구현은 이벤트 스트림 알림 솔루션에서 이벤트를 구독할 Microsoft.ContainerService.NewKubernetesVersionAvailable 수 있도록 이 Event Grid 시스템 토픽을 배포합니다.

주간 업데이트

AKS는 최신 OS 및 런타임 업데이트가 있는 새 노드 이미지를 제공합니다. 이러한 새 이미지는 자동으로 적용되지 않습니다. 이미지를 업데이트해야 하는 빈도를 결정할 책임은 사용자에게 있습니다. 노드 풀의 기본 이미지를 매주 업그레이드하는 프로세스를 마련하는 것이 좋습니다. 자세한 내용은 AKS(Azure Kubernetes Service) 노드 이미지 업그레이드AKS 릴리스 정보를 참조하세요.

일일 업데이트

이미지 업그레이드 사이에 AKS 노드는 OS 및 런타임 패치를 개별적으로 다운로드하여 설치합니다. 설치 시 노드 VM을 다시 부팅해야 할 수 있습니다. AKS는 보류 중인 업데이트로 인해 노드를 다시 부팅하지 않습니다. 재부팅이 필요한 업데이트가 적용되었는지 노드를 모니터링하고 제어된 방식으로 해당 노드의 재부팅을 수행하는 프로세스를 마련합니다. 오픈 소스 옵션은 Kured(Kubernetes 재부팅 디먼)입니다.

노드 이미지를 최신 주간 릴리스와 동기화된 상태로 유지하면 강화된 보안 상태를 유지하면서 가끔 발생하는 재부팅 요청을 최소화할 수 있습니다. 노드 이미지 업그레이드에만 의존해도 AKS 호환성 및 주간 보안 패치가 보장됩니다. 일일 업데이트를 적용하면 보안 문제가 더 빠르게 해결되지만 AKS에서 반드시 테스트되는 것은 아닙니다. 가능한 경우 노드 이미지 업그레이드를 주간 보안 패치 전략으로 사용합니다.

보안 모니터링

활성 위협 및 잠재적인 보안 위험 둘 다에 대한 컨테이너 인프라 모니터링:

클러스터 및 워크로드 작업(DevOps)

다음과 같은 몇 가지 고려 사항이 있습니다. 자세한 내용은 운영 우수성 핵심 요소를 참조하세요.

클러스터 부트스트래핑

프로비저닝이 완료되면 작업 클러스터가 생기지만 여전히 워크로드를 배포하기 전에 필요한 단계가 있을 수 있습니다. 클러스터를 준비하는 프로세스를 부트스트래핑이라고 하며, 필수 요소 이미지를 클러스터 노드에 배포하고, 네임스페이스를 만드는 작업 및 사용 사례 또는 조직의 요구 사항을 충족하는 다른 작업으로 구성될 수 있습니다.

프로비전된 클러스터와 제대로 구성된 클러스터 간의 격차를 줄이려면 클러스터 운영자가 고유한 부트스트래핑 프로세스는 어때야 할지 생각해서 관련 자산을 미리 준비해야 합니다. 예를 들어 애플리케이션 워크로드를 배포하기 전에 각 노드에서 Kured를 실행하는 것이 중요한 경우 클러스터 운영자는 클러스터를 프로비전하기 전에 대상 Kured 이미지를 포함하는 ACR이 이미 있도록 해야 합니다.

부트스트래핑 프로세스는 다음 메서드 중 하나를 사용해 구성할 수 있습니다.

참고

이러한 메서드 중 어떤 것을 사용해도 모든 클러스터 토폴로지에서 작동하겠지만, 균일성과 용이한 대규모 거버넌스 때문에 플릿에는 GitOps Flux v2 클러스터 확장이 권장됩니다. 소수의 클러스터만 실행하는 경우 GitOps는 지나치게 복잡할 수 있으며, 대신 부트스트랩이 수행되도록 해당 프로세스를 하나 이상의 배포 파이프라인에 통합하는 것이 좋습니다. 조직 및 팀의 목표에 가장 잘 맞는 메서드를 사용합니다.

AKS용 GitOps Flux v2 클러스터 확장을 사용할 때의 주요 이점 중 하나는 프로비전된 클러스터와 부트스트랩된 클러스터 사이에 차이가 없다는 것입니다. 향후 견고한 관리 기반으로 환경을 설정하고 해당 부트스트래핑을 리소스 템플릿으로 포함하여 IaC 전략에 맞출 수 있도록 지원합니다.

마지막으로 확장을 사용하는 경우 kubectl이 부트스트랩 프로세스의 어떤 부분에도 필요하지 않으며 긴급 고장 수리 상황을 위해 kubectl 기반 액세스 사용이 예약됩니다. Azure 리소스 정의에 대한 템플릿과 GitOps 확장을 통한 매니페스트 부트스트랩 사이에 kubectl을 사용할 필요 없이 모든 정상 구성 작업이 수행될 수 있습니다.

워크로드 책임 격리

각 부분을 개별적으로 관리하기 위해 워크로드를 팀과 리소스 유형별로 나눕니다.

기본 구성 요소가 포함된 기본 워크로드로 시작하여 이를 기반으로 빌드합니다. 초기 작업은 네트워킹을 구성하는 것입니다. 해당 네트워크 내에서 허브 및 스포크와 서브넷에 대한 가상 네트워크를 프로비전합니다. 예를 들어 스포크에는 시스템 및 사용자 노드 풀과 수신 리소스에 대한 별도의 서브넷이 있습니다. 허브에서 Azure Firewall에 대한 서브넷입니다.

또 다른 부분은 기본 워크로드를 Microsoft Entra ID와 통합하는 것입니다.

IaC(코드 제공 인프라) 사용

가능한 경우 명령적 접근 방식보다 idempotent 선언적 메서드를 선택합니다. 구성 옵션을 지정하는 명령 시퀀스를 작성하는 대신 리소스 및 해당 속성을 설명하는 선언적 구문을 사용합니다. 한 가지 옵션은 ARM(Azure Resource Manager) 템플릿입니다. 또 다른 하나는 Terraform입니다.

관리 정책에 따라 리소스를 프로비전해야 합니다. 예를 들어 올바른 VM 크기를 선택할 때 애플리케이션의 요구 사항에 맞게 비용 제약 조건, 가용성 영역 옵션 내로 유지합니다.

명령 시퀀스를 작성해야 하는 경우 Azure CLI를 사용합니다. 이러한 명령은 다양한 Azure 서비스를 포함하며 스크립팅을 통해 자동화할 수 있습니다. Azure CLI는 Windows 및 Linux에서 지원됩니다. 또 다른 플랫폼 간 옵션은 Azure PowerShell입니다. 선택은 선호하는 기술 집합에 따라 달라집니다.

소스 제어 시스템에 스크립트 및 템플릿 파일을 저장하고 버전을 지정합니다.

워크로드 CI/CD

워크플로 및 배포를 위한 파이프라인에는 애플리케이션을 지속적으로 빌드하고 배포할 수 있는 기능이 있어야 합니다. 업데이트 안전하고 신속하게 배포하고 문제가 있는 경우 롤백해야 합니다.

배포 전략에는 안정적이고 자동화된 CD(지속적인 업데이트) 파이프라인이 포함되어야 합니다. 워크로드 컨테이너 이미지에 대한 변경 내용은 클러스터에 자동으로 배포되어야 합니다.

이 아키텍처에서는 워크플로 및 배포를 관리하기 위해 GitHub Actions를 선택했습니다. 기타 인기 있는 옵션으로는 Azure DevOps ServicesJenkins가 있습니다.

클러스터 CI/CD

워크로드 CI/CD를 보여 주는 다이어그램

이 아키텍처의 Visio 파일을 다운로드합니다.

kubectl과 같은 명령적 접근 방식을 사용하는 대신 클러스터 및 리포지토리 변경 내용을 자동으로 동기화하는 도구를 사용합니다. 프로덕션에 배포하기 전에 새 버전의 릴리스 및 해당 버전의 유효성 검사와 같은 워크플로를 관리하려면 GitOps 흐름을 사용하는 것이 좋습니다.

CI/CD 흐름의 필수적인 부분은 새로 프로비전된 클러스터의 부트스트래핑입니다. GitOps 접근 방식은 이런 목적에 유용하며, 운영자가 IaC 전략의 일부로 부트스트래핑 프로세스를 선언적으로 정의하고 클러스터에 자동으로 반영된 구성을 볼 수 있도록 허용합니다.

GitOps를 사용하는 경우 에이전트가 클러스터에 배포되어 클러스터의 상태가 프라이빗 Git 리포지토리에 저장된 구성과 통합되도록 합니다. 이러한 에이전트 중 하나는 Flux이며, 클러스터에서 하나 이상의 연산자를 사용하여 Kubernetes 내에서 배포를 트리거합니다. Flux는 다음 작업을 수행합니다.

  • 구성된 모든 리포지토리를 모니터링합니다.
  • 새로운 구성 변경 내용을 검색합니다.
  • 배포를 트리거합니다.
  • 해당 변경 내용에 따라 원하는 실행 구성을 업데이트합니다.

해당 변경 내용이 배포되는 방식을 제어하는 정책을 설정할 수도 있습니다.

다음은 GitOps 및 Flux를 사용하여 클러스터 구성을 자동화하는 방법을 보여 주는 예제입니다.

GitOps 흐름을 보여 주는 다이어그램

이 아키텍처의 Visio 파일을 다운로드합니다.

  1. 개발자는 git 리포지토리에 저장된 구성 YAML 파일과 같은 소스 코드에 변경 내용을 커밋합니다. 그러면 변경 내용이 git 서버로 푸시됩니다.

  2. Flux는 워크로드와 함께 Pod에서 실행됩니다. Flux에는 Git 리포지토리에 대한 읽기 전용 액세스 권한이 있어서 Flux가 개발자의 요청 시에만 변경 내용을 적용하도록 합니다.

  3. Flux는 구성의 변경 내용을 인식하고 kubectl 명령을 사용하여 해당 변경 내용을 적용합니다.

  4. 개발자는 kubectl을 통해 Kubernetes API에 직접 액세스할 수 없습니다.

  5. Git 서버에 분기 정책을 마련하면 여러 개발자가 프로덕션에 적용되기 전에 끌어오기 요청을 통해 변경 사항을 승인할 수 있습니다.

GitOps와 Flux는 수동으로 구성할 수 있지만 AKS에는 Flux v2 클러스터 확장을 포함하는 GitOps를 사용하는 것이 좋습니다.

워크로드 및 클러스터 배포 전략

모든 변경 내용(아키텍처 구성 요소, 워크로드, 클러스터 구성)을 하나 이상의 사전 프로덕션 AKS 클러스터에 배포합니다. 이렇게 해서 프로덕션에 배포하기 전에 변경 내용이 문제를 해결할 수 있는지 시뮬레이션합니다.

다음 단계로 이동하기 전에 각 단계에서 테스트/유효성 검사를 실행하여 고도로 제어된 방식으로 프로덕션 환경에 업데이트를 푸시하고 예기치 않은 배포 문제로 인한 중단을 최소화할 수 있도록 해야 합니다. 이 배포는 동일한 GitHub Actions 파이프라인 또는 Flux 연산자를 사용하여 프로덕션과 유사한 패턴을 따라야 합니다.

파란색-녹색 배포, A/B 테스트 및 카나리아 릴리스와 같은 고급 배포 기술에는 추가 프로세스가 요구되고 도구 사용이 필요할 수 있습니다. Flagger는 고급 배포 시나리오 해결을 지원하는 인기 오픈 소스 솔루션입니다.

비용 관리

먼저 AKS용 Well Architected Framework에 설명된 비용 최적화 설계 검사 목록 및 권장 사항 목록을 검토합니다. Azure 가격 계산기를 사용하여 아키텍처에 사용되는 서비스에 대한 비용을 예측합니다. 다른 모범 사례는 Microsoft Azure Well-Architected Framework비용 최적화 섹션에 설명되어 있습니다.

Kubernetes 특정 구문에 의한 세분화된 클러스터 인프라 비용 할당에 AKS 비용 분석을 사용하도록 설정하는 것이 좋습니다.

AKS 기준 참조 아키텍처의 Windows 컨테이너에 포함된 Windows 기반 워크로드와 관련된 비용 관리 고려 사항을 검토하려면 도우미 문서를 참조하세요.

프로비저닝

  • Kubernetes 클러스터의 배포, 관리, 운영에서 AKS와 관련된 비용은 없습니다. 비용에 영향을 미치는 것은 클러스터에서 사용하는 가상 머신 인스턴스, 스토리지, 로그 데이터, 네트워킹 리소스입니다. 시스템 노드 풀에는 더 저렴한 VM을 선택하는 것이 좋습니다. DS2_v2 SKU는 시스템 노드 풀의 일반적인 VM 유형입니다.

  • 개발/테스트와 프로덕션 환경에 대해 동일한 구성을 해서는 안 됩니다. 프로덕션 워크로드에는 고가용성을 위한 추가 요구 사항이 있으며 일반적으로 비용이 더 많이 듭니다. 이 구성은 개발/테스트 환경에서 필요하지 않습니다.

  • 프로덕션 워크로드의 경우 작동 시간 SLA를 추가합니다. 그러나 가용성을 보장할 필요가 없는 개발/테스트 또는 실험적 워크로드용으로 설계된 클러스터에는 비용 절감이 가능합니다. 예를 들어 SLO로 충분합니다. 또한 워크로드에서 지원하는 경우 스폿 VM을 실행하는 전용 스폿 노드 풀을 사용하는 것이 좋습니다.

    AKS 워크로드 아키텍처의 일부로 Azure SQL Database 또는 Azure App Service를 포함하는 비프로덕션 워크로드의 경우 Azure 개발/테스트 구독을 사용하여 서비스 할인을 받을 자격이 있는지 평가합니다.

  • 스케일링 요구 사항을 충족하기 위해 과도한 크기의 클러스터로 시작하는 대신 최소 노드 수로 클러스터를 프로비전하고 클러스터 자동 스케일러가 모니터링하여 스케일링 결정을 내릴 수 있도록 합니다.

  • Kubernetes가 더 높은 밀도의 노드 리소스를 할당할 수 있도록 Pod 요청 및 제한을 설정하여 하드웨어가 용량에 활용되도록 합니다.

  • 클러스터에서 진단을 사용하도록 설정하면 비용이 증가할 수 있습니다.

  • 워크로드가 장기간 존재할 것으로 예상되는 경우 1년 또는 3년 예약 가상 머신 인스턴스를 약정하여 노드 비용을 줄일 수 있습니다. 자세한 내용은 예약 VM을 참조하세요.

  • 노드 풀을 만들 때 태그를 사용합니다. 태그는 발생한 비용을 추적하는 사용자 지정 보고서를 만드는 데 유용합니다. 태그를 사용하면 총 비용을 추적하고 비용을 특정 리소스 또는 팀에 매핑할 수 있습니다. 또한 클러스터가 팀 간에 공유되는 경우 소비자당 차지백 보고서를 작성하여 공유 클라우드 서비스에 대해 측정된 비용을 식별할 수 있습니다. 자세한 내용은 노드 풀에 대한 taint, 레이블 또는 태그 지정.

  • 지역의 가용성 영역 내에서 이루어지는 데이터 전송은 무료가 아닙니다. 워크로드가 다중 지역이거나 가용성 영역 간에 전송이 있는 경우 추가 대역폭 비용이 예상됩니다. 자세한 내용은 청구 영역 및 지역 간 트래픽을 참조하세요.

  • 조직에서 식별한 비용 제약 조건 내에 유지되도록 예산을 만듭니다. 한 가지 방법은 Azure Cost Management를 통해 예산을 만드는 것입니다. 특정 임계값을 초과할 때 알림을 받는 경고를 만들 수도 있습니다. 자세한 내용은 템플릿을 사용하여 예산 만들기를 참조하세요.

Monitor

컴퓨팅 비용과 함께 전체 클러스터의 비용을 모니터링하기 위해 스토리지, 대역폭, 방화벽 및 로그에 대한 비용 정보도 수집합니다. Azure는 비용을 모니터링하고 분석하는 다양한 대시보드를 제공합니다.

실시간으로 또는 적어도 정기적인 주기로 비용을 모니터링하여 비용이 이미 계산된 월말 이전에 조치를 취하는 것이 이상적입니다. 또한 시간 경과에 따른 월별 추세를 모니터링하여 예산 내로 유지합니다.

데이터에 기반한 결정을 내리려면 가장 많은 비용이 발생하는 리소스(세분화된 수준)를 정확히 파악합니다. 또한 각 리소스의 사용량을 계산하는 데 사용되는 미터를 잘 이해합니다. 메트릭을 분석하여 플랫폼이 인스턴스에 비해 과도한 크기인지 판단할 수 있습니다. Azure Monitor 메트릭에서 사용량 미터를 확인할 수 있습니다.

최적화

Azure Advisor에서 제공하는 권장 사항에 따라 조치를 합니다. 최적화는 다른 방법으로도 수행할 수 있습니다.

  • 클러스터 자동 스케일러를 사용하여 노드 풀에서 과소 사용된 노드를 검색하고 제거할 수 있습니다.

  • 워크로드에서 지원하는 경우 해당 노드 풀에 대해 더 낮은 SKU를 선택합니다.

  • 애플리케이션에 버스트 스케일링이 필요하지 않은 경우 시간이 지남에 따라 성능 메트릭을 분석하여 클러스터 크기를 적절하게 조정하는 것이 좋습니다.

  • 워크로드가 이를 지원하는 경우 실행이 예상되지 않을 때 사용자 노드 풀을 0 노드로 스케일링합니다. 또한 클러스터에서 실행되도록 예약된 워크로드가 없는 경우 AKS 시작/중지 기능을 사용하여 시스템 노드 풀 및 AKS 컨트롤 플레인을 포함한 모든 컴퓨팅을 종료하는 것이 좋습니다.

기타 비용 관련 정보는 AKS 가격 책정을 참조하세요.

다음 단계

AKS 기준 아키텍처에 대한 학습을 계속합니다.

ASIM에 대해 자세히 알아보세요.

다음 관련 가이드를 참조하세요.

다음 관련 아키텍처를 참조하세요.