Azure의 Red Hat Enterprise Linux에서 Pacemaker 설정

이 문서에서는 RHEL(Red Hat Enterprise Server)에서 기본 Pacemaker 클러스터를 구성하는 방법을 설명합니다. 지침은 RHEL 7 및 RHEL 8을 모두 다룹니다.

사전 요구 사항

다음 SAP Note 및 문서를 먼저 읽어 보세요.

클러스터 설치

RHEL의 Pacemaker 개요

참고

Red Hat은 소프트웨어 에뮬레이션 워치독(watchdog)을 지원하지 않습니다. Red Hat은 클라우드 플랫폼에서 SBD를 지원하지 않습니다. 자세한 내용은 RHEL 고가용성 클러스터에 대한 지원 정책 - sbd 및 fence_sbd를 참조하세요. Azure에서 Pacemaker Red Hat Enterprise Linux 클러스터에 지원되는 유일한 펜싱 메커니즘은 Azure Fence 에이전트입니다.

다음 항목에는 접두사 [A] (모든 노드에 적용됨), [1] (노드 1에만 적용됨), [2] (노드 2에만 적용됨) 접두사가 표시되어 있습니다. RHEL 7과 RHEL 8 사이의 명령 또는 구성의 차이점이 문서에 나와 있습니다.

  1. [A] 등록 - 선택적 단계입니다. RHEL SAP HA-지원 이미지를 사용 중이라면 필요 없는 단계입니다.

    가상 머신을 등록하고 RHEL 7의 리포지토리가 포함된 풀에 연결합니다.

    sudo subscription-manager register
    # List the available pools
    sudo subscription-manager list --available --matches '*SAP*'
    sudo subscription-manager attach --pool=<pool id>
    

    풀을 Azure Marketplace PAYG RHEL 이미지에 연결하면 RHEL 사용량에 대하여 사실상 이중 청구(PAYG 이미지에 대하여 한 번, 연결한 풀의 RHEL 자격에 대하여 한 번)가 됩니다. 이제 Azure는 이와 같은 이중 청구를 완화하기 위해 BYOS RHEL 이미지를 제공합니다. 자세한 내용은 Azure의 Red Hat Enterprise Linux Bring-Your-Own-Subscription 이미지를 참조하세요.

  2. [A] SAP 리포지토리에 RHEL을 사용하도록 설정 - 선택적 단계입니다. RHEL SAP HA-지원 이미지를 사용 중이라면 필요 없는 단계입니다.

    RHEL 7 필수 패키지를 설치하려면 다음 리포지토리를 사용하도록 설정합니다.

    sudo subscription-manager repos --disable "*"
    sudo subscription-manager repos --enable=rhel-7-server-rpms
    sudo subscription-manager repos --enable=rhel-ha-for-rhel-7-server-rpms
    sudo subscription-manager repos --enable=rhel-sap-for-rhel-7-server-rpms
    sudo subscription-manager repos --enable=rhel-ha-for-rhel-7-server-eus-rpms
    
  3. [A] RHEL HA 추가 기능 설치

    sudo yum install -y pcs pacemaker fence-agents-azure-arm nmap-ncat
    

    중요

    리소스 중지에 실패하거나 클러스터 노드가 더 이상 서로 통신할 수 없는 경우 더 빠른 장애 조치(failover) 시간의 이점을 누리려면 다음 버전(또는 그 이상)의 Azure Fence 에이전트를 사용하는 것이 좋습니다.
    RHEL 7.7 이상은 사용할 수 있는 최신 버전의 Fence-에이전트 패키지를 사용합니다.
    RHEL 7.6: fence-agents-4.2.1-11.el7_6.8
    RHEL 7.5: fence-agents-4.0.11-86.el7_5.8
    RHEL 7.4: fence-agents-4.0.11-66.el7_4.12
    자세한 내용은 RHEL 고가용성 클러스터 멤버로 실행되는 Azure VM이 펜싱되는 데 시간이 너무 오래 걸리거나 VM이 종료되기 전에 펜싱이 실패함/시간 초과됨을 참조하세요.

    중요

    펜스 에이전트에 대한 서비스 주체 이름 대신 Azure 리소스에 대한 관리 ID를 사용하려는 고객에게는 다음 버전의 Azure Fence 에이전트(또는 그 이상)를 사용하는 것이 좋습니다.
    RHEL 8.4: fence-agents-4.2.1-54.el8
    RHEL 8.2: fence-agents-4.2.1-41.el8_2.4
    RHEL 8.1: fence-agents-4.2.1-30.el8_1.4
    RHEL 7.9: fence-agents-4.2.1-41.el7_9.4.

    Azure Fence 에이전트의 버전을 확인합니다. 필요한 경우 위에 명시된 버전과 같거나 이후 버전으로 업데이트합니다.

    # Check the version of the Azure Fence Agent
     sudo yum info fence-agents-azure-arm
    

    중요

    Azure Fence 에이전트를 업데이트해야 하고 사용자 지정 역할을 사용하는 경우 powerOff 작업을 포함하도록 사용자 지정 역할을 업데이트해야 합니다. 자세한 내용은 펜스 에이전트에 대한 사용자 지정 역할 만들기를 참조하세요.

  4. [A] 호스트 이름 확인 설정

    DNS 서버를 사용하거나 모든 노드의 /etc/hosts를 수정할 수 있습니다. 이 예에서는 /etc/hosts 파일 사용 방법을 보여줍니다. 다음 명령에서 IP 주소와 호스트 이름을 바꿉니다.

    중요

    클러스터 구성에 호스트 이름을 사용하는 경우 신뢰할 수 있는 호스트 이름 확인을 사용하는 것이 매우 중요합니다. 이름을 사용할 수 없고, 그로 인해 클러스터 장애 조치(failover) 지연이 발생할 수 있는 경우, 클러스터 통신은 실패합니다. /etc/hosts를 사용하는 장점은 클러스터가 단일 실패 지점이 될 수 있는 DNS와 무관하다는 점입니다.

    sudo vi /etc/hosts
    

    다음 줄을 /etc/hosts에 삽입합니다. 환경에 맞게 IP 주소와 호스트 이름 변경

    # IP address of the first cluster node
    10.0.0.6 prod-cl1-0
    # IP address of the second cluster node
    10.0.0.7 prod-cl1-1
    
  5. [A] hacluster 암호를 동일한 암호로 변경

    sudo passwd hacluster
    
  6. [A] Pacemaker의 방화벽 규칙 추가

    클러스터 노드 간의 모든 클러스터 통신에 다음 방화벽 규칙을 추가합니다.

    sudo firewall-cmd --add-service=high-availability --permanent
    sudo firewall-cmd --add-service=high-availability
    
  7. [A] 기본 클러스터 서비스 사용

    다음 명령을 실행하여 Pacemaker 서비스를 사용하도록 설정하고 시작합니다.

    sudo systemctl start pcsd.service
    sudo systemctl enable pcsd.service
    
  8. [1] Pacemaker 클러스터 만들기

    다음 명령을 실행하여 노드를 인증하고 클러스터를 만듭니다. 메모리 보존 유지 관리를 허용하도록 토큰을 30000으로 설정합니다. 자세한 내용은 Linux에 대한 관련 문서를 참조하세요.

    RHEL 7.x에 클러스터를 빌드하는 경우 다음 명령을 사용합니다.

    sudo pcs cluster auth prod-cl1-0 prod-cl1-1 -u hacluster
    sudo pcs cluster setup --name nw1-azr prod-cl1-0 prod-cl1-1 --token 30000
    sudo pcs cluster start --all
    

    RHEL 8.x에 클러스터를 빌드하는 경우 다음 명령을 사용합니다.

    sudo pcs host auth prod-cl1-0 prod-cl1-1 -u hacluster
    sudo pcs cluster setup nw1-azr prod-cl1-0 prod-cl1-1 totem token=30000
    sudo pcs cluster start --all
    

    다음 명령을 사용하여 클러스터 상태를 확인합니다.

     # Run the following command until the status of both nodes is online
    sudo pcs status
    # Cluster name: nw1-azr
    # WARNING: no stonith devices and stonith-enabled is not false
    # Stack: corosync
    # Current DC: prod-cl1-1 (version 1.1.18-11.el7_5.3-2b07d5c5a9) - partition with quorum
    # Last updated: Fri Aug 17 09:18:24 2018
    # Last change: Fri Aug 17 09:17:46 2018 by hacluster via crmd on prod-cl1-1
    #
    # 2 nodes configured
    # 0 resources configured
    #
    # Online: [ prod-cl1-0 prod-cl1-1 ]
    #
    # No resources
    #
    # Daemon Status:
    #   corosync: active/disabled
    #   pacemaker: active/disabled
    #   pcsd: active/enabled
    
  9. [A] 예상 투표 설정

    # Check the quorum votes 
     pcs quorum status
     # If the quorum votes are not set to 2, execute the next command
     sudo pcs quorum expected-votes 2
    

    노드가 세 개 이상인 다중 노드 클러스터를 빌드하는 경우, 투표를 2로 설정하지 마세요.

  10. [1] 동시 Fence 작업 허용

    sudo pcs property set concurrent-fencing=true
    

펜싱 디바이스 만들기

펜싱 디바이스는 Azure 리소스 또는 서비스 주체에 대한 관리 ID를 사용하여 Microsoft Azure에 대해 권한을 부여합니다.

관리 ID를 사용하는 경우

관리 ID(MSI)를 만들려면 클러스터의 각 VM에 대해 시스템 할당 관리 ID를 만듭니다. 시스템 할당 관리 ID가 이미 있는 경우, 그것이 사용됩니다. 현재는 사용자 할당 관리 ID를 Pacemaker와 함께 사용하면 안 됩니다. 관리 ID를 기반으로 하는 Fence 디바이스는 RHEL 7.9 및 RHEL 8.x에서 지원됩니다.

서비스 주체 사용

관리 ID를 사용하지 않는 경우 다음 단계에 따라 서비스 주체를 만듭니다.

  1. Azure 포털로 이동합니다.
  2. Azure Active Directory 블레이드 열기
    속성으로 이동하여 디렉터리 ID를 적어 둡니다. 이 ID는 테넌트 ID입니다.
  3. 앱 등록 클릭
  4. 새 등록 클릭
  5. 이름을 입력하고 “이 조직 디렉터리의 계정만” 선택
  6. "웹" 애플리케이션 유형을 선택하고 로그온 URL(예: http://localhost))을 입력한 후 추가 클릭
    로그온 URL이 사용되지 않으며, 이 URL은 임의의 올바른 URL이 될 수 있음
  7. 인증서 및 암호를 선택한 다음, 새 클라이언트 암호 클릭
  8. 새 키의 설명을 입력하고 “만료되지 않음”을 선택한 다음, 추가 클릭
  9. 노드를 해당 값으로 설정합니다. 서비스 주체의 암호로 사용됩니다.
  10. 개요를 선택합니다. 애플리케이션 ID를 적어 둡니다. 서비스 주체의 사용자 이름(아래 단계의 로그인 ID)으로 사용됩니다.

[1] 펜스 에이전트에 대한 사용자 지정 역할 만들기

관리 ID와 서비스 주체 모두 기본적으로 Azure 리소스에 액세스할 수 있는 권한이 없습니다. 관리 ID 또는 서비스 주체에 클러스터의 모든 가상 머신을 시작 및 중지(전원 끄기)할 수 있는 권한을 제공해야 합니다. 사용자 지정 역할을 아직 만들지 않은 경우 PowerShell 또는 Azure CLI를 사용하여 만들 수 있습니다.

입력 파일에 다음 콘텐츠를 사용합니다. xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxyyyyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy를 구독의 ID로 바꾸는 콘텐츠를 구독에 적용해야 합니다. 구독이 하나만 있는 경우 AssignableScopes에서 두 번째 항목을 제거합니다.

{
      "Name": "Linux Fence Agent Role",
      "description": "Allows to power-off and start virtual machines",
      "assignableScopes": [
              "/subscriptions/xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
              "/subscriptions/yyyyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy"
      ],
      "actions": [
              "Microsoft.Compute/*/read",
              "Microsoft.Compute/virtualMachines/powerOff/action",
              "Microsoft.Compute/virtualMachines/start/action"
      ],
      "notActions": [],
      "dataActions": [],
      "notDataActions": []
}

[A] 사용자 지정 역할 할당

관리 ID를 사용하는 경우

클러스터 VM의 각 관리 ID에 마지막 장에서 만든 사용자 지정 역할 "Linux 펜스 에이전트 역할"을 할당합니다. 각 VM 시스템 할당 관리 ID에는 모든 클러스터 VM의 리소스에 할당된 역할이 필요합니다. 자세한 단계는 Azure Portal을 사용하여 리소스에 대한 관리 ID 액세스 할당을 참조하세요. 각 VM의 관리 ID 역할 할당에 모든 클러스터 VM이 포함되어 있는지 확인합니다.

중요

관리 ID를 사용한 승인의 할당 및 제거는 유효할 때까지 지연될 수 있습니다.

서비스 주체 사용

마지막 단원에서 만든 사용자 지정 역할인 "Linux 펜스 에이전트 역할"을 서비스 주체에 할당합니다. 소유자 역할을 더 이상 사용하지 마십시오! 세부 단계에 대해서는 Azure Portal을 사용하여 Azure 역할 할당을 참조하세요.
두 클러스터 노드에 대해 역할을 할당해야 합니다.

[1] 펜싱 디바이스 만들기

가상 머신의 권한을 편집하고 나면 클러스터의 펜싱 디바이스를 구성할 수 있습니다.


sudo pcs property set stonith-timeout=900

참고

RHEL 호스트 이름과 Azure VM 이름이 동일하지 않은 경우라면 'pcmk_host_map' 옵션은 해당 명령에만 필요합니다. 호스트 이름:VM-이름 형식의 매핑을 지정합니다. 명령에서 굵은 섹션을 참조하세요. 자세한 내용은 pcmk_host_map에서 펜싱 디바이스에 대한 노드 매핑을 지정할 때 사용해야 하는 형식을 참조하세요.

RHEL 7.X의 경우, 다음 명령을 사용하여 Fence 디바이스를 구성합니다.

sudo pcs stonith create rsc_st_azure fence_azure_arm msi=true resourceGroup="resource group" \ 
subscriptionId="subscription id" pcmk_host_map="prod-cl1-0:prod-cl1-0-vm-name;prod-cl1-1:prod-cl1-1-vm-name" \
power_timeout=240 pcmk_reboot_timeout=900 pcmk_monitor_timeout=120 pcmk_monitor_retries=4 pcmk_action_limit=3 pcmk_delay_max=15 \
op monitor interval=3600

RHEL 8.X의 경우, 다음 명령을 사용하여 Fence 디바이스를 구성합니다.

sudo pcs stonith create rsc_st_azure fence_azure_arm msi=true resourceGroup="resource group" \
subscriptionId="subscription id" pcmk_host_map="prod-cl1-0:prod-cl1-0-vm-name;prod-cl1-1:prod-cl1-1-vm-name" \
power_timeout=240 pcmk_reboot_timeout=900 pcmk_monitor_timeout=120 pcmk_monitor_retries=4 pcmk_action_limit=3 pcmk_delay_max=15 \
op monitor interval=3600

서비스 주체 구성에 따라 펜싱 디바이스를 사용하는 경우 Azure 펜싱을 사용하여 Pacemaker 클러스터에 대한 SPN에서 MSI로 변경을 읽고 관리 ID 구성으로 변환하는 방법을 알아봅니다.

두 노드 Pacemaker 클러스터에서만 pcmk_delay_max 속성을 구성합니다. 두 노드 Pacemaker 클러스터에서 펜스 경합을 방지하는 자세한 내용은 "펜스 사망" 시나리오의 펜스 경합을 방지하기 위해 두 노드 클러스터에서 펜싱 지연을 참조하세요.

중요

모니터링 및 펜싱 작업은 역직렬화됩니다. 결과적으로, 모니터링 작업이 더 오래 실행되고 Fencing 이벤트를 동시에 실행하는 경우, 이미 실행 중인 모니터링 작업으로 인하여 클러스터 장애 조치(failover)는 지연되지 않습니다.

[1] 펜싱 디바이스를 사용하도록 설정

sudo pcs property set stonith-enabled=true

Azure Fence 에이전트는 표준 ILB를 사용하는 VM에 대한 공용 엔드포인트 연결에서 가능한 솔루션과 함께 설명한 대로 공용 엔드포인트에 대한 아웃바운드 연결이 필요합니다.

선택적 펜싱 구성

이 섹션은 특수 펜싱 디바이스 fence_kdump를 구성하려는 경우에만 적용할 수 있습니다.

VM 내에서 진단 정보를 수집해야 하는 경우 펜스 에이전트 fence_kdump를 기반으로 추가 펜싱 디바이스를 구성하는 것이 유용할 수 있습니다. fence_kdump 에이전트는 노드가 kdump 충돌 복구에 들어갔다는 것을 감지하고 다른 펜싱 메서드가 호출되기 전에 충돌 복구 서비스가 완료되도록 허용할 수 있습니다. fence_kdump는 Azure VM을 사용할 때 Azure Fence 에이전트와 같은 기존 펜스 메커니즘을 대체하지 않습니다.

중요

fence_kdump가 첫 번째 수준 펜싱 디바이스로 구성된 경우 펜싱 작업이 지연되고 애플리케이션 리소스 장애 조치(failover)가 각각 지연됩니다.

충돌 덤프가 성공적으로 감지되면 충돌 복구 서비스가 완료될 때까지 펜싱이 지연됩니다. 실패한 노드에 연결할 수 없거나 응답하지 않으면 구성된 반복 횟수 및 fence_kdump 시간 제한에 따라 결정된 시간만큼 펜싱이 지연됩니다. 자세한 내용은 Red Hat Pacemaker 클러스터에서 fence_kdump를 구성하려면 어떻게 할까요?를 참조하세요.
제안된 fence_kdump 시간 제한은 특정 환경에 맞게 조정해야 할 수 있습니다.

VM 내에서 진단을 수집하고 항상 기존 펜스 메서드와 함께 Azure Fence 에이전트로 조합하는 데 필요한 경우에만 fence_kdump 펜싱을 구성하는 것이 좋습니다.

다음 Red Hat KB에는 fence_kdump 펜싱 구성에 대한 중요한 정보가 포함되어 있습니다.

다음 선택적 단계를 실행하여 Azure Fence 에이전트 구성 외에도 첫 번째 수준 펜싱 구성으로 fence_kdump를 추가합니다.

  1. [A] kdump가 활성 상태이고 구성되어 있는지 확인합니다.

    systemctl is-active kdump
    # Expected result
    # active
    
  2. [A]fence_kdump 펜스 에이전트를 설치합니다.

    yum install fence-agents-kdump
    
  3. [1] 클러스터에 fence_kdump 펜싱 디바이스를 만듭니다.

    
     pcs stonith create rsc_st_kdump fence_kdump pcmk_reboot_action="off" pcmk_host_list="prod-cl1-0 prod-cl1-1" timeout=30
     
  4. [1]fence_kdump 펜싱 메커니즘이 먼저 개입되도록 펜싱 수준을 구성합니다.

    
     pcs stonith create rsc_st_kdump fence_kdump pcmk_reboot_action="off" pcmk_host_list="prod-cl1-0 prod-cl1-1"
     pcs stonith level add 1 prod-cl1-0 rsc_st_kdump
     pcs stonith level add 1 prod-cl1-1 rsc_st_kdump
     pcs stonith level add 2 prod-cl1-0 rsc_st_azure
     pcs stonith level add 2 prod-cl1-1 rsc_st_azure
     # Check the fencing level configuration 
     pcs stonith level
     # Example output
     # Target: prod-cl1-0
     # Level 1 - rsc_st_kdump
     # Level 2 - rsc_st_azure
     # Target: prod-cl1-1
     # Level 1 - rsc_st_kdump
     # Level 2 - rsc_st_azure
     
  5. [A] 방화벽을 통해 fence_kdump에 필요한 포트를 허용합니다.

    firewall-cmd --add-port=7410/udp
    firewall-cmd --add-port=7410/udp --permanent
    
  6. [A]initramfs 이미지 파일에 fence_kdumphosts 파일이 있는지 확인합니다. 자세한 내용은 Red Hat Pacemaker 클러스터에서 fence_kdump를 구성하려면 어떻게 할까요?을 참조하세요.

    lsinitrd /boot/initramfs-$(uname -r)kdump.img | egrep "fence|hosts"
    # Example output 
    # -rw-r--r--   1 root     root          208 Jun  7 21:42 etc/hosts
    # -rwxr-xr-x   1 root     root        15560 Jun 17 14:59 usr/libexec/fence_kdump_send
    
  7. [A]/etc/kdump.conf에서 fence_kdump_nodes 구성을 수행하여 일부 kexec-tools 버전에 대한 시간 제한에 따른 fence_kdump 실패를 방지합니다. 자세한 내용은 fence_kdump_nodes가 kexec-tools 버전 2.0.15 이상으로 지정되지 않은 경우 fence_kdump 시간 초과2.0.14 이전의 kexec-tools 버전이 있는 RHEL 6 또는 7 고가용성 클러스터에서 "X초 후 시간 제한"으로 fence_kdump 실패를 참조하세요. 두 노드 클러스터에 대한 예제 구성은 다음과 같습니다. /etc/kdump.conf에서 변경한 후 kdump 이미지를 다시 생성해야 합니다. 이는 kdump 서비스를 다시 시작하면 가능합니다.

    
     vi /etc/kdump.conf
     # On node prod-cl1-0 make sure the following line is added
     fence_kdump_nodes  prod-cl1-1
     # On node prod-cl1-1 make sure the following line is added
     fence_kdump_nodes  prod-cl1-0
    
     # Restart the service on each node
     systemctl restart kdump
     
  8. 노드를 충돌시켜 구성을 테스트합니다. 자세한 내용은 Red Hat Pacemaker 클러스터에서 fence_kdump를 구성하려면 어떻게 할까요?을 참조하세요.

    중요

    클러스터가 이미 생산적으로 사용 중인 경우 노드 충돌로 인해 애플리케이션에 영향을 미치므로 그에 따라 테스트를 계획합니다.

    echo c > /proc/sysrq-trigger
    

다음 단계