Site Recovery 모니터링

이 문서에서는 Site Recovery 기본 제공 모니터링을 사용하여 Azure Site Recovery를 모니터링하는 방법을 알아봅니다. 다음을 모니터링할 수 있습니다.

  • Site Recovery에서 복제한 컴퓨터의 상태.
  • 컴퓨터의 테스트 장애 조치(failover) 상태.
  • 구성 및 복제에 영향을 주는 문제 및 오류.
  • 온-프레미스 서버와 같은 인프라 구성 요소.

시작하기 전에

시작하기 전에 일반적인 모니터링 질문을 검토할 수 있습니다.

대시보드에서 모니터링

  1. 자격 증명 모음에서 개요를 클릭합니다. Recovery Services 대시보드는 자격 증명 모음에 대한 모든 모니터링 정보를 단일 위치에 통합합니다. Site Recovery와 Azure Backup 서비스에 대한 페이지가 모두 있으며 두 페이지 간에 전환할 수 있습니다.

    Site Recovery dashboard

  2. 이 대시보드에서 다른 영역으로 드릴다운합니다.

    Screenshot that shows the areas on the dashboard where you can drill down..

  3. 복제된 항목에서 모두 보기를 클릭하여 자격 증명 모음에 있는 모든 서버를 확인합니다.

  4. 각 섹션에서 상태 세부 정보를 클릭하여 드릴다운합니다.

  5. 인프라 보기에서 복제하려는 컴퓨터의 유형별로 모니터링 정보를 정렬합니다.

복제된 항목 모니터링

복제된 항목에서 복제를 사용하도록 설정된 자격 증명 모음에 있는 모든 컴퓨터의 상태를 모니터링합니다.

State 세부 정보
Healthy 복제가 정상적으로 진행되고 있습니다. 오류 또는 경고 증상이 검색되지 않았습니다.
경고 복제에 영향을 줄 수 있는 하나 이상의 경고 증상이 검색되었습니다.
위험 하나 이상의 중요한 복제 오류 증상이 검색되었습니다.

이러한 오류 증상은 일반적으로 복제가 중단되거나 데이터 변경률만큼 빠르게 진행되지 않음을 나타내는 지표입니다.
해당 없음 현재 복제되지 않을 것으로 예상되는 서버입니다. 여기에는 장애 조치(Failover)된 컴퓨터가 포함될 수 있습니다.

테스트 장애 조치(Failover) 모니터링

장애 조치(Failover) 테스트 성공에서 자격 증명 모음에 있는 컴퓨터의 장애 조치 (failover) 상태를 모니터링합니다.

  • 적어도 6개월에 한 번 복제된 컴퓨터에서 테스트 장애 조치(Failover)를 실행하는 것이 좋습니다. 이렇게 하면 프로덕션 환경을 중단하는 일 없이, 장애 조치(Failover)가 예상대로 작동하는지 확인할 수 있습니다.
  • 테스트 장애 조치(Failover)는 장애 조치(Failover) 및 장애 조치(Failover) 후 정리가 성공적으로 완료된 후에만 성공으로 간주됩니다.
State 세부 정보
테스트 권장 보호 기능을 사용하도록 설정한 후에 테스트 장애 조치(Failover)가 수행되지 않은 컴퓨터입니다.
성공적으로 수행됨 테스트 장애 조치(Failover)가 여러 번 성공한 컴퓨터입니다.
해당 없음 현재 테스트 장애 조치(Failover)에 적합하지 않은 컴퓨터입니다. 예를 들어, 장애 조치(Failover)되었으며 초기 복제/테스트 장애 조치(Failover)/장애 조치(Failover)가 진행 중인 컴퓨터입니다.

구성 문제 모니터링

구성 문제에서 장애 조치(failover)를 성공적으로 수행하는 데 영향을 미칠 수 있는 문제를 모니터링합니다.

  • 구성 문제(소프트웨어 업데이트의 가용성 제외)는 기본적으로 12시간마다 실행되는 주기적인 유효성 검사 작업을 통해 검색됩니다. 구성 문제 섹션 제목 옆에 있는 새로 고침 아이콘을 클릭하여 유효성 검사기 작업을 즉시 실행하도록 강제할 수 있습니다.
  • 세부 정보를 보려면 링크를 클릭합니다. 특정 컴퓨터에 영향을 주는 문제의 경우 대상 구성 열에서 주의 필요를 클릭합니다. 세부 정보에는 수정 권장 사항이 포함됩니다.
State 세부 정보
구성 누락 복구 네트워크 또는 리소스 그룹과 같은 필요한 설정이 누락되었습니다.
누락된 리소스 지정된 리소스를 찾을 수 없거나 구독에서 사용할 수 없습니다. 예를 들어, 리소스가 삭제되었거나 마이그레이션되었습니다. 모니터링된 리소스에는 대상 리소스 그룹, 대상 VNet/서브넷, 로그/대상 스토리지 계정, 대상 가용성 집합, 대상 IP 주소가 포함되어 있습니다.
구독 할당량 사용 가능한 구독 리소스 할당량의 잔량이 자격 증명 모음의 모든 컴퓨터를 장애 조치(Failover)하는 데 필요한 잔량과 비교됩니다.

충분한 리소스가 없으면 할당량 잔량이 부족한 것으로 보고됩니다.

할당량 기능은 VM 코어 수, VM 패밀리 코어 수, NIC(네트워크 인터페이스 카드) 수를 모니터링합니다.
소프트웨어 업데이트 새 소프트웨어 업데이트의 가용성 및 만료되는 소프트웨어 버전에 대한 정보입니다.

오류 모니터링

오류 요약에서 자격 증명 모음의 서버 복제에 영향을 줄 수 있는 현재 활성 상태의 오류 증상과 영향을 받는 컴퓨터의 수를 모니터링합니다.

  • 온-프레미스 인프라 구성 요소에 영향을 주는 오류가 섹션 시작 부분에 표시됩니다. 예를 들어 온-프레미스 구성 서버 또는 Hyper-V 호스트의 Azure Site Recovery 공급자로부터 하트 비트를 받지 못합니다.
  • 그런 다음, 복제된 서버에 영향을 주는 복제 오류 증상이 표시됩니다.
  • 표 항목은 오류 심각도의 내림차순으로 정렬된 다음, 영향을 받는 컴퓨터 수의 내림차순으로 정렬됩니다.
  • 영향을 받는 서버 수는 단일 기본 문제가 여러 컴퓨터에 영향을 주는지 이해하는 데 유용한 방법입니다. 예를 들어, 네트워크 결함은 Azure로 복제되는 모든 컴퓨터에 잠재적으로 영향을 줄 수 있습니다.
  • 단일 서버에서 여러 복제 오류가 발생할 수 있습니다. 이 경우 각 오류 증상은 영향을 받는 서버 목록에서 해당 서버 수를 계산합니다. 해당 문제가 해결되면 복제 매개 변수가 개선되고 컴퓨터에서 오류가 지워집니다.

인프라를 모니터링합니다.

인프라 보기에서 복제에 관련된 인프라 구성 요소 및 서버와 Azure 서비스 간의 연결 상태를 모니터링합니다.

  • 녹색 선은 연결이 정상 상태임을 나타냅니다.

  • 오버레이된 오류 아이콘이 있는 빨간색 선은 연결에 영향을 주는 하나 이상의 오류 증상이 있음을 나타냅니다.

  • 오류 아이콘 위를 마우스 포인터로 가리키면 오류 및 영향을 받는 엔터티의 수가 표시됩니다. 영향을 받는 엔터티의 필터링된 목록에 대한 아이콘을 클릭합니다.

    Site Recovery infrastructure view (vault)

인프라 모니터링 팁

  • 온-프레미스 인프라 구성 요소(구성 서버, 추가 프로세스 서버, VMM 서버, Hyper-V 호스트, VMware 컴퓨터)에서 최신 버전의 Site Recovery 공급자 및/또는 에이전트를 실행하는지 확인합니다.

  • 인프라 보기에서 모든 기능을 사용하려면 이러한 구성 요소에 대해 업데이트 롤업 22를 실행하고 있어야 합니다.

  • 인프라 보기를 사용하려면 사용자 환경에서 적절한 복제 시나리오를 선택합니다. 자세한 내용을 보려면 뷰를 드릴다운합니다. 다음 표에서는 표시되는 시나리오를 보여 줍니다.

    시나리오 State 보기 사용 가능 여부
    온-프레미스 사이트 간 복제 모든 상태
    Azure 지역 간 Azure VM 복제 복제가 사용되도록 설정됨/초기 복제 진행 중
    Azure 지역 간 Azure VM 복제 장애 조치(Failover)/장애 복구(Failback)됨
    Azure로 VMware 복제 복제가 사용되도록 설정됨/초기 복제 진행 중
    Azure로 VMware 복제 장애 조치(Failover)/장애 복구(Failback)됨
    Azure로 Hyper-V 복제 장애 조치(Failover)/장애 복구(Failback)됨
  • 단일 복제 컴퓨터에 대해 인프라 보기를 보려면 자격 증명 모음 메뉴에서 복제된 항목을 클릭하고 서버를 선택합니다.

복구 계획 모니터링

복구 계획에서 계획의 수를 모니터링하고, 새 계획을 만들고, 기존 계획을 수정합니다.

작업 모니터링

작업 섹션에서 Site Recovery 작업의 상태를 모니터링합니다.

  • 대부분의 Azure Site Recovery 작업은 비동기적으로 실행되며 추적 작업이 만들어지고 작업 진행 상황을 추적하는 데 사용됩니다.
  • 작업 개체에는 작업의 상태 및 진행 상황을 추적하는 데 필요한 모든 정보가 있습니다.

다음과 같이 작업을 모니터링합니다.

  1. 대시보드 >작업 섹션에서 지난 24시간 동안 완료되었거나, 진행 중이거나, 입력 대기 중인 작업의 요약을 볼 수 있습니다. 상태를 클릭하여 관련 작업에 대한 자세한 내용을 볼 수 있습니다.

  2. 지난 24시간 동안의 모든 작업을 보려면 모두 보기를 클릭합니다.

    참고

    자격 증명 모음 메뉴 >Site Recovery 작업에서 작업 정보에 액세스할 수도 있습니다.

  3. Site Recovery 작업 목록에 작업 목록이 표시됩니다. 위쪽 메뉴에서 특정 작업에 대한 오류 세부 정보를 가져오고, 특정 조건에 따라 작업 목록을 필터링하고, 선택한 작업 세부 정보를 Excel로 내보낼 수 있습니다.

  4. 작업을 클릭하여 드릴할 수 있습니다.

가상 머신 모니터링

복제된 항목에서 복제된 컴퓨터 목록을 가져옵니다. Site Recovery replicated items list view

  1. 정보를 보고 필터링할 수 있습니다. 맨 위에 있는 작업 메뉴에서 특정 컴퓨터에 대해 테스트 장애 조치(Failover) 실행 또는 특정 오류 보기 등의 작업을 수행할 수 있습니다.
  2. 을 클릭하여 추가 열을 표시합니다. 예를 들어 RPO, 대상 구성 문제 및 복제 오류를 표시할 수 있습니다.
  3. 필터를 클릭하여 복제 상태 또는 특정 복제 정책과 같은 특정 매개 변수를 기준으로 하는 정보를 볼 수 있습니다.
  4. 컴퓨터를 마우스 오른쪽 단추로 클릭하여 테스트 장애 조치(Failover)와 같은 작업을 시작하거나 연결된 특정 오류 세부 정보를 볼 수 있습니다.
  5. 컴퓨터를 클릭하여 자세한 내용을 드릴합니다. 세부 정보는 다음과 같습니다.
    • 복제 정보: 머신의 현재 상태입니다.

    • RPO(복구 지점 목표): 가상 머신에 대한 현재 RPO 및 RPO가 마지막으로 계산된 시간입니다.

    • 복구 지점: 머신에 대해 사용 가능한 최신 복구 지점입니다.

    • 장애 조치(Failover) 준비: 머신에 대해 테스트 장애 조치(Failover)가 실행되었는지 여부, 머신에서 실행 중인 에이전트 버전, 구성 문제를 나타냅니다.

    • 오류: 현재 컴퓨터에서 관찰되는 복제 오류 증상과 가능한 원인/작업 목록입니다.

    • 이벤트: 머신에 영향을 주는 최근 이벤트가 시간순으로 나열된 목록입니다. 이벤트는 컴퓨터에 영향을 미친 문제에 대한 기록이지만, 오류 세부 정보는 현재 관찰 가능한 오류 증상을 보여 줍니다.

    • 인프라 보기: 컴퓨터가 Azure로 복제하는 시나리오에 대한 인프라의 상태를 보여 줍니다.

      Site Recovery replicated item details/overview

이메일 알림 구독

이러한 위험 이벤트에 대한 이메일 알림을 수신하도록 구독할 수 있습니다.

  • 복제된 컴퓨터의 위험 상태입니다.
  • 온-프레미스 인프라 구성 요소와 Site Recovery 서비스 간 연결이 없습니다. Site Recovery와 자격 증명 모음에 등록된 온-프레미스 서버 간 연결은 하트비트 메커니즘을 사용하여 감지됩니다.
  • 장애 조치(Failover) 실패입니다.

다음과 같이 구독합니다.

자격 증명 모음 >모니터링 섹션에서 Site Recovery 이벤트를 클릭합니다.

  1. 메일 알림을 클릭합니다.

  2. 이메일 알림에서 알림을 켜고 보낼 사람을 지정합니다. 모든 구독 관리자와 선택적으로 특정 이메일 주소로 알림을 보낼 수 있습니다.

    Email notifications

다음 단계

Azure Monitor로 Site Recovery를 모니터링하는 방법을 알아봅니다.