Azure Monitor 메트릭 경고 문제 해결

이 문서에서는 Azure Monitor 메트릭 경고에 대한 일반적인 질문과 문제를 해결하는 방법에 대해 설명합니다.

Azure Monitor 경고는 모니터링 데이터에서 중요한 조건이 발견될 때 사용자에게 사전에 알립니다. 시스템 사용자가 문제를 알아채기 전에 경고를 통해 문제를 식별하여 해결할 수 있습니다. 경고에 대한 자세한 내용은 Microsoft Azure의 경고 개요를 참조하세요.

메트릭 경고가 발생해야 할 때 발생하지 않음

메트릭 경고가 발생해야 했지만 발생하지 않았고 Azure Portal에 나열되지 않은 경우 다음 단계를 시도합니다.

  1. 메트릭 경고 규칙 구성을 검토합니다.

    • 집계 유형집계 세분성(기간)이 예상대로 구성되었는지 확인합니다. 집계 형식은 메트릭 값이 집계되는 방식을 결정합니다. 자세한 내용은 Azure Monitor 메트릭 집계 및 표시 설명을 참조하세요. 집계 세분성(기간)은 경고 규칙이 실행될 때마다 평가에서 메트릭 값을 집계하는 거리를 제어합니다.

    • 임계값 또는 민감도가 예상대로 구성되었는지 확인합니다.

    • 동적 임계값을 사용하는 경고 규칙의 경우 고급 설정이 구성되어 있는지 확인합니다. 위반 횟수는 경고를 필터링할 수 있으며 다음 이전의 데이터 무시는 임계값 계산 방법에 영향을 줄 수 있습니다.

      참고 항목

      동적 임계값이 활성화되려면 최소 3일 및 30개 이상의 메트릭 샘플이 필요합니다.

  2. 경고가 발생했지만 알림을 보내지 않았는지 확인합니다.

    발생한 경고 목록을 검토하여 발생한 경고를 찾을 수 있는지 확인합니다. 목록에 경고가 표시되지만 일부 작업이나 경고에 문제가 있는 경우 Azure Monitor 경고의 문제 해결을 참조하세요.

  3. 경고가 이미 활성 상태인지 확인합니다.

    경고를 받을 것으로 예상했던 메트릭 시계열에 이미 발생한 경고가 있는지 확인합니다. 메트릭 경고는 상태 저장이 됩니다. 즉, 특정 메트릭 시계열에 대해 경고가 발생하면 문제가 더 이상 관찰되지 않을 때까지 해당 시계열에 대한 더 많은 경고가 발생하지 않습니다. 이 디자인을 선택하면 노이즈가 줄어듭니다. 3번 연속된 평가에서 경고 조건이 부합하지 않으면 경고가 자동으로 해결됩니다.

  4. 사용된 차원을 확인합니다.

    일부 메트릭 차원 값을 선택한 경우 경고 규칙은 임계값 위반에 대해 각 개별 메트릭 시계열(차원 값 조합으로 정의됨)을 모니터링합니다. 차원을 선택하지 않고 집계 메트릭 시계열도 모니터링하려면 차원을 선택하지 않고 메트릭에 대해 다른 경고 규칙을 구성합니다.

  5. 집계 및 시간 세분성을 확인합니다.

    메트릭 차트를 사용하는 경우 다음을 확인합니다.

    • 선택한 메트릭 차트의 집계가 경고 규칙의 집계 유형과 동일합니다.
    • 선택한 시간 세분성은 경고 규칙의 집계 세분성(기간)과 동일하며 자동으로 설정되어 있지 않습니다.
  6. 경고 규칙에 시계열의 첫 번째 평가 기간이 누락되었는지 확인합니다.

    다음과 같은 경우 평가 빈도보다 큰 집계 세분성(기간)을 선택하여 추가된 시계열의 첫 번째 평가가 누락될 가능성을 줄일 수 있습니다.

    • 여러 차원을 모니터링하는 메트릭 경고 규칙에 새 차원 값 조합이 추가되는 경우
    • 여러 리소스를 모니터링하는 메트릭 경고 규칙의 범위에 새 리소스가 추가되는 경우
    • 연속으로 내보내지 않는 메트릭을 모니터링하는 메트릭 경고 규칙에 대해 메트릭을 내보내지 않은 기간이 24시간을 경과한 후에 메트릭을 내보내는 경우

조건이 충족될 때마다 메트릭 경고가 트리거되지 않습니다.

메트릭 경고는 기본적으로 상태 저장이므로 특정 시계열에 대해 이미 발생한 경고가 있는 경우 다른 경고가 실행되지 않습니다. 특정 메트릭 경고 규칙을 상태 비저장으로 만들고 경고 조건이 충족되는 모든 평가에 대해 경고를 받으려면 다음 옵션 중 하나를 사용합니다.

  • 예를 들어 Azure Resource Manager, PowerShell, REST 또는 Azure CLI를 통해 프로그래밍 방식으로 경고 규칙을 만드는 경우 autoMitigate 속성을 False로 설정합니다.

  • Azure Portal에서 경고 규칙을 만드는 경우 경고 규칙 세부 정보 섹션에서 자동으로 경고 해결 옵션을 선택 취소합니다. 상태 비저장 메트릭 경고에 대한 알림 빈도는 경고 규칙의 구성된 빈도에 따라 다릅니다.

  • 5분 미만의 경고 빈도: 조건이 계속 충족되는 동안 1~6분 사이에 알림이 전송됩니다.

  • 5분 이상의 경고 빈도: 조건이 계속 충족되는 동안 구성된 빈도와 두 배의 빈도 사이에 알림이 전송됩니다. 예를 들어, 빈도가 15분인 경고 규칙의 경우 15~30분 사이에 알림이 전송됩니다.

참고 항목

메트릭 경고 규칙을 상태 비저장으로 만들면 발생된 경고가 해결되지 않습니다. 따라서 조건이 더 이상 충족되지 않더라도 발생한 경고는 30일의 보존 기간까지 시작된 상태로 유지됩니다.

동적 임계값을 사용하는 메트릭 경고 규칙이 충분히 발생하지 않음

동적 임계값을 사용하는 경고 규칙이 실행되지 않거나 민감도가 높음에도 불구하고 충분히 민감하지 않은 경고 규칙이 발생할 수 있습니다. 이 문제는 일반적으로 메트릭의 분포가 매우 불규칙한 경우에 발생합니다. 다음 해결 방법 중 하나를 사용하여 문제를 해결합니다.

  • 해당하는 경우 시나리오에 적합한 보완 메트릭 모니터링으로 이동합니다. 예를 들어 실패율이 아닌 성공률의 변경 내용을 확인합니다.
  • 집계 세분성(기간)에 대해 다른 값을 선택해 봅니다.
  • 중단 등 지난 10일 동안 메트릭 동작이 크게 변경되었는지 확인합니다. 급격한 변경은 메트릭에 대해 계산된 상한 및 하한 임계값에 영향을 주고 더 광범위하게 만들 수 있습니다. 중단이 더 이상 임계값 계산에 포함되지 않을 때까지 며칠 동안 기다리세요. 고급 설정에서 이전 데이터 무시 옵션을 사용하도록 경고 규칙을 편집할 수도 있습니다.
  • 데이터에 주간 계절성이 있지만 메트릭에 사용할 수 있는 기록이 충분하지 않은 경우 계산된 임계값으로 인해 광범위한 상한과 하한이 발생할 수 있습니다. 예를 들어 계산은 평일과 주말을 동일한 방식으로 처리하고 항상 데이터에 맞지 않는 넓은 테두리를 빌드할 수 있습니다. 이 문제는 충분한 메트릭 기록을 사용할 수 있게 되면 저절로 해결됩니다. 그러면 올바른 계절성이 검색되고 계산된 임계값이 그에 따라 업데이트됩니다.

메트릭 검색 경고가 발생하면 안 되는 상황에서 발생합니다.

메트릭 경고가 발생하면 안 되는 상황에서 발생했다고 생각되는 경우 다음 단계를 수행하면 문제 해결에 도움이 될 수 있습니다.

  1. 실행된 경고 목록을 검토하여 실행된 경고를 찾습니다. 경고를 선택하여 세부 정보를 봅니다. 이 경고가 발생한 이유는 무엇인가요? 아래에서 제공된 정보를 검토하여 경고가 트리거되었던 시간의 메트릭 차트, 메트릭 값임계값을 확인합니다.

    참고 항목

    동적 임계값을 사용하고 임계값이 올바르지 않다고 생각되는 경우 찡그린 아이콘을 사용하여 피드백을 제공합니다. 이 피드백은 기계 학습 알고리즘 연구에 영향을 미치며 향후 검색을 개선하는 데 도움이 됩니다.

  2. 메트릭의 차원 값을 여러 개 선택한 경우 메트릭 시계열 중 하나라도 임계값을 위반하면 경고가 트리거됩니다(차원 값 조합의 정의에 따름). 메트릭 경고에서 차원을 사용하는 방법에 대한 자세한 내용은 차원을 사용하여 대상 좁히기를 참조하세요.

  3. 경고 규칙 구성을 검토하여 제대로 구성되었는지 확인합니다.

    • 집계 유형, 집계 세분성(기간)임계값 또는 민감도가 예상대로 구성되었는지 확인합니다.
    • 동적 임계값을 사용하는 경고 규칙의 경우 고급 설정이 구성되었는지 확인하세요. 위반 횟수가 경고를 필터링할 수 있고 이전 데이터 무시가 임계값 계산 방법에 영향을 미칠 수 있기 때문입니다.

    참고 항목

    동적 임계값은 활성 상태가 되려면 3일 이상 및 메트릭 샘플 30개 이상이 필요합니다.

  4. 메트릭 차트를 사용하는 경우 다음을 확인합니다.

    • 선택한 메트릭 차트의 집계가 경고 규칙의 집계 유형과 동일합니다.
    • 선택한 시간 세분성은 경고 규칙의 집계 세분성(기간)과 동일하며 자동으로 설정되어 있지 않습니다.
  5. 이미 발생한 경고가 해결되지 않은 동일한 기준을 모니터링하는 동안 다시 발생한 경우 경고 규칙이 경고를 자동으로 해결하지 않도록 구성되었는지 확인합니다. 즉, 경고 규칙은 상태 비저장이며 발생한 경고를 자동으로 해결하지 않으며 동일한 시계열에서 다시 실행되기 전에 발생한 경고를 해결할 필요가 없습니다. 경고 규칙이 자동 해결되지 않도록 구성되었는지 확인하려면:

    • Azure Portal에서 경고 규칙을 편집합니다. 경고 규칙 세부 정보 섹션 아래의 경고 자동 해결 확인란이 선택 취소되었는지 확인합니다.
    • 경고 규칙을 배포하거나 경고 규칙 정의를 검색하는 데 사용되는 스크립트를 검토합니다. autoMitigate 속성이 false로 설정되어 있는지 확인합니다.

동적 임계값을 사용하는 메트릭 경고 규칙이 너무 많이 발생하거나 노이즈가 많음

동적 임계값을 사용하는 경고 규칙이 너무 시끄럽거나 너무 많이 발생하는 경우 동적 임계값 경고 규칙의 민감도를 줄여야 할 수 있습니다. 다음 옵션 중 하나를 사용합니다.

  • 임계값 민감도: 편차에 대한 내성을 높이기 위해 민감도를 낮음으로 설정합니다.
  • 위반 횟수(고급 설정 아래): 특정 기간 내에 여러 위반 사항이 발생한 경우에만 트리거되도록 경고 규칙을 구성합니다. 이 설정은 규칙을 규칙이 일시적인 편차에 덜 취약해질 수 있습니다.

동적 임계값이 있는 메트릭 경고 규칙에 예상 값 범위 내에 없는 값이 표시됩니다.

메트릭 값이 큰 변동을 보이는 경우 동적 임계값은 메트릭 값을 중심으로 넓은 모델을 빌드할 수 있으며, 이로 인해 예상보다 낮거나 높은 경계가 발생할 수 있습니다. 이 시나리오는 다음과 같은 경우에 발생할 수 있습니다.

  • 민감도가 낮음으로 설정됩니다.

  • 메트릭은 데이터에서 급증 또는 급락으로 나타나는 높은 분산과 함께 불규칙한 동작을 나타냅니다.

    더 높은 민감도를 선택하거나 더 큰 조회 기간을 선택하여 모델을 덜 민감하게 만드는 것이 좋습니다. 또는 기록 데이터 무시 옵션을 사용하여 모델을 빌드하는 데 사용된 기록 데이터에서 최근의 불규칙성을 제외합니다.

메트릭 경고 규칙 구성 문제

경고할 메트릭을 찾을 수 없음

특정 메트릭에 대해 경고하려고 하지만 경고 규칙을 만들 때 이를 볼 수 없는 경우 다음 사항을 확인합니다.

경고하는 메트릭을 찾을 수 없음: 가상 머신 게스트 메트릭

메모리 및 디스크 공간과 같은 가상 머신의 게스트 운영 체제 메트릭에 대해 경고하려면 다음에 대한 Azure Monitor 메트릭에 이 데이터를 수집하는 데 필요한 에이전트를 설치했는지 확인합니다.

가상 머신의 게스트 운영 체제에서 데이터를 수집하는 방법에 대한 자세한 내용은 이 웹 사이트를 참조하세요.

참고 항목

Log Analytics 작업 영역으로 보낼 게스트 메트릭을 구성한 경우 이러한 메트릭은 Log Analytics 작업 영역 리소스에 표시되며, 이를 모니터링하는 경고 규칙을 만든 후에만 데이터가 표시됩니다. 이렇게 하려면 로그에 대한 메트릭 경고를 구성하는 단계를 수행합니다.

단일 경고 규칙을 사용하여 여러 가상 머신에 대한 게스트 메트릭을 모니터링하는 기능은 현재 메트릭 경고에서 지원되지 않습니다. 하지만 로그 경고 규칙을 사용할 수 있습니다. 이렇게 하려면 게스트 메트릭이 Log Analytics 작업 영역으로 수집되는지 확인하고 작업 영역에서 로그 경고 규칙을 만듭니다.

경고한 메트릭 차원을 찾을 수 없음

메트릭의 특정 차원 값에 대해 알리려고 하지만 이러한 값을 찾을 수 없는 경우:

  • 차원 값 목록에 차원 값이 표시되는 데 몇 분 정도 걸릴 수 있습니다.
  • 표시되는 차원 값은 과거에 수집된 메트릭 데이터를 기반으로 합니다.
  • 차원 값이 아직 내보내지지 않았거나 표시되지 않는 경우 사용자 지정 값 추가 옵션을 사용하여 사용자 지정 차원 값을 추가할 수 있습니다.
  • 차원의 가능한 모든 값에 대해 알리고 향후 값도 포함하려면 현재 및 향후 값 모두 선택 옵션을 선택합니다.
  • Application Insights 리소스의 사용자 지정 메트릭 차원은 기본적으로 꺼져 있습니다. 이러한 사용자 지정 메트릭에 관한 차원 컬렉션을 설정하고자 한다면, 애플리케이션 인사이트의 로그 기반 및 사전 집계 메트릭을 참고하세요.

아직 내보내지 않은 사용자 지정 메트릭에 대해 경고 규칙을 구성하려고 합니다.

메트릭 경고 규칙을 만들 때 메트릭 이름이 존재하는지 유효성을 검사하기 위해 메트릭 정의 API에 대해 유효성을 검사합니다. 어떤 경우에는 사용자 지정 메트릭이 내보내지기 전에도 경고 규칙을 만들려고 합니다. 예를 들어 Resource Manager 템플릿을 사용하여 해당 메트릭을 모니터링하는 경고 규칙과 함께 사용자 지정 메트릭을 내보내는 Application Insights 리소스를 만들 수 있습니다.

사용자 지정 메트릭 정의의 유효성을 검사할 때 배포 실패를 방지하려면 경고 규칙의 criteria 섹션에서 skipMetricValidation 매개 변수를 사용합니다. 이 매개 변수를 사용하면 메트릭 유효성 검사를 건너뛸 수 있습니다. Resource Manager 템플릿에서 이 매개 변수를 사용하는 방법은 다음 예를 참조하세요. 자세한 내용은 메트릭 경고 규칙에 대한 Resource Manager 템플릿 샘플 완료를 참조하세요.

"criteria": {
    "odata.type": "Microsoft.Azure.Monitor.SingleResourceMultipleMetricCriteria",
        "allOf": [
            {
                "name" : "condition1",
                "metricName": "myCustomMetric",
                "metricNamespace": "myCustomMetricNamespace",
                "dimensions":[],
                "operator": "GreaterThan",
                "threshold" : 10,
                "timeAggregation": "Average",
                "skipMetricValidation": true
            }
        ]
    }

참고 항목

며칠 동안 내보내지 않은 기존 사용자 지정 메트릭에 대한 경고 규칙을 정의할 때도 skipMetricValidation 매개 변수를 사용해야 할 수 있습니다.

메트릭 경고 규칙을 구성할 때 발생하는 경고 및 오류

동적 임계값은 현재 이 메트릭 경고에 사용할 수 없습니다.

동적 임계값은 대부분의 메트릭에 대해 지원되지만 전부는 아닙니다. 메트릭 목록은 동적 임계값에서 지원되지 않는 메트릭을 참조하세요.

선택한 범위에는 메트릭을 사용할 수 없습니다. 메트릭이 특정 버전 또는 SKU 오류에만 적용되는 경우 발생할 수 있습니다.

Azure Monitor에서 지원되는 메트릭의 메트릭 설명을 검토하여 리소스의 특정 버전이나 에디션 또는 이 특정 유형에서만 사용할 수 있는지 확인합니다.

예를 들어, SQL Database 리소스 또는 스토리지 파일 서비스에는 특정 버전의 리소스에서만 지원되는 특정 메트릭이 있습니다.

표시할 수 있는 신호가 없습니다. 이 경고 규칙 오류의 범위를 변경해 보세요.

해당 오류는 경고 규칙의 범위에 문제가 있음을 의미합니다. 해당 문제는 다중 리소스 구성(예시: 가상 머신 또는 SQL 데이터베이스)을(를) 지원하는 리소스 종류로 범위가 지정된 경고 규칙을 편집하고 다른 지역에서 동일한 유형의 다른 리소스를 추가하려고 할 때 발생될 수 있습니다. 다른 지역에서 동일한 유형의 여러 리소스에 관한 경고는 메트릭 경고에서 지원되지 않습니다.

메트릭 경고 규칙에 대한 서비스 제한이 너무 작습니다.

구독당 메트릭 경고 규칙에 허용되는 수는 서비스 한도에 따라 결정됩니다.

현재 사용 중인 메트릭 경고 규칙 수를 확인하려면 사용 중인 메트릭 경고 규칙 수 확인을 참조하세요.

서비스 한도에 도달한 경우 다음 단계를 통해 문제를 해결할 수 있습니다.

  1. 더 이상 사용되지 않는 메트릭 경고 규칙을 삭제하거나 비활성화합니다.
  2. 여러 리소스를 모니터링하는 메트릭 경고 규칙을 사용하도록 전환합니다. 이 기능을 사용하면 단일 경고 규칙이 할당량에 대해 하나의 경고 규칙만 계산하여 여러 리소스를 모니터링할 수 있습니다. 이 기능과 지원되는 리소스 유형에 대한 자세한 내용은 메트릭 경고를 참조하세요.
  3. 할당량 한도를 늘려야 하는 경우 지원 요청을 열고 다음을 제공합니다.
    • 할당량 한도를 늘려야 하는 구독 ID입니다.
    • 할당량을 늘릴 리소스 종류. 메트릭 경고를 참조하세요.
    • 요청된 할당량 한도.

다음 단계

경고 및 알림에 대한 일반적인 문제 해결 정보는 Azure Monitor 경고 문제 해결을 참조하세요.