관리되는 Prometheus에서 컨트롤 플레인 메트릭의 최소 수집 프로필

아티클
06/14/2024

Azure Monitor 메트릭 추가 기능은 기본적으로 많은 Prometheus 메트릭을 수집합니다. Minimal ingestion profile은 기본 대시보드, 기본 기록 규칙 및 기본 경고에서 사용되는 메트릭만 수집되므로 메트릭 수집 볼륨을 줄이는 데 도움이 되는 설정입니다. 이 문서에서는 특별히 컨트롤 플레인 메트릭을 위해 이 설정을 구성하는 방법을 설명합니다. 이 문서에는 minimal ingestion profile을 사용하는 경우 기본적으로 수집되는 메트릭도 나와 있습니다.

참고 항목

추가 기능 기반 수집의 경우 Minimal ingestion profile 설정이 기본적으로 사용됩니다. 여기서 설명하는 내용은 컨트롤 플레인 메트릭에 중점을 줍니다. 현재 기본 대상 및 메트릭 집합은 여기에 나와 있습니다.

메트릭 추가 기능은 기본적으로 이러한 대상을 자동으로 스크랩하므로 다음 대상은 기본적으로 사용/ON으로 설정됩니다. 즉, 이러한 대상을 스크랩하기 위한 스크래핑 작업 구성을 제공할 필요가 없습니다.

controlplane-apiserver (job=controlplane-apiserver)
controlplane-etcd (job=controlplane-etcd)

다음 대상을 스크래핑할 수 있지만 스크래핑은 기본적으로 사용하도록 설정되지 않습니다(사용 안 함/OFF). 즉, 이러한 대상을 스크래핑하기 위한 스크래핑 작업 구성을 제공할 필요가 없으며, default-scrape-settings-enabled 섹션에서 ama-metrics-settings-configmap을 사용하여 이러한 대상에 대해 ON/사용 스크래핑을 사용하도록 설정해야 합니다.

controlplane-cluster-autoscaler
controlplane-kube-scheduler
controlplane-kube-controller-manager

참고 항목

모든 기본 대상 및 스크랩에 대한 기본 스크랩 빈도는 30 seconds입니다. default-targets-scrape-interval-settings 섹션에서 ama-metrics-settings-configmap을 사용하여 각 대상에 대해 빈도를 재정의할 수 있습니다.

기본 ON 대상에 대한 최소 수집

다음 메트릭은 기본 ON 대상에 대해 minimalingestionprofile=true가 지정된 허용 목록으로 표시됩니다. 아래 메트릭은 기본적으로 이러한 대상이 스크래핑될 때 기본적으로 수집됩니다.

controlplane-apiserver

apiserver_request_total
apiserver_cache_list_fetched_objects_total
apiserver_cache_list_returned_objects_total
apiserver_flowcontrol_demand_seats_average
apiserver_flowcontrol_current_limit_seats
~~apiserver_request_sli_duration_seconds_bucket~~
apiserver_request_sli_duration_seconds_sum
apiserver_request_sli_duration_seconds_count
process_start_time_seconds
~~apiserver_request_duration_seconds_bucket~~
apiserver_request_duration_seconds_sum
apiserver_request_duration_seconds_count
apiserver_storage_list_fetched_objects_total
apiserver_storage_list_returned_objects_total
apiserver_current_inflight_requests

참고 항목

apiserver_request_sli_duration_seconds_bucket 최근 apiserver_request_duration_seconds_bucket 릴리스와 함께 지금 수집되지 않습니다. 이러한 메트릭은 클러스터의 사용자 지정 리소스 수에 따라 저장된 메트릭 수를 늘릴 수 있는 높은 카디널리티 메트릭입니다. 이러한 버킷 메트릭을 수집하려는 경우 유지 목록에 추가할 수 있습니다. 컨트롤 플레인 구성 요소에 대한 최소 수집 프로필을 해제하지 않는 것이 좋습니다.

controlplane-etcd

etcd_server_has_leader
rest_client_requests_total
etcd_mvcc_db_total_size_in_bytes
etcd_mvcc_db_total_size_in_use_in_bytes
etcd_server_slow_read_indexes_total
etcd_server_slow_apply_total
etcd_network_client_grpc_sent_bytes_total
etcd_server_heartbeat_send_failures_total

기본 OFF 대상에 대한 최소 수집

다음 메트릭은 기본 OFF 대상에 대해 minimalingestionprofile=true가 지정된 허용 목록으로 표시됩니다. 이러한 메트릭은 기본적으로 수집되지 않습니다. default-scrape-settings-enabled 섹션에서 ama-metrics-settings-configmap을 사용하면 default-scrape-settings-enabled.<target-name>=true를 사용하여 이러한 대상에 대해 ON 스크래핑을 설정할 수 있습니다.

controlplane-kube-controller-manager

workqueue_depth
rest_client_requests_total
rest_client_request_duration_seconds

controlplane-kube-scheduler

scheduler_pending_pods
scheduler_unschedulable_pods
scheduler_queue_incoming_pods_total
scheduler_schedule_attempts_total
scheduler_preemption_attempts_total

controlplane-cluster-autoscaler

rest_client_requests_total
cluster_autoscaler_last_activity
cluster_autoscaler_cluster_safe_to_autoscale
cluster_autoscaler_failed_scale_ups_total
cluster_autoscaler_scale_down_in_cooldown
cluster_autoscaler_scaled_up_nodes_total
cluster_autoscaler_unneeded_nodes_count
cluster_autoscaler_unschedulable_pods_count
cluster_autoscaler_nodes_count
cloudprovider_azure_api_request_errors
cloudprovider_azure_api_request_duration_seconds_bucket
cloudprovider_azure_api_request_duration_seconds_count

참고 항목

모든 컨트롤 플레인 대상의 CPU 및 메모리 사용량 메트릭은 프로필에 관계없이 공개되지 않습니다.

참조

다음 단계

관리되는 Prometheus 컨트롤 플레인 메트릭에 대해 자세히 알아보기

다음을 통해 공유

관리되는 Prometheus에서 컨트롤 플레인 메트릭의 최소 수집 프로필

기본 ON 대상에 대한 최소 수집

기본 OFF 대상에 대한 최소 수집

참조

다음 단계

피드백

추가 리소스