Настройка мониторинга графических процессоров с помощью Аналитики контейнеров

Мақала
10/15/2024

Аналитика контейнеров поддерживает мониторинг кластеров GPU из следующих поставщиков GPU:

NVIDIA
AMD

Аналитика контейнеров автоматически запускает мониторинг использования GPU на узлах и GPU, запрашивающих модули pod и рабочие нагрузки, собирая следующие метрики через 60-секундные интервалы и сохраняя их в таблице InsightsMetrics .

Примечание.

После подготовки кластеров с узлами GPU убедитесь, что драйвер GPU установлен в соответствии с требованиями Служба Azure Kubernetes (AKS) для выполнения рабочих нагрузок GPU. Аналитика контейнеров собирает метрики GPU с помощью объектов pod для драйвера GPU, выполняющихся в узле.

Имя метрики	Измерение метрики (теги)	Description
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Процент времени за последний период выборки (60 секунд), в течение которого GPU был занят или активно обрабатывается для контейнера. Рабочий цикл указывается как число в диапазоне от 1 до 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Для каждого контейнера можно задавать ограничения, касающиеся одного GPU или нескольких GPU. Невозможно запросить или ограничить долю GPU.
containerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Каждый контейнер может запрашивать один GPU или несколько GPU. Невозможно запросить или ограничить долю GPU.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Объем памяти GPU в байтах, доступных для использования для определенного контейнера.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Объем памяти GPU в байтах, используемых определенным контейнером.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Количество GPU в узле, которые могут использоваться Kubernetes.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Общее количество gpu в узле.

* На основе изменений вышестоящего потока Kubernetes эти метрики больше не собираются из поля. В качестве временного исправления для AKS обновите пул узлов GPU до последней версии или *-2022.06.08 или более поздней. Для Kubernetes с поддержкой Azure Arc включите шлюз DisableAcceleratorUsageMetrics=false функций в конфигурации kubelet узла и перезапустите kubelet. После изменения вышестоящего уровня доступности это исправление больше не будет работать.

Диаграммы производительности GPU

Аналитика контейнеров включает предварительно настроенные диаграммы для метрик, перечисленных ранее в таблице в качестве книги GPU для каждого кластера. Описание книг, выпущенных для аналитики контейнеров, см. в статье Книги в аналитике контейнеров.

Следующие шаги

Сведения о развертывании кластера AKS с поддержкой GPU, включая узлы с поддержкой GPU, см. в статье об использовании gpu для рабочих нагрузок с большим объемом вычислений в Служба Azure Kubernetes.
Дополнительные сведения об оптимизированных SKU виртуальных машин GPU в Azure.
Ознакомьтесь с поддержкой GPU в Kubernetes, чтобы составить более полное представление об экспериментальной поддержке управления GPU в одном или нескольких узлах кластера в Kubernetes.

Бөлісу құралы:

Настройка мониторинга графических процессоров с помощью Аналитики контейнеров

Диаграммы производительности GPU

Следующие шаги

Кері байланыс

Қосымша ресурстар