Мониторинг производительности, работоспособности и использования Azure Data Explorer с помощью метрик

Метрики Azure Data Explorer предоставляют ключевые индикаторы работоспособности и производительности ресурсов кластера Azure Data Explorer. Используйте метрики, подробно описанные в этой статье, для мониторинга использования, работоспособности и производительности кластера Azure Data Explorer в вашем конкретном сценарии в качестве автономных метрик. Вы также можете использовать метрики в качестве базиса для рабочих панелей мониторинга Azure и Оповещений Azure.

Дополнительные сведения об Azure Data Explorer см. в разделе Обозреватель метрик.

Предварительные требования

Используйте метрики для мониторинга ресурсов Azure Data Explorer

  1. Войдите на портал Azure.
  2. На левой панели кластера Azure Data Explorer найдите метрики.
  3. Выберите Метрики, чтобы открыть панель метрик и начать анализ кластера. Найдите и выберите метрики на портале Azure.

Работа в панели метрик

На панели метрик выберите конкретные метрики для отслеживания, выберите способ агрегирования данных и создайте диаграммы метрик для просмотра на панели инструментов.

Средства выбора Ресурс и Пространство имен метрики предварительно выбраны для кластера Azure Data Explorer. Цифры на следующем изображении соответствуют нумерованному списку ниже. Они проведут вас через различные варианты настройки и просмотра ваших метрик.

Панель метрик.

  1. Чтобы создать диаграмму метрик, выберите название Метрика и соответствующее Агрегирование для каждой метрики. Дополнительные сведения о различных метриках см. в разделе поддерживаемые метрики Azure Data Explorer.
  2. Выберите Добавить метрику, чтобы увидеть несколько метрик, построенных на одной диаграмме.
  3. Выберите + Создать диаграмму, чтобы увидеть несколько диаграмм в одном представлении.
  4. Используйте средство выбора времени, чтобы изменить временной диапазон (по умолчанию: последние 24 часа).
  5. Используйте Добавление фильтра и Примените разбиение для метрик, имеющих измерения.
  6. Выберите Закрепить на панели мониторинга, чтобы добавить конфигурацию диаграммы на панели мониторинга, чтобы вы могли снова просмотреть ее.
  7. Установите Новое правило оповещения, чтобы визуализировать ваши метрики с использованием заданных критериев. В новом правиле генерации оповещений будет указан целевой ресурс, метрика, разделение и измерения фильтров из диаграммы. Измените эти параметры на панели создания правила предупреждений.

Поддерживаемые метрики Azure Data Explorer

Метрики Azure Data Explorer дают представление как об общей производительности, так и об использовании ваших ресурсов, а также информацию о конкретных действиях, таких как прием данных или запрос. Метрики в этой статье сгруппированы по типу использования.

Типы метрик

Алфавитный список метрик Azure Monitor для Azure Data Explorer см. в разделе Поддерживаемые метрики кластера Azure Data Explorer.

Метрики кластера

Метрики кластера отслеживают общее состояние кластера. Например, использование ресурсов и приема и отзывчивость.

Метрика Единица измерения Агрегирование Описание метрики Измерения
Использование кэша (не рекомендуется) Процент Максимальное, среднее, минимальное Процент выделенных ресурсов кэширования, которые сейчас используются кластером. Кэш — это объем диска SSD, выделенный для действий пользователя в соответствии с заданной политикой кэширования.

Среднее значение использования кэша, равное 80 % или меньше, считается нормальным состоянием для кластера. Если среднее использование кэша выше 80 %, кластер должен иметь:
вертикальное масштабирование до ценового уровня, оптимизированного для хранения; или
масштабирование до большего количества экземпляров. Кроме того, можно адаптировать политику кэширования, уменьшив количество дней хранения данных в кэше. Если использование кэша выше 100 %, значит объем кэшируемых данных превышает общий размер кэша в кластере.
Эта метрика является нерекомендуемой и представлена для обеспечения обратной совместимости. Вместо нее используйте метрику "Коэффициент использования кэша".
Нет
Коэффициент использование кэша Процент Максимальное, среднее, минимальное Процент используемого дискового пространства, которое выделено для горячего кэша в кластере.
100 % означает, что дисковое пространство, назначенное горячим данным, используется оптимально. Никаких действий не требуется, и кластер работает нормально.
Менее 100 % означает, что дисковое пространство, назначенное для горячих данных, не используется полностью.
Более 100 % означает, что дискового пространства кластера недостаточно для размещения горячих данных, как определено политиками кэширования. Чтобы для всех горячих данных было достаточно места, необходимо уменьшить объем горячих данных или горизонтально увеличить масштаб кластера. Рекомендуем включить автомасштабирование.
None
ЦП Процент Максимальное, среднее, минимальное Процент выделенных вычислительных ресурсов, которые сейчас используются компьютерами в кластере.

Средняя загрузка ЦП в 80 % и меньше считается нормальной для кластера. Максимальное значение загрузки ЦП — 100 %. Это означает отсутствие дополнительных вычислительных ресурсов для обработки данных.
Когда кластер не работает должным образом, проверьте максимальное значение ЦП, чтобы определить, есть ли определенные ЦП, которые заблокированы.
None
Использование приема Процент Максимальное, среднее, минимальное Процент фактических ресурсов, используемых для приема данных, из общего числа ресурсов, выделенных (в рамках политики емкости) для приема. Политика емкости по умолчанию допускает максимум 512 параллельных операций приема или 75 % кластерных ресурсов, задействованных в приеме данных.

Среднее значение используемых ресурсов приема, равное 80 % и меньше, считается нормальным состоянием для кластера. Максимальное значение использования ресурсов приема — 100 %. Это означает, что используются все кластерные ресурсы для приема данных и может возникнуть очередь приема.
None
InstanceCount Count Avg Общее количество экземпляров.
Проверка активности Count Avg Отслеживает скорость реагирования кластера.

Если кластер реагирует на запросы, возвращается значение 1. Если же кластер заблокирован или отключен, возвращается значение 0.
Общее число регулируемых команд Count Среднее, максимальное, минимальное, сумма Количество заблокированных (отклоненных) команд в кластере, поскольку было достигнуто максимально допустимое количество одновременных (параллельных) команд. None
Total number of extents Count Среднее, максимальное, минимальное, сумма Общее количество экстентов данных в кластере.

Изменения в этой метрике могут означать значительные изменения структуры данных и высокую нагрузку на кластер, поскольку слияние экстентов данных требует большой нагрузки на ЦП.
None
Задержка на стороне следящего Миллисекунды Максимальное, среднее, минимальное Следящие базы данных синхронизируют изменения в основных базах данных. Из-за синхронизации данных возможны задержки доступа к данным продолжительностью от нескольких секунд до нескольких минут.

Эта метрика измеряет продолжительность задержки. Задержка зависит от нескольких факторов, таких как общий размер и скорость приема данных на стороне основного кластера, количество отслеживаемых баз данных, скорость внутренних операций, выполняемых с основным кластером (операции слияния и перестроения).

Это метрики уровня кластера: ведомые перехватывают метаданные всех отслеживаемых баз данных. Эта метрика представляет задержку процесса.
None

Экспорт метрик

Метрики экспорта отслеживают общее состояние и производительность экспортных операций, такие как задержки, результаты, количество записей и использование.

Метрика Единица измерения Агрегирование Описание метрики Измерения
Количество экспортируемых записей непрерывного экспорта Count SUM Количество экспортируемых записей во всех заданиях непрерывного экспорта. ContinuousExportName
Максимальная задержка непрерывного экспорта Count Max Задержка (в минутах), о которой сообщают задания непрерывного экспорта в кластере. None
Непрерывный экспорт, ожидающий подсчет Count Max Количество незавершенных заданий на непрерывный экспорт. Эти задания готовы к выполнению, но ожидают в очереди, возможно, из-за недостаточной емкости.
Результат непрерывного экспорта Count Count Результат сбоя/успеха для каждого выполнения непрерывного экспорта. ContinuousExportName
Использование экспорта Процент Max Используемая экспортная емкость из общей экспортной емкости в кластере (от 0 до 100). None

Метрики приема

Метрики приема отслеживают общее состояние и производительность операций приема, таких как задержка, результаты и объем. Чтобы уточнить ваш анализ

  • Применяйте фильтры к диаграммам, чтобы отображать частичные данные по измерениям. Например, исследуйте прием определенного Database.
  • Примените разделение к диаграмме, чтобы визуализировать данные по различным компонентам. Этот процесс полезен для анализа метрик, которые сообщаются на каждом этапе конвейера приема, например Blobs received.
Метрика Единица измерения Агрегирование Описание метрики Измерения
Количество пакетных BLOB-объектов Count Максимальное, среднее, минимальное Количество источников данных в завершенном пакете для приема. База данных
Длительность партии Секунды Максимальное, среднее, минимальное Продолжительность фазы дозирования в потоке приема. База данных
Размер пакета Байты Максимальное, среднее, минимальное Несжатый ожидаемый размер данных в агрегированном пакете для приема. База данных
Обработано партий Count Сумма, максимальное, минимальное Количество пакетов, завершенных для приема.
Batching Type: спусковой механизм для запечатывания партии.
Полный список типов пакетной обработки см. в разделе Типы пакетной обработки.
База данных, тип пакетной обработки
Получены BLOB-объекты Count Сумма, максимальное, минимальное Количество больших двоичных объектов, полученных компонентом из входного потока.

Используйте Применить разбиение для анализа каждого компонента.
База данных, тип компонента, имя компонента
Обработанные BLOB-объекты Count Сумма, максимальное, минимальное Количество больших двоичных объектов, обработанных компонентом.

Используйте Применить разбиение для анализа каждого компонента.
База данных, тип компонента, имя компонента
Сброшенные BLOB-объекты Count Сумма, максимальное, минимальное Количество окончательно сброшенных BLOB-объектов компонентом. Для каждого такого большого двоичного объекта отправляется метрика Ingestion result с указанием причины сбоя.

Используйте Применить разбиение для анализа каждого компонента.
База данных, тип компонента, имя компонента
Задержка обнаружения Секунды Avg Время от постановки данных в очередь до обнаружения подключения к данным. Это время не учитывается в метриках Задержка этапа или Задержка приема.

Задержка обнаружения может увеличиться в следующих ситуациях:
  • При использовании подключений к данным в регионах.

  • В подключениях к данным Центров событий, если количество секций Центров событий недостаточно для исходящего объема данных.
Тип компонента, имя компонента
Полученные события Count Сумма, максимальное, минимальное Количество событий, полученных соединениями данных из входного потока. Тип компонента, имя компонента
Обработанные события Count Сумма, максимальное, минимальное Количество событий, обработанных подключениями к данным. Тип компонента, имя компонента
Сброшенные события Count Сумма, максимальное, минимальное Количество окончательно сброшенных событий соединениями для передачи данных. Для каждого такого события Ingestion result отправляется метрика с причиной сбоя. Тип компонента, имя компонента
События, обработанные (для Центров событий и Интернета вещей) (не рекомендуется) Count Максимальное, минимальное, сумма Общее количество событий, считанных из Концентратора событий или Центр Интернета вещей и обработанных кластером. Эти события можно разделить по состоянию: Получено, Отклонено, Обработано.
Эта метрика является нерекомендуемой и представлена для обеспечения обратной совместимости. Вместо этого используйте метрики "Полученные события", "События обработаны" и "Удаленные события".
Состояние
Задержка приема Секунды Максимальное, среднее, минимальное Задержка приема данных (с момента получения данных в кластере до их подготовки к выполнению запроса). Период задержки приема зависит от сценария приема данных.
Ingestion Kind: прием потоковой передачи или прием в очереди
Вид приема
Результат приема Count SUM Общее количество источников, которые не удалось или удалось загрузить.
Status: Успех для успешного приема или категория сбоев для сбоев. Полный список возможных категорий сбоев см. в разделе Коды ошибок приема в Azure Data Explorer.
Failure Status Type: является ли отказ постоянным или временным. Для успешного проглатывания этот размер равен None.

Примечание.
  • Центры событий и события приема Центр Интернета вещей предварительно объединяются в один большой двоичный объект, а затем обрабатываются как один источник для приема. Таким образом, предварительно агрегированные события отображаются как один результат приема после предварительного агрегирования.

  • При временных сбоях внутри системы ограниченное число раз выполняются повторные попытки. О каждом временном сбое сообщается как о временном результате приема. Следовательно, один прием может привести к нескольким результатам приема.
Статус, тип статуса отказа
Объем приема (в МБ) Count Максимальное, сумма Общий размер данных, загруженных в кластер (в МБ) до сжатия. База данных
Длина очереди Count Avg Количество ожидающих сообщений во входной очереди компонента. Компонент диспетчера пакетной обработки содержит одно сообщение для каждого большого двоичного объекта. Компонент диспетчера приема данных содержит по одному сообщению на пакет. Пакет — это одна команда приема с одним или несколькими большими двоичными объектами. Тип компонента
Поставить в очередь самое старое сообщение Секунды Avg Время в секундах с момента вставки самого старого сообщения во входную очередь компонента. Тип компонента
Размер полученных данных в байтах Байты Среднее, сумма Размер данных, полученных подключениями к данным из входного потока. Тип компонента, имя компонента
Задержка этапа Секунды Avg Время с момента принятия сообщения Azure Data Explorer до момента получения его содержимого компонентом приема для обработки.

Используйте применить фильтры и выберите Тип > компонента StorageEngine , чтобы отобразить общую задержку приема.
База данных, тип компонента

Метрики потоковой загрузки

Метрики приема потоковой передачи отслеживают данные приема потоковой передачи, а также частоту запросов, продолжительность и результаты.

Метрика Единица измерения Агрегирование Описание метрики Измерения
Скорость данных потокового приема Count RateRequestsPerSecond Общий объем данных, загруженных в кластер. None
Длительность потокового приема Миллисекунды Максимальное, среднее, минимальное Общая продолжительность всех запросов потоковой передачи. None
Частота запросов потокового приема Count Счетчик, среднее, максимальное, минимальное, сумма Общее количество запросов на передачу потоковой передачи. None
Результат потокового приема Count Avg Общее количество запросов потоковой передачи по типу результата. Результат

Метрики запроса

Метрики производительности запросов отслеживают продолжительность запроса и общее количество одновременных или регулируемых запросов.

Метрика Единица измерения Агрегирование Описание метрики Измерения
Query duration (Длительность запросов) Миллисекунды Среднее, минимальное, максимальное, сумма Общее время до получения результатов запроса (без учета задержки в сети). QueryStatus
QueryResult Count Count Общее число запросов. QueryStatus
Общее число параллельных запросов Count Среднее, максимальное, минимальное, сумма Количество запросов, выполняемых параллельно в кластере. Эта метрика — хороший способ оценить нагрузку на кластер. None
Общее число регулируемых запросов Count Среднее, максимальное, минимальное, сумма Количество регулируемых (отклоненных) запросов в кластере. Максимально допустимое количество одновременных (параллельных) запросов определяется политикой ограничения скорости запросов. None

Материализованные метрики просмотра

Метрика Единица измерения Агрегирование Описание метрики Измерения
MaterializedViewHealth 1, 0 Avg Значение равно 1, если представление считается работоспособным, в противном случае — 0. Database, MaterializedViewName
MaterializedViewAgeSeconds Секунды Avg age представления определяется текущим временем за вычетом последнего времени приема, обработанного представлением. Значение метрики — это время в секундах (чем ниже значение, тем «здоровее» представление). Database, MaterializedViewName
MaterializedViewResult 1 Avg Метрика включает в себя измерение Result, указывающее результат последнего цикла материализации (подробности о возможных значениях см. в метрике MaterializedViewResult). Значение метрики всегда равно 1. Database, MaterializedViewName, Result
MaterializedViewRecordsInDelta Число записей Avg Количество записей, находящихся в настоящее время в необработанной части исходной таблицы. Для получения дополнительной информации посмотрите как работают материализованные представления Database, MaterializedViewName
MaterializedViewExtentsRebuild Количество экстентов Avg Количество экстентов, требующих обновления в цикле материализации. Database, MaterializedViewName
MaterializedViewDataLoss 1 Max Метрика активируется, когда необработанные исходные данные приближаются к сроку хранения. Указывает, что материализованное представление не работает. Database, MaterializedViewName, Kind