Устранение неполадок с агентом Log Analytics для Windows

Эта статья содержит справку по устранению ошибок, которые могут возникнуть при работе с агентом Log Analytics для Windows в Azure Monitor, и предлагает возможные решения для их устранения.

Средство устранения неполадок в Log Analytics

Агент Log Analytics для средства устранения неполадок Windows — это набор сценариев PowerShell, предназначенных для поиска и диагностики проблем с агентом Log Analytics. Он автоматически включается в состав агента при его установке. Запуск этого средства — рекомендуемый первый шаг по диагностике проблем.

Использование средства устранения неполадок

  1. Откройте командную строку PowerShell от имени администратора на компьютере, на котором установлен агент Log Analytics.

  2. Перейдите в каталог, в котором находится средство:

    cd "C:\Program Files\Microsoft Monitoring Agent\Agent\Troubleshooter"

  3. Выполните основной скрипт с помощью следующей команды:

    .\GetAgentInfo.ps1

  4. Выберите сценарий устранения неполадок.

  5. Следуйте указаниям, отображаемым в консоли. Обратите внимание, что действия по журналам трассировки требуют вмешательства вручную, чтобы остановить сбор журналов. В зависимости от воспроизводимости проблемы дождитесь длительности времени и выберите "s", чтобы остановить сбор журналов и перейти к следующему шагу.

    Расположение файла результатов регистрируется после завершения и открывается новое окно проводника.

Установка

Средство устранения неполадок автоматически включается после установки агента Log Analytics сборки 10.20.18053.0 и далее.

Рассматриваемые сценарии

Средство устранения неполадок проверяет следующие сценарии:

  • Агент не сообщает данные или данные пульса отсутствуют.
  • Развертывание расширения агента завершается сбоем.
  • Агент аварийно завершает работу.
  • Агент потребляет большой объем ЦП или памяти.
  • Сбои при установке и удалении.
  • Пользовательские журналы имеют проблемы.
  • Шлюз OMS имеет проблемы.
  • Счетчики производительности имеют проблемы.
  • Невозможен сбор журналов агента.

Примечание

Запустите средство устранения неполадок при возникновении проблемы. Наличие журналов на начальном этапе поможет нашей группе технической поддержки быстрее устранить проблему.

Важные источники для устранения неполадок

Чтобы помочь в устранении неполадок, связанных с агентом Log Analytics для Windows, агент регистрирует события в журнал событий Windows, в частности в разделе Application and Services\Operations Manager.

Проблемы, связанные с подключением

Если агент взаимодействует с прокси-сервером или брандмауэром, возможно, ограничения не позволяют взаимодействовать с исходным компьютером и службой Azure Monitor. Если связь заблокирована из-за неправильной настройки, регистрация в рабочей области может завершиться сбоем при попытке установить агент или настроить агент после установки для отчета в другую рабочую область. Обмен данными между агентами может завершиться ошибкой после успешной регистрации. В этом разделе описаны методы устранения неполадок такого рода в агенте для Windows.

Дважды проверьте, настроен ли брандмауэр или прокси-сервер, чтобы разрешить следующие порты и URL-адреса, описанные в следующей таблице. Также убедитесь, что проверка HTTP не включена для веб-трафика. Он может предотвратить безопасный канал TLS между агентом и Azure Monitor.

Ресурс агента порты; Направление Обход проверки HTTPS
*.ods.opinsights.azure.com Порт 443 Исходящие Да
*.oms.opinsights.azure.com Порт 443 Исходящие Да
*.blob.core.windows.net Порт 443 Исходящие Да
*.agentsvc.azure-automation.net Порт 443 Исходящие Да

Сведения о брандмауэре, необходимые для управления Azure для государственных организаций, см. в здесь. Если планируется использование Azure Automation Hybrid Runbook Worker для подключения к службе автоматизации и регистрации в ней, чтобы применить runbook или решения для управления в вашей среде, они должны иметь доступ к номеру порта и URL-адресам, описанным в разделе Настройка сети для Hybrid Runbook Worker.

Существует несколько способов проверить, успешно ли агент взаимодействует с Azure Monitor:

  • Включите Оценку Работоспособности агентов Azure Log Analytics в рабочей области. На панели мониторинга "Работоспособность агентов" просмотрите столбец Число агентов, не отвечающих на запросы, чтобы быстро определить, не упоминается ли в нем проверяемый агент.

  • Выполните следующий запрос, чтобы убедиться, что агент отправляет пульс в рабочую область, в которую он настроен для отчета. Замените <ComputerName> на действительное имя компьютера.

    Heartbeat 
    | where Computer like "<ComputerName>"
    | summarize arg_max(TimeGenerated, * ) by Computer 
    

    Если компьютер успешно обменивается данными со службой, этот запрос должен вернуть результат. Если запрос не вернул результат, сначала убедитесь, что агент настроен для отправки отчета в правильную рабочую область. Если он настроен правильно, перейдите к шагу 3 и выполните поиск в журнале событий Windows, чтобы определить, регистрирует ли агент проблему, которая может препятствовать обмену данными с Azure Monitor.

  • Также проблемы с подключением можно выявить, запустив инструмент TestCloudConnectivity. Этот инструмент по умолчанию устанавливается вместе с агентом в папку %SystemRoot%\Program Files\Microsoft Monitoring Agent\Agent. В командной строке с повышенными привилегиями перейдите в папку и запустите средство. Он вернет результаты и выделит тесты, которые завершились ошибкой. Например, возможно, он связан с определенным портом или URL-адресом, который был заблокирован.

    Снимок экрана: результаты выполнения средства TestCloudConnection.

  • Отфильтруйте журнал событий Operations Manager по следующим Источникам событийМодули службы работоспособности, HealthService и Соединитель служб, также примените фильтр по Уровню событийПредупреждение и Ошибка, чтобы проверить, нет ли в журнале записанных событий из следующей таблицы. Если они есть, ознакомьтесь с действиями по устранению неполадок, приведенными для соответствующего события.

    Идентификатор события Источник Описание Решение
    2133 & 2129 Служба работоспособности Сбой подключения к службе из агента. Эта ошибка может возникать, если агент не может напрямую взаимодействовать или через брандмауэр или прокси-сервер со службой Azure Monitor. Проверьте параметры прокси-сервера агента или убедитесь, что сетевой брандмауэр или прокси-сервер разрешает tcp-трафик с компьютера в службу.
    2138 Модули службы работоспособности Прокси-сервер требует проверки подлинности. Настройте параметры прокси-сервера агента и укажите имя пользователя и пароль, необходимые для проверки подлинности на прокси-сервере.
    2129 Модули службы работоспособности Не удалось подключиться. Не удалось выполнить согласование TLS. Проверьте параметры TCP/IP сетевого адаптера и параметры прокси-сервера агента.
    2127 Модули службы работоспособности При отправке данных о сбое был получен код ошибки. Если это происходит только периодически в течение дня, это может быть случайная аномалия, которая может быть проигнорирована. Отслеживайте журнал, чтобы определить, насколько часто она возникает. Если ошибка появляется часто в течение дня, сначала проверьте конфигурацию сети и параметры прокси-сервера. Если описание включает код ошибки HTTP 404 и это первая попытка агента отправить данные в службу, будет указана ошибка 500 с кодом внутренней ошибки 404. Код ошибки 404 означает "не найден", что означает, что область хранения для новой рабочей области по-прежнему подготавливается. При следующей попытке данные будут успешно записываться в рабочую область, как ожидалось. Ошибка HTTP 403 может указывать на проблему, связанную с разрешениями или учетными данными. Дополнительные сведения включаются в ошибку 403, чтобы помочь устранить проблему.
    4000 Соединитель служб Сбой разрешения DNS-имени. Компьютеру не удалось разрешить интернет-адрес, используемый при отправке данных в службу. Эта проблема может быть связана с параметрами сопоставителя DNS на компьютере, неправильными параметрами прокси-сервера или временной проблемой DNS с поставщиком. Если такая ошибка возникает периодически, она может быть вызвана временными проблемами с сетью.
    4001 Соединитель служб Не удалось подключиться к службе. Эта ошибка может возникать, когда агент не может напрямую взаимодействовать или через брандмауэр или прокси-сервер со службой Azure Monitor. Убедитесь, что параметры прокси-сервера агента или брандмауэр сети или прокси-сервер разрешают tcp-трафик с компьютера к службе.
    4002 Соединитель служб Служба вернула код состояния HTTP 403 в ответ на запрос. Обратитесь к администратору службы, чтобы проверить работоспособность службы. Повторная попытка запроса будет выполнена позже. Эта ошибка записывается на начальном этапе регистрации агента. Вы увидите URL-адрес, аналогичный https://< workspaceID.oms.opinsights.azure.com/AgentService.svc/AgentTopologyRequest>. Код ошибки 403 означает "запрещено" и может быть вызван неправильным идентификатором рабочей области или ключом. Дата и время также могут быть неверными на компьютере. Если время составляет +/- 15 минут с текущего времени, подключение завершается сбоем. Чтобы устранить эту проблему, обновите дату и (или) время компьютера с Windows.

Проблемы при сборе данных

После установки агента и отправки отчетов в настроенную рабочую область или рабочие области он может перестать получать конфигурацию и собирать или пересылать производительность, журналы или другие данные в службу в зависимости от того, что включено и нацеливает компьютер. Вам нужно определить следующее:

  • Это конкретный тип данных или все данные, недоступные в рабочей области?
  • Тип данных указан решением или задан в составе конфигурации сбора данных для рабочей области?
  • Сколько компьютеров затронуто проблемой? Это один компьютер или несколько компьютеров, отчитывающийся в рабочую область?
  • Передача данных работала, а затем прекратилась в определенный момент или данные так никогда и не собирались?
  • Правильно ли используется запрос поиска по журналам?
  • Получил ли агент конфигурацию Azure Monitor хотя бы один раз?

Первый шаг при устранении этих неполадок — определить, отправляет ли компьютер события пульса.

Heartbeat 
    | where Computer like "<ComputerName>"
    | summarize arg_max(TimeGenerated, * ) by Computer

Если запрос возвращает результаты, необходимо определить, не собирается ли определенный тип данных и не пересылается в службу. Эта проблема может быть вызвана тем, что агент не получает обновленную конфигурацию от службы или какой-либо другой симптом, который не позволяет агенту работать нормально. Для дальнейшей диагностики и устранения неполадок выполните следующие шаги.

  1. Откройте командную строку с повышенными привилегиями на компьютере и перезапустите службу агента, введя ее net stop healthservice && net start healthservice.

  2. Откройте журнал событий Operations Manager и найдите идентификаторы событий7023, 7024, 7025, 7028 и 1210 из службы работоспособностиисточника событий. Эти события указывают, что агент успешно получает конфигурацию из Azure Monitor, и они активно отслеживают компьютер. В описании события с идентификатором 1210 на последней строке будет также указан перечень всех решений и элементов Insight, включенных в область мониторинга на агенте.

    Снимок экрана: описание идентификатора события 1210.

  3. Подождите несколько минут. Если ожидаемые данные в результатах запроса или визуализации не отображаются в зависимости от того, просматриваете ли вы данные из решения или аналитики, в журнале событий Operations Manager найдите модули службы работоспособности и работоспособностиисточников событий. Отфильтруйте по предупреждению и ошибкена уровне событий, чтобы подтвердить запись событий из следующей таблицы.

    Идентификатор события Источник Описание Решение
    8000 Служба работоспособности Это событие указывается, если рабочий процесс, связанный с производительностью, событием или другим типом собираемых данных, не может перенаправить данные в службу для их приема в рабочую область. Идентификатор события 2136 из источника HealthService записывается вместе с этим событием и может указывать, что агент не может взаимодействовать со службой. Возможные причины могут привести к неправильной настройке параметров прокси-сервера и проверки подлинности, сбоя сети или сетевого брандмауэра или прокси-сервера, не разрешающего tcp-трафик с компьютера к службе.
    10102 и 10103 Модули службы работоспособности Рабочий процесс не удалось разрешить источник данных. Эта проблема может возникнуть, если указанный счетчик производительности или экземпляр не существует на компьютере или неправильно определен в параметрах данных рабочей области. Если это счетчик производительности, указанный пользователем, убедитесь, что указанные сведения соответствуют правильному формату и существуют на целевых компьютерах.
    26002 Модули службы работоспособности Рабочий процесс не удалось разрешить источник данных. Эта проблема может возникнуть, если указанный журнал событий Windows не существует на компьютере. Эта ошибка может быть безопасно проигнорирована, если компьютер не должен быть зарегистрирован в журнале событий. В противном случае, если это журнал событий, указанный пользователем, убедитесь, что указана правильная информация.