Наблюдаемость в облачном мониторинге

Эта статья является частью серии в руководстве по мониторингу облака.

Приведенные ниже разделы направлены на повышение производительности, наблюдая за работой и постоянно итерируя, чтобы улучшить мониторинг служб. Узнайте, как организации реализуют согласованную стратегию мониторинга быстрее, установив наблюдаемость для каждого решения мониторинга.

Определение наблюдаемости

Хотя наблюдаемость и мониторинг дополняют друг друга, существует заметное различие:

  • Мониторинг: собирает сведения и сообщает, что обнаружена проблема на основе настройки для отслеживания этих условий. Вы отслеживаете известные или прогнозируемые сбои.
  • Наблюдаемость: способность понять, что происходит внутри системы, просматривая выходные данные. Решение для наблюдения помогает анализировать эти данные для оценки работоспособности системы и поиска способов устранения проблем в ИТ-инфраструктуре.

Наблюдаемость сначала позволяет потребителю мониторинга понять, что считается нормальной работой службы. Другими словами, вы ищете общую видимость как можно скорее.

После достижения начальной наблюдаемости вы настроите начальный уровень видимости для разработки интерактивных оповещений, создания полезных панелей мониторинга и оценки решений AIOps. Эти аналитические сведения позволяют комфортно использовать базовые метрики и данные мониторинга журналов.

Примечание.

Это противоположность подхода, используемого в прошлом, когда команды работали над определением всех требований мониторинга сначала на бумаге перед созданием, тестированием и развертыванием.

Независимо от того, предназначен ли план мониторинга для приложения, облачной инфраструктуры или платформы Azure, первым шагом является установление наблюдаемости.

Этот подход также упрощает ваши планы. Во всех случаях общая видимость означает достижение и обеспечение достаточной видимости в трех измерениях или аспектах:

  1. Подробный мониторинг: сбор значимых и соответствующих сигналов.
  2. Отслеживайте сквозную или широту: от нижнего слоя стека до приложения.
  3. Отслеживайте модель работоспособности: сосредоточьтесь на аспектах работоспособности, таких как доступность, производительность, безопасность и непрерывность.

Three-sided cube example

Наблюдаемость — это больше, чем просто фокус для ИТ-команд. Важной целью является обеспечение того, чтобы конечные пользователи могли использовать системы и что выполняются цели уровня обслуживания (SLO).

Мониторинг решений и возможности наблюдения

Мониторинг инфраструктуры и приложений может быть сложным. Бизнес-трансформация применяет технологии для достижения и помощи в формировании своих стратегий. Облако еще сильнее повлияло на сложную природу мониторинга.

Это продемонстрировано следующим образом.

  • Смена цифрового преобразования: усилия по цифровому преобразованию бизнеса переходют к гипер-эксплуатации облачных технологий.
  • Встроенный мониторинг. Мониторинг становится внедренным в ресурсы и группы ресурсов Azure, а также отдельные средства, которыми вы управляете локально.
  • Расширяемый мониторинг облачных архитектур, таких как Azure Monitor, аналогичен средствам управления инцидентами безопасности и событиями (SIEM). Azure Monitor является расширяемым, управляемым журналом, и порядками величины более гибким, чем традиционное локальное средство.

Архитекторы должны понимать, какие диагностические сведения выдает компонент инфраструктуры или приложение.

Объединение многовариантных, динамических, временных рядов, событийных, отслеживание состояния и потоков журналов телеметрии в ценную аналитику зависит от следующих:

  • Знания команды: знания и опыт разработчика или системного инженера, который глубоко понимает целевой объект мониторинга.
  • Устранение неполадок. Поддержка и устранение неполадок при использовании данных для поиска или поиска причин проблем.
  • Обучение из истории: просмотрите прошлые инциденты, чтобы найти не технологические причины, которые могут быть автоматически исправлены позже.
  • Документация. Руководство по документации, программному обеспечению, обучению или консультации поставщиком программного обеспечения или оборудования.

Корпорация Майкрософт и ее партнеры предоставляют пакеты управления для System Center Operations Manager. Пакеты управления зависят от технологий; Например, при импорте пакета управления SQL Operations Manager автоматически обнаруживает и целевые серверы, на котором размещается SQL Server, и начинает их мониторинг. Здесь наблюдаемость более или менее предопределена. Operations Manager в основном предназначен для локальной инфраструктуры, которая, как правило , фиксируется в компонентах и шаблонах архитектуры относительно облачных служб.

В облаке у вас есть огромная гибкость в типах служб для выбора. Мониторинг включает изменение служб с течением времени и может быть динамическим, глобальным и устойчивым. С помощью Azure Monitor вы можете воспользоваться существующими книгами, включенными в Azure Monitor, Аналитика предоставлять функциональные возможности, аналогичные пакету управления в Operations Manager.

Искусство наблюдения

Наблюдаемость зависит от того, что и как отслеживается что-то.

В Azure существует несколько источников данных мониторинга, каждый из которых предоставляет другую точку зрения на то, как работает что-то. Azure включает множество средств для анализа различных аспектов этих данных.

Наблюдение за платформой

В Azure корпорация Майкрософт предоставляет перспективу поставщика услуг с помощью различных журналов платформы.

Службы в Azure могут изменяться различными непредсказуемыми способами с течением времени. Мы называем это поведение динамическим. Руководители облачных служб, наблюдающие за службой с течением времени, также должны учитывать следующие моменты:

  • Перемещение ресурсов: ресурсы могут переносить или перемещаться по расположениям или географическим расположениям.
  • Изменения ресурсов: ресурсы добавляются, удаляются или изменяются.
  • Потребление: потребление зависит от различных служб и реализаций. Помните, что следует отслеживать затраты, потребление и прогнозируемые расходы.

Ниже приведены несколько примеров средств, позволяющих наблюдать за платформой:

Источник журналов Description
Работоспособность служб Инциденты службы и плановое обслуживание, сообщаемые корпорацией Майкрософт.
Работоспособность ресурсов Azure Сообщает о текущем и прошлом работоспособности ресурсов.
Журнал действий Azure Monitor Сообщает события уровня подписки во всех ресурсах, развернутых в подписке.
Анализ изменений Azure Monitor Отчеты об изменениях в приложениях Azure и сокращает среднее время восстановления (MTTR).
Журналы ресурсов Azure Ранее известные как журналы диагностики, журналы ресурсов сообщают о операциях, выполняемых в ресурсе Azure, на плоскости данных.
Журналы отчетов Microsoft Entra (AzureAD) Сообщает о журнале действий входа и следе аудита изменений в идентификаторе Microsoft Entra для данного клиента.
Помощник по Azure Используйте Помощник по Azure для получения рекомендуемых решений на основе рекомендаций по оптимизации развертываний Azure.
Журналы прозрачности microsoft Cloud для суверенитета Сообщает о том, когда доступ к ресурсам предоставляется и какой инженер Майкрософт обращается к ресурсу. Журналы прозрачности предоставляют сведения о доступе к ресурсам клиентов. Журналы также уведомляют вас о отсутствии доступа, что является общим.

Наблюдаемость развивается постепенно — с минимально жизнеспособного плана мониторинга и усилий по интеграции инструментов и процессов. При работе с данными (метрики, журналы и транзакции) вы можете понять поведение и признаки симптомов или проблем из этих ресурсов или приложений. Получая представление о данных, вы формируете доверие к работе с Azure Monitor и данными.

Получение уверенности в наблюдаемости

При надлежащей наблюдаемости вы получаете уверенность, и вы можете реализовать причину и найти ответы, которые могут помочь. Чем больше вы узнаете о ваших данных, тем больше эволюционировали процессы, и ваши команды получают аналитические сведения.

Чтобы задать сцену, ниже приведены несколько способов получить уверенность от наблюдаемости:

  • Повышение прогнозируемости: улучшен мониторинг ресурсов и служб помогает выявлять упреждающие проблемы, делая их предсказуемыми и управляемыми в будущем.

  • Раннее обнаружение аномалий: наблюдаемость позволяет своевременно выявлять аномалии или отклонения от ожидаемого поведения, уменьшая влияние потенциальных проблем.

  • Идентификация первопричин: подробные данные о наблюдаемости помогают определить первопричины проблем, обеспечивая более быстрое разрешение и предотвращение повторения.

  • Повышение эффективности устранения неполадок. Благодаря наблюдаемости команды могут быстро диагностировать и устранять сложные проблемы, анализируя соответствующие данные и коррелируя события.

  • Повышение надежности системы. Определяя узкие места, проблемы с производительностью и потенциальные точки сбоя, наблюдаемость помогает оптимизировать производительность системы и повысить общую надежность.

  • Улучшение взаимодействия с клиентами. Наблюдение позволяет лучше понять, как производительность системы влияет на конечных пользователей, что позволяет упреждающим мерам повысить удовлетворенность клиентов.

  • Упрощение совместной работы. Платформы наблюдения обеспечивают общий доступ к данным и доступ к данным, поощряя сотрудничество между различными командами, такими как разработчики, операции и поддержка.

  • Соответствие нормативным требованиям: наблюдение помогает в соответствии с нормативными требованиями, обеспечивая трассировку, журналы аудита и обеспечивая соблюдение стандартов безопасности и конфиденциальности.

  • Быстрое решение. Предоставляя богатые данные и аналитические сведения, наблюдаемость ускоряет время для диагностики и устранения проблем, минимизируя время простоя и нарушения работы служб.

  • Упреждающее управление емкостью: данные о наблюдаемости помогают прогнозировать требования к ресурсам, выявлять пробелы в емкости и заранее настраивать ресурсы для обеспечения оптимальной производительности.

  • Устранение рисков: с возможностью наблюдения можно определить потенциальные риски рано, что позволяет меры по устранению упреждающих мер и снижает вероятность серьезных последствий.

  • Непрерывный мониторинг и обучение. Наблюдение позволяет постоянно отслеживать и учиться, помогая командам адаптироваться к изменяющимся средам, требованиям и поведению пользователей.

  • Оптимизация производительности. Анализируя данные о наблюдаемости, команды могут выявлять и оптимизировать узкие места производительности, повышая эффективность системы.

  • Приоритет усилий. Аналитика наблюдаемости позволяет командам определять приоритеты задач и выделять ресурсы на основе критическости и влияния выявленных проблем.

  • Уверенность в управлении изменениями: наблюдение обеспечивает видимость влияния изменений, гарантируя, что новые развертывания или обновления не приводят к непредвиденным проблемам.

  • Улучшен ответ на инциденты: с возможностью наблюдения группы реагирования на инциденты могут быстро собирать соответствующие сведения, понимать контекст и инициировать соответствующие действия.

План мониторинга

Вы создаете план мониторинга для описания целей и целей, требований и других важных сведений. Затем вы достигаете договоренности между всеми соответствующими заинтересованными лицами в организации.

План мониторинга должен объяснять, как разрабатывать и эксплуатировать одно или несколько решений для мониторинга. Начните создавать планы мониторинга на ранних этапах стратегии и планирования проекта.

При создании плана важно помнить пять дисциплин современного мониторинга, как описано в документации по стратегии мониторинга облака: мониторинг, измерение, реагирование, обучение и улучшение.

Ниже приведен первоначальный рекомендуемый план мониторинга и считается основными рекомендациями для отдельных планов служб или при стандартизации функций облачной службы, таких как типы ресурсов Azure или службы Microsoft 365.

Суть плана заключается в определении линии видимости между поставщиками услуг (которые будут использовать решения) и потребителей (которые будут работать или получать значение).

Перспектива бизнеса

Комплексный план мониторинга должен учитывать потребности бизнеса с мониторингом и от него, включая фокус, ориентированный на пользователя. При определении плана важно документировать и предоставлять общий доступ к бизнес-требованиям, а в следующих случаях предполагается, что область этой части плана.

  • Заинтересованные лица и потребители
  • Потоки доходов и процессы бизнеса
  • Перспектива пользователей и служебная программа
  • Требования к измерению и отчетности
  • Выявленные риски и платформы контроля соответствия нормативным требованиям
  • Требования к доступу и контролю
  • Риск для бизнеса

Перспектива службы

Комплексный план мониторинга должен учитывать потребности владельцев служб в мониторинге и от них. При определении плана важно документировать и делиться своими требованиями, и в следующих случаях предполагается, что область этой части плана.

  • Заинтересованные лица и потребители
  • Роли и подотчетность
  • Определение службы
  • Требования к доступу и контролю
  • Рекомендации по архитектуре?
  • Базовые контракты с поставщиками и партнерами
  • Соглашения на обслуживание (SLA, OLA)
  • Определение гарантийного покрытия службы
  • Требования к измерению и отчетности
  • Риски

Перспектива технологий

Этот раздел плана представляет решение для мониторинга с использованием сведений из перспектив бизнеса и обслуживания. Ниже приведены область этого плана.

  • Пользовательские истории и сценарии
  • Технические целевые объекты (например, сеть)
  • Сопоставление зависимостей компонентов
  • Типы (например, облачная, гибридная, локальная среда)
  • Наблюдательный
  • Адаптивный интерфейс
  • Измерение
  • Настройка и оптимизация

Рекомендации

Кратко сформулируйте план для информирования всех соответствующих потребителей, заинтересованных лиц и уровней управления. Для успешного плана мониторинга рассмотрим следующие моменты:

Основные рекомендации

  • Этапы производства: решение мониторинга должно быть готово, когда служба будет активной. Планирование может включать тестовую или предварительную конфигурацию в другую подписку, посвященную эксперименту и тестированию предположений.

  • Стратегия. Планы также могут сопоставляться с мониторингом и ИТ-стратегией для отслеживания целей мониторинга миссии или бизнеса.

  • Целевые объекты. В плане опишите и проанализируйте рассматриваемые целевые активы или службы. При необходимости составьте все компоненты для мониторинга, включая зависимости служб. Выявите пробелы в покрытии и определите, кто является владельцем каждой части службы.

  • Решение. Для решения для мониторинга необходимо определить потребителей, заинтересованных лиц, поставщиков, партнеров, доступ и инструментирование. Кроме того, аспекты мониторинга, область, ответ, отчеты и панели мониторинга (доступность, безопасность, взаимодействие с пользователем и многое другое).

Общие рекомендации

Помимо ключевых соображений, следует лучше понять, как эти моменты могут повлиять на план мониторинга для вашей организации.

  • Минимальный жизнеспособный продукт (MVP): позвольте плану определить, как выглядит успех для минимального жизнеспособного продукта. Иными словами, что изначально необходимо, чтобы жить, и мы можем оценить успех на этом? После того как вы живут, вы продолжите развивать решение мониторинга, чтобы максимально повысить ценность.

  • Защита данных мониторинга: безопасность является важным аспектом для каждой организации и команды сегодня. Убедитесь, что вы обучаете и знаете охранники или сообщите экспертам, чтобы вы не добавили риск для ваших решений мониторинга, например, предоставляя конфиденциальные данные мониторинга в журналах.

  • Рассмотрим Microsoft 365: любой хороший план считает ваш клиент Azure с Microsoft 365 важным компонентом. Microsoft 365 зависит от идентификатора Microsoft Entra, а Azure Monitor обеспечивает интеграцию Microsoft 365 с управлением конечными точками.

  • Наблюдаемость выигрывает: сосредоточьтесь на полной видимости, прежде чем сосредоточиться на оповещении, так как оповещения оба являются затратами, и могут быстро привести к усталости оповещений.

  • Мониторинг активности: аудит, вход и журналы действий теперь просты для владельцев служб и безопасности для среза и dice. Убедитесь, что план мониторинга рассматривает мониторинг активности, включая аналитические сведения и панели мониторинга, которые необходимо создать для всех соответствующих заинтересованных лиц.

Следующие шаги