Рекомендации по проектированию и созданию системы мониторинга

Статья
09/11/2024

Применяется к следующей рекомендации контрольного списка по достижению операционной эффективности Power Platform Well-Architected:

OE:06

Разработайте и внедрите систему мониторинга, чтобы проверять выбранные проекты и принимать в будущем обоснованные проектные и бизнес-решения на основе накопленных знаний. Эта система собирает и предоставляет операционную телеметрию, метрики и журналы, создаваемые рабочей нагрузкой.

В этом руководстве приводятся рекомендации по проектированию и созданию системы мониторинга. Чтобы эффективно контролировать вашу рабочую нагрузку на предмет безопасности, производительности и надежности, вам нужна комплексная система с собственным стеком, который обеспечивает основу для всех функций мониторинга, обнаружения и оповещения.

Определения

Термин	Определение
Журналы	Записанные системные события. Журналы могут содержать различные типы данных в структурированном или произвольном текстовом формате. Они содержат метку времени.
Метрики	Числовые значения, которые собираются через регулярные промежутки времени. Метрики описывают некоторые аспекты системы в определенный момент времени.

Ключевые стратегии проектирования

Чтобы реализовать комплексную систему мониторинга для вашей рабочей нагрузки, следуйте следующим основным принципам:

Когда это возможно, используйте предоставляемые платформой средства мониторинга, которые, как правило, не требуют большой настройки и могут предоставить глубокое понимание рабочей нагрузки, которое в противном случае было бы трудно получить.
Собирайте журналы и метрики со всего стека рабочих нагрузок. Все малокодовые компоненты и ресурсы и компоненты и ресурсы с приоритетом кода должны быть настроены для получения стандартизированных, значимых данных, и эти данные необходимо собирать.
Храните собранные данные в стандартизированном, надежном и безопасном решении для хранения.
Обрабатывайте хранящиеся данные так, чтобы их можно было обрабатывать с помощью решений для анализа и визуализации.
Анализируйте обработанные данные, чтобы точно определить состояние рабочей нагрузки.
Визуализируйте состояние рабочей нагрузки на содержательных панелях мониторинга или в отчетах для групп рабочей нагрузки и других заинтересованных сторон.
Настраивайте действенные оповещения и другие автоматические ответы на интеллектуально определенные пороговые значения, чтобы уведомлять группы рабочих нагрузок о возникновении проблем.
Включите системы мониторинга и оповещения в свои общие методы тестирования рабочей нагрузки.
Убедитесь, что системы мониторинга и оповещения подлежат постоянному совершенствованию. Поведение приложений и конфигураций в производстве обеспечивает возможности непрерывного обучения. Включите эти уроки в проекты мониторинга и оповещения.
Свяжите собираемые и анализируемые данные мониторинга обратно с вашими системными и пользовательскими потоками, чтобы сопоставить работоспособность потоков с данными, а также с общей работоспособностью рабочей нагрузки. Анализ этих данных с точки зрения потоков помогает согласовать стратегию наблюдаемости с вашей моделью работоспособности.
Сведите к минимуму хранение любой идентифицируемой информации, чтобы обеспечить соблюдение законов и правил. Если вам необходимо хранить информацию, позволяющую установить личность, убедитесь, что при разработке решения были учтены требования, позволяющие отдельным лицам запрашивать удаление своих данных.
Никогда не записывайте пароли пользователей или другую информацию, которая может быть использована для мошенничества с личными данными. Удалите эти детали из данных перед их сохранением. Нормативные требования могут диктовать необходимость архивирования и сохранения информации, собранной для аудита и обеспечения безопасности. Эти данные также являются конфиденциальными, и их, возможно, придется зашифровать или иным образом защитить, чтобы предотвратить несанкционированный доступ.

Вам следует максимально автоматизировать все функции системы мониторинга, и все они должны работать непрерывно, круглые сутки, каждый день.

Этот конвейер рабочего процесса иллюстрирует систему мониторинга:

Коллекция

Следует настроить все компоненты рабочей нагрузки, будь то компоненты с минимумом кода или компоненты с приоритетом кода или параметры платформы, такие как среды и политики, для сбора данных телеметрии и событий, таких как журналы и метрики.

Журналы в первую очередь полезны для обнаружения и исследования аномалий. Как правило, журналы создаются компонентом рабочей нагрузки, а затем отправляются на платформу мониторинга или извлекаются платформой мониторинга с автоматизацией.

Метрики в первую очередь полезны для построения модели работоспособности и выявления тенденций в производительности и надежности рабочих нагрузок. Метрики также полезны для выявления тенденций в поведении пользователей. Эти тенденции могут помочь принять решения об улучшениях с точки зрения клиентов. Обычно метрики определяются на платформе мониторинга, а платформа мониторинга и другие инструменты опрашивают рабочую нагрузку для сбора метрик.

Данные о рабочей нагрузке

Используйте готовую интеграцию с Application Insights для сбора данных. После включения Application Insights вы можете получить четкое представление о важных событиях как в режиме реального времени, так и в прошлом.

Журналы приложений поддерживают полный жизненный цикл приложения. Ведение журнала необходимо для понимания того, как приложение работает в различных средах, какие события происходят и при каких условиях они происходят.

Мы рекомендуем собирать журналы приложений и события во всех основных средах. Максимально разделяйте данные между средами, используя разные хранилища данных для каждой среды, если это практически возможно. Используйте фильтры, чтобы некритичные среды не усложняли интерпретацию производственных журналов. Наконец, соответствующие записи журнала в приложении должны фиксировать идентификатор корреляции для соответствующих транзакций.

Данные об инфраструктуре и конфигурации

Для ресурсов инфраструктуры в вашей рабочей нагрузке обязательно собирайте как журналы, так и метрики. Поскольку Power Platform — это предложение PaaS (платформа как услуга), возможности по сбору журналов, связанных с базовой инфраструктурой, могут быть ограничены. Однако вы можете собирать журналы и аналитику изменений конфигурации и политики, связанных с работоспособностью рабочей нагрузки и инцидентами.

Насколько это возможно, собирайте журналы со своей облачной платформы. Возможно, вы сможете собирать журналы действий для своей подписки и журналы диагностики для плоскости управления.

Замечания, связанные с быстродействием

Сложное и хорошо масштабируемое приложение может генерировать огромные объемы данных. Объем данных может вызвать проблемы с производительностью в зависимости от того, насколько подробной является трассировка на уровне приложения. Решение телеметрии не должно выступать в качестве узкого места и должно быть масштабируемым по мере расширения системы.

Анализ

После того, как вы соберете данные из различных источников, проанализируйте их, чтобы оценить общее благополучие системы. Для этого анализа необходимо иметь четкое представление о следующем:

Как структурировать данные на основе ключевых показателей эффективности (КПЭ) и других определенных метрик производительности.
Как сопоставить данные, собранные в различных метриках и файлах журналов. Эта корреляция важна, когда вы отслеживаете последовательность событий, и может помочь вам диагностировать проблемы.

В большинстве случаев ваша рабочая нагрузка будет состоять из разных компонентов, а журналы или события будут записываться в разных форматах или таблицах. Вам нужно будет точно объединить данные, чтобы получить представление об общем состоянии рабочей нагрузки.

Например, ваше решение Power Platform может состоять из следующих компонентов:

Приложение на основе холста, которое позволяет пользователям взаимодействовать с данными
Приложение на основе модели, которое позволяет администраторам настраивать параметры приложения
Облачный поток, выполняющий операции с данными
Экземпляр Dataverse, в котором хранятся данные, связанные с операцией
Функция Azure, которая извлекает данные из хранилища таблиц Azure и вызывается из приложения

Данные об использовании для одной бизнес-операции могут охватывать все компоненты рабочей нагрузки. Эту информацию необходимо сопоставить, чтобы получить общее представление об использовании ресурсов и обработки для операции.

Визуализация

Визуализация при мониторинге работоспособности имеет решающее значение для понимания состояния рабочей нагрузки. Визуализация помогает быстро выявлять проблемы и тенденции, а также помогает понять влияние изменений, вносимых в рабочую нагрузку.

Панели мониторинга

Наиболее распространенным способом визуализации данных является использование панелей мониторинга, которые могут отображать информацию в виде диаграмм или графиков. Эти элементы можно параметризовать, и аналитик может выбрать важные параметры, такие как период времени, для любой конкретной ситуации.

Согласуйте свои панели мониторинга с вашей моделью работоспособности, чтобы они указывали, когда рабочая нагрузка или ее компоненты работоспособны, ухудшены или неработоспособны.

Чтобы система панелей мониторинга работала эффективно, она должна быть значимой для группы рабочей нагрузки. Визуализируйте информацию, относящуюся к работоспособности рабочей нагрузки, а также полезную для действий. Когда рабочая нагрузка или компонент деградировали или неработоспособны, члены группы рабочей нагрузки должны иметь возможность легко определить, где в рабочей нагрузке возникает проблема, и начать свои корректирующие действия или исследования. И наоборот, включение информации, которая не является полезной или не связана с работоспособностью рабочей нагрузки, может сделать панель мониторинга излишне сложной и раздражать членов команды, которые пытаются отличить фоновый шум от данных, требующих принятия решений.

У вас могут быть панели мониторинга для заинтересованных сторон или разработчиков, настроенные так, чтобы отображать только те данные о рабочей нагрузке, которые они считают актуальными. Убедитесь, что группа рабочей нагрузки понимает типы данных, в просмотре которых заинтересованы другие рабочие группы, и предварительно проверяет панели мониторинга, прежде чем делиться ими, чтобы проверить ясность. Предоставление панелей мониторинга о рабочей нагрузке для заинтересованных лиц — хороший способ информировать их о работоспособности рабочей нагрузки, но это может привести к обратным результатам, если заинтересованные лица не будут четко понимать данные.

Ограничьте доступ к панели мониторинга авторизованным персоналом. Информация на панелях мониторинга может быть конфиденциальной. Вы также должны защитить базовые данные, чтобы пользователи не могли их изменить.

Отправка сообщения

Отчеты используются для создания общего представления о системе. Он может включать исторические данные и текущую информацию. Требования к отчетности делятся на две большие категории: оперативная отчетность и отчетность по безопасности.

Оперативная отчетность обычно включает в себя:

Агрегированная статистика, которую можно использовать для понимания использования ресурсов всей системы или определенных подсистем в течение определенного временного окна.
Определение тенденций использования ресурсов для всей системы или определенных подсистем в течение определенного периода.
Мониторинг исключений, произошедших во всей системе или в определенных подсистемах в течение определенного периода.
Определение эффективности приложения для развернутых ресурсов и понимание того, можно ли уменьшить объем ресурсов и связанные с ними затраты без ненужного влияния на производительность.

Отчеты о безопасности отслеживают использование системы клиентами. Он может включать в себя:

Аудит действий пользователей. Эта задача требует записи отдельных запросов, которые выполняет каждый пользователь, вместе с датами и временем. Данные должны быть структурированы так, чтобы администратор мог быстро восстановить последовательность операций, которые пользователь выполняет в течение определенного периода.
Отслеживание использования ресурсов пользователем. Эта задача требует записи того, как каждый запрос от пользователя обращается к различным ресурсам в системе и в течение какого времени. Администратор может использовать эти данные для создания отчета об использовании, по пользователям, за определенный период, возможно, для выставления счетов.

Оповещения

Чтобы обеспечить работоспособность, оперативность и безопасность системы, установите оповещения, чтобы операторы могли своевременно на них реагировать. Предупреждение может содержать достаточно контекстной информации, чтобы помочь быстро приступить к диагностическим действиям.

Пороги

Оповещения генерируются при превышении пороговых значений, обнаруженных вашей системой мониторинга. Убедитесь, что установленные вами пороговые значения обычно дают вам достаточно времени для внесения необходимых изменений в вашу рабочую нагрузку, чтобы избежать деградации или сбоев. Вам также следует реализовать необходимую обработку ошибок и выявлять известные ошибки в вашей рабочей нагрузке, чтобы уменьшить количество предупреждений. Например, настройте политики повтора для своих действий в облачных потоках таким образом, чтобы попытка повтора предпринималась в рамках выполнения потока и только в том случае, если повторные попытки не удались, сбой потока записан и отправлено оповещение. Дополнительные сведения см. в разделе Рекомендации по разработке надежной стратегии мониторинга и оповещения.

Возможности в Power Platform

Power Platform интегрируется с Application Insights, которая является частью экосистемы Azure Monitor. Используйте эту интеграцию для того, чтобы обеспечить следующее:

Получение телеметрии по диагностике и производительности, захваченной платформой Dataverse в Application Insights. Вы можете подписаться на получение телеметрии об операциях, которые приложения выполняют на вашей базы данных Dataverse и в приложениях на основе модели. Эта телеметрия предоставляет информацию, которую можно использовать для диагностики и устранения проблем, связанных с ошибками и производительностью.
Подключение приложений на основе холста к Application Insights. Вы можете использовать эту аналитику для диагностики проблем и понимания того, как пользователи используют ваши приложения. Вы сможете собирать информацию, которая поможет вам принимать более эффективные бизнес-решения и улучшать качество ваших приложений.
Настройка телеметрии Power Automate для передачи в Application Insights. Например, вы можете отслеживать выполнение облачных потоков и создавать оповещения о сбоях выполнения облачных потоков.
Собирайте данные телеметрии из вашего агента Microsoft Copilot Studio для использования в Azure Application Insights. Эти данные телеметрии можно использовать для отслеживания зарегистрированных сообщений и событий, отправляемых в агент и из него, тем, которые будут запускаться во время разговоров с пользователями, и пользовательских событий телеметрии, которые могут быть отправлены из ваших тем.

Ресурсы Power Platform регистрируют действия на портале соответствия требованиям Microsoft Purview. Большинство событий доступны в течение 24 часов после их наступления. Не используйте эту информацию для мониторинга в реальном времени. Дополнительную информацию о регистрации действий в Power Platform см. в разделе:

Рабочая нагрузка Power Platform может включать ресурсы Azure. Дополнительные сведения см. в разделе Рекомендации по разработке и созданию системы мониторинга.

Начальный набор CoE в Power Platform — это эталонная реализация, содержащая набор компонентов и средств, которые призваны помочь вам начать разработку стратегии принятия и поддержки Power Platform. В стартовый комплект CoE входит богатый набор панелей мониторинга. Подробнее см. в разделе Получение глубокого понимание адаптации Microsoft Power Platform с помощью панели мониторинга Power BI CoE.

Комплект автоматизации Power Platform — это набор инструментов, который ускоряет использование и поддержку Power Automate для компьютеров для проектов автоматизации. В комплект входят инструменты, которые помогут вам управлять проектами автоматизации и отслеживать их для оценки сэкономленных средств и рентабельности инвестиций (ROI). Частью комплекта автоматизации является центр управления, который дополняет функцию мониторинга выполнения классических потоков. Ключевой задачей центра управления является представление оркестратора, позволяющее аналитикам службы поддержки и организациям отслеживать, принимать меры и при необходимости отправлять оповещения.

Следующие шаги

Контрольный список операционной эффективности

Поделиться через