Поделиться через


Рекомендации по проектированию и созданию системы мониторинга

Применимо к этой рекомендации Power Platform контрольного списка хорошо спроектированного операционного совершенства:

ОЭ:06 Разработайте и внедрите систему мониторинга, чтобы проверять выбранные проекты и принимать в будущем обоснованные проектные и бизнес-решения на основе накопленных знаний. Эта система собирает и предоставляет операционную телеметрию, показатели и журналы, которые генерируются в ходе рабочей нагрузки.

В этом руководстве приводятся рекомендации по проектированию и созданию системы мониторинга. Чтобы эффективно контролировать вашу рабочую нагрузку на предмет безопасности, производительности и надежности, вам нужна комплексная система с собственным стеком, который обеспечивает основу для всех функций мониторинга, обнаружения и оповещения.

Определения

Термин Определение
Журналы Записанные системные события. Журналы могут содержать различные типы данных в структурированном или произвольном текстовом формате. Они содержат метку времени.
Метрики Числовые значения, которые собираются через регулярные промежутки времени. Метрики описывают некоторые аспекты системы в определенный момент времени.

Ключевые стратегии проектирования

Чтобы реализовать комплексную систему мониторинга для вашей рабочей нагрузки, следуйте следующим основным принципам:

  • По возможности воспользуйтесь инструментами мониторинга, предоставляемыми платформой, которые обычно требуют минимальной настройки и могут предоставить глубокое понимание вашей рабочей нагрузки, которое в противном случае было бы трудно получить.

  • Собирайте журналы и метрики со всего стека рабочих нагрузок. Все компоненты и ресурсы малокодовый, а также code-first должны быть настроены для создания стандартизированных, значимых данных, и эти данные необходимо собирать.

  • Храните собранные данные в стандартизированном, надежном и безопасном решении для хранения.

  • Обрабатывайте хранящиеся данные так, чтобы их можно было обрабатывать с помощью решений для анализа и визуализации.

  • Анализируйте обработанные данные, чтобы точно определить состояние рабочей нагрузки.

  • Визуализируйте состояние рабочей нагрузки на содержательных панелях мониторинга или в отчетах для групп рабочей нагрузки и других заинтересованных сторон.

  • Настраивайте действенные оповещения и другие автоматические ответы на интеллектуально определенные пороговые значения, чтобы уведомлять группы рабочих нагрузок о возникновении проблем.

  • Включите системы мониторинга и оповещения в свои общие методы тестирования рабочей нагрузки.

  • Убедитесь, что системы мониторинга и оповещения подлежат постоянному совершенствованию. Поведение приложений и конфигураций в производстве обеспечивает возможности непрерывного обучения. Включите эти уроки в проекты мониторинга и оповещения.

  • Свяжите данные мониторинга, которые вы собираете и анализируете, с вашей системой и потоками пользователей , чтобы сопоставить работоспособность потоков с данными, а также с общей работоспособностью рабочей нагрузки. Анализ этих данных с точки зрения потоков помогает согласовать вашу стратегию наблюдения с вашей моделью здоровья.

  • Сведите к минимуму хранение любой идентифицируемой информации, чтобы обеспечить соблюдение законов и правил. Если вам необходимо хранить идентифицируемую информацию, обязательно при проектировании решения учитывайте требования, позволяющие отдельным лицам запрашивать удаление своей информации.

  • Никогда не записывайте пароли пользователей или другую информацию, которая может быть использована для мошенничества с личными данными. Удалите эти детали из данных перед их сохранением. Нормативные требования могут диктовать необходимость архивирования и сохранения информации, собранной для аудита и обеспечения безопасности. Эти данные также являются конфиденциальными, и их, возможно, придется зашифровать или иным образом защитить, чтобы предотвратить несанкционированный доступ.

Вам следует максимально автоматизировать все функции системы мониторинга, и все они должны работать непрерывно, круглые сутки, каждый день.

Этот конвейер рабочего процесса иллюстрирует систему мониторинга:

Диаграмма, показывающая этапы комплексной системы мониторинга в виде конвейера.

Коллекция

Вам следует настроить все компоненты рабочей нагрузки, будь то малокодовый или компоненты code-first или параметры платформы, такие как среды и политики, для сбора телеметрии и событий, таких как журналы и метрики.

Журналы в первую очередь полезны для обнаружения и исследования аномалий. Обычно журналы создаются компонентом рабочей нагрузки, а затем отправляются на платформу мониторинга или извлекаются платформой мониторинга с помощью автоматизации.

Метрики в первую очередь полезны для построения модели работоспособности и выявления тенденций в производительности и надежности рабочих нагрузок. Метрики также полезны для выявления тенденций в поведении пользователей. Эти тенденции могут помочь принять решения об улучшениях с точки зрения клиентов. Обычно метрики определяются на платформе мониторинга, а платформа мониторинга и другие инструменты опрашивают рабочую нагрузку для сбора метрик.

Данные о рабочей нагрузке

Используйте готовую интеграцию с Application Insights для сбора данных. После включения Application Insights вы можете получить четкое представление о важных событиях как в режиме реального времени, так и в прошлом.

Журналы приложений поддерживают сквозной жизненный цикл приложения. Ведение журнала необходимо для понимания того, как приложение работает в различных средах, какие события происходят и при каких условиях они происходят.

Мы рекомендуем собирать журналы приложений и события во всех основных средах. Максимально разделяйте данные между средами, используя разные хранилища данных для каждой среды, если это практически возможно. Используйте фильтры, чтобы некритичные среды не усложняли интерпретацию производственных журналов. Наконец, соответствующие записи журнала в приложении должны фиксировать идентификатор корреляции для соответствующих транзакций.

Данные об инфраструктуре и конфигурации

Для ресурсов инфраструктуры в вашей рабочей нагрузке обязательно собирайте как журналы, так и метрики. Поскольку Power Platform предлагается как платформа как услуга (PaaS), ваши возможности по сбору журналов, связанных с базовой инфраструктурой, могут быть ограничены. Однако вы можете собирать журналы и аналитику изменений конфигурации и политики, связанных с работоспособностью рабочей нагрузки и инцидентами.

Насколько это возможно, собирайте журналы со своей облачной платформы. Возможно, вы сможете собирать журналы действий для своей подписки и журналы диагностики для плоскости управления.

Замечания, связанные с быстродействием

Сложное и хорошо масштабируемое приложение может генерировать огромные объемы данных. Объем данных может вызвать проблемы с производительностью в зависимости от того, насколько подробной является трассировка на уровне приложения. Телеметрическое решение не должно быть узким местом и должно быть масштабируемым по мере расширения системы.

Анализ

После сбора данных из различных источников проанализируйте их, чтобы оценить общее благополучие системы. Для этого анализа необходимо иметь четкое представление о следующем:

  • Как структурировать данные на основе ключевых показателей эффективности (KPI) и других определенных вами показателей эффективности.
  • Как сопоставить данные, собранные в различных метриках и файлах журналов. Эта корреляция важна, когда вы отслеживаете последовательность событий, и может помочь вам диагностировать проблемы.

В большинстве случаев ваша рабочая нагрузка будет состоять из разных компонентов, а журналы или события будут записываться в разных форматах или таблицах. Вам нужно будет точно объединить данные, чтобы получить представление об общем состоянии рабочей нагрузки.

Например, ваше Power Platform решение может состоять из следующих компонентов:

  • Приложение Canvas, позволяющее пользователям взаимодействовать с данными
  • Приложение на основе модели, позволяющее администраторам настраивать параметры приложения.
  • облачный поток, который выполняет операции с данными
  • Экземпляр, в котором хранятся данные, связанные с операцией. Dataverse
  • Функция Azure, которая извлекает данные из хранилища таблиц Azure и вызывается из приложения.

Данные об использовании для одной бизнес-операции могут охватывать все компоненты рабочей нагрузки. Эту информацию необходимо сопоставить, чтобы получить общее представление об использовании ресурсов и обработки для операции.

Рекомендации по анализу данных

Сопоставьте журналы уровня приложения и уровня ресурсов. Оценивайте данные на обоих уровнях, чтобы оптимизировать обнаружение и устранение неполадок.

Определите четкое время хранения при холодном анализе. Мы рекомендуем эту практику, чтобы обеспечить исторический анализ за определенный период. Это также может помочь вам контролировать затраты на хранение. Внедряйте процессы, обеспечивающие архивирование данных в более дешевое хранилище и агрегирование данных для долгосрочного анализа тенденций.

Анализируйте долгосрочные тенденции для прогнозирования операционных проблем. Оценивайте долгосрочные данные для формирования операционных стратегий, а также для прогнозирования того, какие операционные проблемы могут возникнуть и когда. Например, вы можете заметить, что среднее время ответа со временем медленно увеличивается и приближается к максимальному целевому значению.

Визуализация

Визуализация при мониторинге работоспособности имеет решающее значение для понимания состояния рабочей нагрузки. Визуализация может помочь вам быстро выявить проблемы и тенденции, а также понять влияние изменений, вносимых вами в рабочую нагрузку.

Панели мониторинга

Наиболее распространенным способом визуализации данных является использование панелей мониторинга, которые могут отображать информацию в виде диаграмм или графиков. Эти элементы можно параметризовать, и аналитик может выбрать важные параметры, такие как период времени, для любой конкретной ситуации.

Согласуйте свои панели мониторинга с вашей моделью работоспособности, чтобы они указывали, когда рабочая нагрузка или ее компоненты работоспособны, ухудшены или неработоспособны.

Чтобы система панелей мониторинга работала эффективно, она должна быть значимой для группы рабочей нагрузки. Визуализируйте информацию, относящуюся к работоспособности рабочей нагрузки, а также полезную для действий. Когда рабочая нагрузка или компонент деградировали или неработоспособны, члены группы рабочей нагрузки должны иметь возможность легко определить, где в рабочей нагрузке возникает проблема, и начать свои корректирующие действия или исследования. И наоборот, включение информации, которая не требует принятия мер или не связана с состоянием рабочей нагрузки, может сделать панель управления неоправданно сложной и раздражающей для членов команды, которые пытаются отделить фоновый шум от данных, дающих возможность принятия мер.

У вас могут быть панели мониторинга для заинтересованных сторон или разработчиков, настроенные так, чтобы отображать только те данные о рабочей нагрузке, которые они считают актуальными. Убедитесь, что группа рабочей нагрузки понимает типы данных, в просмотре которых заинтересованы другие рабочие группы, и предварительно проверяет панели мониторинга, прежде чем делиться ими, чтобы проверить ясность. Предоставление заинтересованных сторон информационных панелей о вашей рабочей нагрузке — это хороший способ держать их в курсе состояния рабочей нагрузки, но он может оказаться контрпродуктивным, если заинтересованные стороны не будут четко понимать данные.

Ограничьте доступ к панели мониторинга авторизованным персоналом. Информация на панелях мониторинга может быть конфиденциальной. Вы также должны защитить базовые данные, чтобы пользователи не могли их изменить.

Отправка сообщения

Отчеты используются для создания общего представления о системе. Он может включать исторические данные и текущую информацию. Требования к отчетности делятся на две большие категории: оперативная отчетность и отчетность по безопасности.

Оперативная отчетность обычно включает в себя:

  • Агрегированная статистика, которую можно использовать для понимания использования ресурсов всей системы или определенных подсистем в течение определенного временного окна.
  • Определение тенденций использования ресурсов для всей системы или определенных подсистем в течение определенного периода.
  • Мониторинг исключений, произошедших во всей системе или в определенных подсистемах в течение определенного периода.
  • Определение эффективности использования развернутых ресурсов и понимание того, можно ли сократить объем ресурсов и связанные с ними затраты без ненужного влияния на производительность.

Отчеты о безопасности отслеживают использование системы клиентами. Он может включать в себя:

  • Аудит действий пользователей. Эта задача требует записи отдельных запросов, которые выполняет каждый пользователь, вместе с датами и временем. Данные должны быть структурированы так, чтобы администратор мог быстро восстановить последовательность операций, которые пользователь выполняет в течение определенного периода.
  • Отслеживание использования ресурсов пользователем. Для этой задачи необходимо записывать, как каждый запрос пользователя обращается к различным ресурсам в системе и как долго. Администратор может использовать эти данные для создания отчета об использовании, по пользователям, за определенный период, возможно, для выставления счетов.

Оповещения

Чтобы обеспечить работоспособность, оперативность и безопасность системы, установите оповещения, чтобы операторы могли своевременно на них реагировать. Предупреждение может содержать достаточно контекстной информации, чтобы помочь быстро приступить к диагностическим действиям.

Рекомендации для оповещений

  • Определите процесс реагирования на оповещения, который определяет ответственных владельцев и действия.
  • Настройте оповещения для четко определенной области и отрегулируйте степень детализации, чтобы минимизировать шум.
  • Используйте решение для автоматического оповещения, например Splunk или Azure Monitor, вместо того, чтобы требовать от людей активного поиска проблем.
  • Используйте оповещения для запуска процессов исправления. Например, автоматически создавайте заявки для отслеживания проблем и их устранения.

Пороги

Оповещения генерируются при превышении пороговых значений, обнаруженных вашей системой мониторинга. Убедитесь, что установленные вами пороговые значения обычно дают вам достаточно времени для внесения необходимых изменений в вашу рабочую нагрузку, чтобы избежать деградации или сбоев. Вам также следует реализовать необходимую обработку ошибок и выявлять известные ошибки в вашей рабочей нагрузке, чтобы уменьшить количество предупреждений. Например, настройте политики повторных попыток для ваших действий в облачных потоках таким образом, чтобы повторная попытка выполнялась как часть выполнения потока, и только в случае неудачи повторных попыток и регистрации сбоя потока отправлялось оповещение. Подробнее читайте в разделе Рекомендации по разработке надежной стратегии мониторинга и оповещения.

Возможности в Power Platform

Power Platform интегрируется с Application Insights, которая является частью экосистемы Azure Monitor. Используйте эту интеграцию для того, чтобы обеспечить следующее:

  • Получение телеметрии по диагностике и производительности, захваченной платформой Dataverse в Application Insights. Вы можете подписаться на получение телеметрии об операциях, которые приложения выполняют на вашей базы данных Dataverse и в приложениях на основе модели. Эта телеметрия предоставляет информацию, которую можно использовать для диагностики и устранения проблем, связанных с ошибками и производительностью.

  • Подключите свои приложения Canvas к Application Insights. Вы можете использовать эту аналитику для диагностики проблем и понимания того, как пользователи используют ваши приложения. Вы сможете собирать информацию, которая поможет вам принимать более эффективные бизнес-решения и улучшать качество ваших приложений.

  • Настройте Power Automate телеметрию для передачи в Application Insights. Например, вы можете отслеживать выполнение облачный поток и создавать оповещения об ошибках запуска облачного потока.

  • Собирайте данные телеметрии от вашего Microsoft Copilot Studio второго пилота для использования в Azure Application Insights. Вы можете использовать эту телеметрию для мониторинга зарегистрированных сообщений и событий, отправляемых вашему второму пилоту и получаемых от него, тем, которые будут запускаться во время разговоров пользователей, а также пользовательских событий телеметрии, которые могут отправляться из ваших тем.

Power Platform ресурсы регистрируют действия на Microsoft портале соответствия требованиям Purview. Большинство событий доступны в течение 24 часов после их наступления. Не используйте эту информацию для мониторинга в реальном времени. Дополнительную информацию о регистрации действий в Power Platform см. в разделе:

Ваша Power Platform рабочая нагрузка может включать ресурсы Azure. Подробнее читайте в разделе Рекомендации по проектированию и созданию системы мониторинга.

Начальный набор CoE в Power Platform — это эталонная реализация, содержащая набор компонентов и средств, которые призваны помочь вам начать разработку стратегии принятия и поддержки Power Platform. В стартовый комплект CoE входит богатый набор панелей управления. Узнайте больше в Получите глубокие знания о вашем Microsoft Power Platform принятии с помощью панели управления CoE Power BI .

Комплект автоматизации Power Platform — это набор инструментов, который ускоряет использование и поддержку Power Automate для компьютеров для проектов автоматизации. В комплект входят инструменты, которые помогут вам управлять проектами автоматизации и отслеживать их для оценки сэкономленных средств и рентабельности инвестиций (ROI). Частью комплекта автоматизации является центр управления, который дополняет функцию мониторинга запусков классический поток. Ключевой задачей центра управления является представление оркестратора, позволяющее аналитикам службы поддержки и организациям отслеживать, принимать меры и при необходимости отправлять оповещения.

Следующие шаги