Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Разработка приложения для обеспечения работы группы операций
Переход к облаку существенно изменил роль группы операций. Они больше не отвечают за управление оборудованием и инфраструктурой, на котором размещено приложение. Однако операции остаются важными для запуска успешного облачного приложения. К ключевым функциям относятся:
- Развёртывание.
- Контроль.
- Эскалация.
- Реагирование на инциденты.
- Аудит безопасности.
Надежное ведение журнала и трассировка особенно важны в облачных приложениях. Включите группу операций в проектирование и планирование, чтобы они получали данные и аналитические сведения, необходимые для успешного выполнения.
Рекомендации
Сделайте все объекты наблюдаемыми. После того как решение будет развернуто и начнет работать, основным источником информации о системе будут журналы и трассировки. Трассировка записывает путь через систему. Используйте трассировку для выявления узких мест, проблем производительности и точек сбоя. Ведение журнала записывает отдельные события, такие как изменения состояния приложения, ошибки и исключения. Включите ведение журнала в производственной среде, иначе вы можете потерять важные данные в самый нужный момент.
Инструмент для мониторинга. Мониторинг предоставляет аналитические сведения о производительности приложения, включая доступность, эффективность и работоспособность системы. Например, показано, соблюдается ли соглашение о качестве обслуживания. Мониторинг происходит во время нормальной работы системы и должен быть как можно ближе к реальному времени. Этот подход помогает обеспечить быстрое реагирование сотрудников по операциям на проблемы. В идеале эффективный мониторинг помогает предотвратить проблемы, прежде чем они перерастают в критические сбои. Дополнительные сведения см. в разделе "Мониторинг и диагностика".
Инструмент для анализа первопричин. Анализ первопричин — это процесс поиска основной причины сбоев. Происходит после сбоя.
Используйте распределенную трассировку. Используйте распределенную систему трассировки, предназначенную для параллелизма, асинхронного и облачного масштабирования. Трассировки должны содержать идентификатор корреляции, который перетекает через границы сервиса. Одна операция может включать вызовы к нескольким службам приложений. Если операция завершается ошибкой, идентификатор корреляции помогает определить причину сбоя.
Стандартизация журналов и метрик. Команде по эксплуатации необходимо агрегировать логи из всех различных служб вашего решения. Если каждая служба использует собственный формат ведения журнала, становится трудно или невозможно получить полезную информацию. Определите общую схему, включающую такие поля, как идентификатор корреляции, имя события и IP-адрес отправителя. Отдельные службы могут вывести пользовательские схемы из базовой схемы, которые могут содержать дополнительные поля.
Автоматизация задач управления, включая подготовку, развертывание и мониторинг. Автоматизация задачи делает ее повторяющейся и менее подверженной человеческой ошибке.
Обрабатывать конфигурацию как код. Сохраните файлы конфигурации в системе управления версиями, чтобы вы могли отслеживать и версии изменений и откатывать изменения при необходимости.