Как подготовиться к неожиданному (до инцидента)

Завершено

Чтобы обеспечить готовность и свести к минимуму влияние инцидентов, необходимо выполнить упреждающие рекомендации, описанные в этом уроке. Эти действия помогут вам понять наш процесс взаимодействия с инцидентами, найти соответствующую информацию и настроить уведомления для своевременного получения обновлений. Кроме того, оценка устойчивости приложений и реализация рекомендуемых мер будут способствовать созданию более надежных рабочих нагрузок, снижению потенциального влияния инцидента. Наконец, проверка и реализация рекомендаций по обеспечению безопасности позволит укрепить среду и снизить риски.

Чтобы оставаться в курсе, снизить влияние и защитить инвестиции, рекомендуется выполнить следующие пять действий:

Действие #1. Ознакомьтесь со службой Работоспособности служб Azure в портал Azure

В отличие от нашей общедоступной страницы azure.status.microsoft, которая предоставляет общие сведения о состоянии только о широких сбоях, служба Azure Service Health предлагает персонализированные сведения, адаптированные к определенным ресурсам. Это поможет вам предвидеть и подготовиться к запланированному обслуживанию и другим изменениям, которые могут повлиять на доступность ресурсов. Вы можете взаимодействовать с событиями службы и управлять действиями для обеспечения непрерывности бизнес-процессов затронутых приложений. Она предоставляет важные аналитические сведения об уязвимостях платформы, инцидентах безопасности и нарушениях конфиденциальности на уровне службы Azure, что позволяет обеспечить защиту рабочих нагрузок Azure.

Теперь рассмотрим некоторые ключевые функции, доступные в Службе Работоспособности служб Azure, чтобы повысить готовность к инцидентам:

панель Работоспособность ресурсов (описано новое взаимодействие)

В колонке "Работоспособность службы" портал Azure Azure Работоспособность ресурсов помогает диагностировать и устранять проблемы службы, влияющие на ресурсы Azure. Ресурсы, такие как виртуальные машины, веб-приложения или базы данных SQL, оцениваются для их работоспособности на основе сигналов из разных служб Azure. Если ресурс определен как неработоспособный, Работоспособность ресурсов проводит подробный анализ, чтобы определить первопричину проблемы. Он также содержит сведения о действиях Майкрософт по устранению проблем, связанных с инцидентами, и предлагает шаги, которые можно предпринять для решения этой проблемы.

Область "Проблемы со службами" (рассматривается новый интерфейс)

В области "Проблемы со службами" отображаются текущие инциденты службы, которые могут повлиять на ресурсы. Он позволяет отслеживать, когда возникла проблема, и определить затронутые службы и регионы. Просмотрев последние обновления, вы можете получить аналитические сведения о усилиях Azure по устранению инцидента.

Screenshot of switching Azure Serice Health to Classic View.

Ключевые функции области проблем со службами:

  • Аналитика в режиме реального времени. Панель мониторинга проблем со службой обеспечивает видимость инцидентов службы Azure, влияющих на подписки и клиенты. Если вы являетесь клиентом Администратор, вы можете увидеть активные инциденты или рекомендации, относящиеся к вашим подпискам и клиентам.

  • Оценка влияния на ресурсы. Вкладка "Затронутый ресурс" в разделе сведений об инциденте показывает, какие ресурсы подтверждены или потенциально затронуты. Щелкнув ресурсы, вы получите прямой доступ к области Работоспособность ресурсов.

  • Ссылки и скачиваемые объяснения: создайте ссылку для проблемы, используемой в системе управления проблемами. Вы также можете скачать PDF-файлы и иногда CSV-файлы, чтобы предоставить подробные объяснения заинтересованным лицам, у которых нет доступа к портал Azure. Кроме того, вы можете запросить проверку инцидентов после публикации (PIR) для любых проблем, затронутых вашими ресурсами, ранее известных как анализ первопричин (RCAs).

Область помощников по безопасности

В области "Помощники по безопасности" основное внимание уделяется срочной информации, связанной с безопасностью, влияющей на работоспособность подписок и клиентов. Он предоставляет аналитические сведения об уязвимостях платформы, инцидентах безопасности и нарушениях конфиденциальности.

Screenshot of Azure Service Health security advisories.

Ключевые функции области помощников по безопасности:

  • Безопасность в режиме реального времени Аналитика. Получение непосредственной видимости инцидентов безопасности Azure, относящихся к подпискам и клиентам.

  • Оценка влияния на ресурсы. Вкладка "Затронутый ресурс" в разделе сведений об инциденте содержит сведения о ресурсах, которые были подтверждены.

    Пользователи, авторизованные со следующими ролями, могут просматривать сведения о ресурсах, затронутых безопасностью:

    Просмотр ресурсов уровня подписки Просмотр ресурсов уровня клиента
    Владелец подписки Средство чтения безопасности Администратор/безопасности
    Администратор подписки Глобальные Администратор/клиент Администратор
    Средство чтения безопасности работоспособности служб Читатель конфиденциальности работоспособности служб Azure
  • Кроме того, вы можете скачать пояснительные pdf-документы, чтобы поделиться с заинтересованными лицами, у которых нет прямого доступа к портал Azure.

    В следующих примерах показан инцидент безопасности с затронутыми ресурсами из подписки и клиента область.

    Screenshot of the first example security incident.

    Screenshot of the second example security incident.

Помимо ознакомления с работоспособностью служб Azure, еще одним важным шагом является настройка оповещений о работоспособности служб, которые обеспечивают своевременное уведомление и содержат сведения об инцидентах и важных сведениях, которые могут повлиять на рабочие нагрузки. В следующем разделе подробно рассматривается этот раздел.

Действие 2. Настройка оповещений о работоспособности службы для получения информации

Настройка уведомлений о работоспособности службы является важной и наиболее важным вызовом действий для упреждающего управления инцидентами. Оповещения о работоспособности служб позволяют получать своевременные уведомления через различные каналы, такие как электронная почта, SMS, веб-перехватчики и многое другое. Эти оповещения предоставляют обновления инцидентов службы, запланированных действий обслуживания, инцидентов безопасности и других критически важных сведений, которые могут повлиять на рабочие нагрузки.

Оповещения о работоспособности служб можно настроить в любой из областей "активные события" в колонке "Работоспособность службы" портал Azure, щелкнув оповещения о работоспособности служб в области работоспособности службы или используя Azure Resource Graph.

Здесь вы можете найти примеры запросов Azure Resource Graph для Работоспособности служб Azure.

Screenshot of the Azure Service Health advisories.

Работоспособность службы отслеживает различные типы событий работоспособности, которые могут повлиять на ресурсы, включая проблемы со службами, плановое обслуживание, помощники по работоспособности и рекомендации по безопасности. При настройке оповещений о работоспособности службы вы можете выбрать способ отправки этих оповещений. Оповещения можно настроить на основе класса уведомления о работоспособности службы, затронутых подписок, служб и регионов.

Класс уведомлений о работоспособности служб

Тип события работоспособности службы Description
Проблема со службой Проблемы в службах Azure, влияющих на вас прямо сейчас, также известных как инциденты службы.
Плановое техническое обслуживание Предстоящее обслуживание, которое может повлиять на доступность служб в будущем.
Рекомендации по работоспособности Изменения в службах Azure, требующих вашего внимания. Примеры включают в себя, когда необходимо выполнить действие, когда функции Azure устарели, требования к обновлению или превышение квоты на использование.
Рекомендации по безопасности Уведомления, связанные с безопасностью, связанные с уязвимостями платформы и безопасностью и нарушениями конфиденциальности на уровне подписки и клиента, также известные как инциденты безопасности и конфиденциальности.

Мы знаем, что вам нужно получать уведомления, когда возникают проблемы, влияющие на ваши службы, и оповещения о работоспособности служб дают вам возможность выбрать способ отправки этих оповещений и КОМУ эти оповещения. Оповещения можно настроить на основе класса уведомления о работоспособности службы, затронутых подписок, затронутых служб и /или регионов. Вы можете настроить оповещения для активации сообщений электронной почты, SMS-сообщений, приложений логики, функций и т. д.

При активации оповещения можно определить действия, выполняемые с помощью групп действий. Группы действий — это коллекции параметров уведомлений, определяющих способ отправки оповещений.

Полный список доступных типов уведомлений

Тип уведомления Description Поля
Отправка электронных сообщений роли Azure Resource Manager Отправьте сообщение электронной почты членам подписки на основе их роли.
Уведомление отправляется только в основной адрес электронной почты, настроенную для пользователя Microsoft Entra.
Сообщение электронной почты отправляется только членам пользователя Microsoft Entra выбранной роли, а не группам Microsoft Entra или субъектам-службам.
Введите основной адрес электронной почты, настроенную для пользователя Microsoft Entra. См . электронную почту.
Электронное письмо Убедитесь, что фильтрация электронной почты и все службы защиты от вредоносных программ и нежелательной почты настроены соответствующим образом. Электронная почта будет отправляться на следующие адреса:
- azure-noreply@microsoft.com
- azureemail-noreply@microsoft.com
- alerts-noreply@mail.windowsazure.com
Введите сообщение электронной почты, в котором должно быть отправлено уведомление.
SMS SMS-уведомления поддерживают двунаправленное взаимодействие. В нем содержится следующее:
— Короткое имя группы действий, в который было отправлено оповещение.
— заголовок оповещения.
Пользователь может ответить на SMS:
— отмена подписки на все оповещения SMS для всех групп действий или одной группы действий.
— повторная подписка на оповещения
— Запрос справки.
Дополнительные сведения о поддерживаемых ответах SMS см . в ответах SMS.
Введите код страны и номер Телефон получателя SMS. Если вы не можете выбрать код своей страны или региона на портале Azure, SMS для него не поддерживаются. Если код страны или региона недоступен, можно проголосовать за добавление вашей страны или региона на портале Поделитесь своими идеями. В качестве обходного решения до тех пор, пока ваша страна не будет поддерживаться, настройте группу действий для вызова веб-перехватчика стороннему поставщику SMS, который поддерживает вашу страну или регион.
Push-уведомления приложения Azure Отправка уведомлений в мобильное приложение Azure. Чтобы включить push-уведомления в мобильное приложение Azure, укажите дополнительные сведения о мобильном приложении Azure, см . в мобильном приложении Azure. В поле электронной почты учетной записи Azure введите адрес электронной почты, который вы используете в качестве идентификатора учетной записи при настройке мобильного приложения Azure.
Голосовая связь Голосовое уведомление. Введите код страны и номер Телефон для получателя уведомления. Если вы не можете выбрать код страны или региона в портал Azure, голосовые уведомления не поддерживаются для вашей страны или региона. Если код страны или региона недоступен, можно проголосовать за добавление вашей страны или региона на портале Поделитесь своими идеями. В качестве обходного решения до тех пор, пока ваша страна не будет поддерживаться, настройте группу действий для вызова веб-перехватчика стороннему поставщику голосовых звонков, который поддерживает вашу страну или регион.

Полный список действий, которые можно активировать

Тип действия Сведения
Runbook автоматизации Сведения об ограничениях полезных данных runbook службы автоматизации см. в разделе "Ограничения службы автоматизации".
Центры событий Действие Центров событий публикует уведомления в Центрах событий. Дополнительные сведения о Центрах событий см. в разделе Центры событий Azure — платформа потоковой передачи больших данных и служба приема событий. Вы можете подписаться на потоковую передачу предупреждающих уведомлений из приемника событий.
Функции Вызывает существующую конечную точку триггера HTTP в функциях. Дополнительные сведения см. в статье Функции Azure. При определении действия функции конечная точка триггера HTTP и ключ доступа функции сохраняются в определении действия, например https://azfunctionurl.azurewebsites.net/api/httptrigger?code=<access_key>. При изменении ключа доступа для функции необходимо удалить и повторно создать действие функции в группе действий.
Конечная точка должна поддерживать метод HTTP POST.
Функция должна иметь доступ к учетной записи хранения. Если у него нет доступа, ключи недоступны, а универсальный код ресурса (URI) функции недоступен.
Узнайте о восстановлении доступа к учетной записи хранения.
ITSM Действие ITSM требует подключения ITSM. Чтобы узнать, как создать подключение ITSM, ознакомьтесь с интеграцией ITSM.
Приложения логики Azure Logic Apps можно использовать для создания и настройки рабочих процессов для интеграции и настройки уведомлений оповещений.
Безопасный веб-перехватчик При использовании безопасного действия веб-перехватчика необходимо использовать идентификатор Microsoft Entra для защиты подключения между группой действий и конечной точкой, которая является защищенным веб-API. См. раздел "Настройка проверки подлинности для безопасного веб-перехватчика". Безопасный веб-перехватчик не поддерживает обычную проверку подлинности. Если вы используете обычную проверку подлинности, используйте действие веб-перехватчика.
Веб-перехватчик Если вы используете действие веб-перехватчика, целевая конечная точка веб-перехватчика должна иметь возможность обрабатывать различные полезные данные JSON, которые выдают разные источники оповещений.
Невозможно передать сертификаты безопасности через действие веб-перехватчика. Чтобы использовать базовую проверку подлинности, необходимо передать учетные данные через универсальный код ресурса (URI).
Если конечная точка веб-перехватчика ожидает определенную схему, например схему Microsoft Teams, используйте тип действия Logic Apps для управления схемой оповещения для удовлетворения ожиданий целевого веб-перехватчика.
Сведения о правилах, используемых для повторных попыток действий веб-перехватчика, см. в разделе Webhook.

Помните, что большинство инцидентов служб влияют на несколько подписок, поэтому они не будут отображаться в таких местах, как status.azure.com. Работоспособность служб оповещения можно настроить на портале. Если вы хотите автоматизировать создание, их также можно настроить с помощью шаблонов PowerShell или ARM.

Эффективно настраивая оповещения о работоспособности служб и группы действий, вы можете обеспечить своевременное получение уведомлений и принять соответствующие меры, чтобы снизить влияние инцидентов на ресурсы Azure.

Примечание.

Ищете помощь в том, что отслеживать и какие оповещения следует настроить для чего? Ищите не дальше решения "Базовые оповещения Azure Monitor". Он предоставляет исчерпывающие рекомендации и код для реализации базовых показателей оповещений платформы, а также оповещений о работоспособности служб с помощью политик и инициатив в средах Azure с параметрами автоматического или ручного развертывания. Это решение включает предопределенные политики для автоматического создания оповещений для всех типов событий работоспособности службы (проблема службы, плановое обслуживание, помощники по работоспособности и рекомендации по безопасности), группы действий и правила обработки оповещений для различных типов ресурсов Azure. В то время как основное внимание уделяется мониторингу архитектурных сред azure (ALZ), он также предлагает рекомендации для клиентов браунфилда, которые в настоящее время не соответствуют архитектуре ALZ браунфилд.

Действие #3. Рассмотрите возможность Работоспособность ресурсов оповещения или запланированные события, чтобы сообщить о проблемах, связанных с ресурсом

После настройки оповещений о работоспособности службы рассмотрите возможность внедрения оповещений о работоспособности ресурсов. Оповещения Azure Работоспособность ресурсов могут уведомлять вас в режиме реального времени, когда эти ресурсы имеют изменение состояния работоспособности независимо от того, почему.

Ключевое различие между оповещениями о работоспособности служб и оповещениями о работоспособности ресурсов заключается в том, что первый активируется во время известной проблемы платформы, например текущий сбой (инцидент службы), который находится под следствием корпорации Майкрософт. В отличие от этого, последний активируется, когда определенный ресурс считается неработоспособным независимо от основной причины.

Оповещения о работоспособности ресурсов можно настроить в области Работоспособность ресурсов в колонке "Работоспособность службы" портал Azure.

Screenshot of the Azure Service Health resource health.

Вы также можете создавать оповещения о работоспособности ресурсов программным способом с помощью шаблонов Azure Resource Manager и Azure PowerShell. Создание оповещений о работоспособности ресурсов программным способом позволяет создавать и настраивать оповещения массово.

Запланированные события для виртуальных машин, избегая влияния

Запланированные события — это еще один отличный инструмент, где оба типа оповещений выше уведомляют людей или системы, запланированные события уведомляют сами ресурсы. Это позволяет приложению подготовиться к обслуживанию виртуальных машин или одному из событий восстановления автоматизированной службы. Он предоставляет сигнал о неминуемом событии обслуживания (например, предстоящей перезагрузке), чтобы приложение знали, что, а затем действовать, чтобы ограничить нарушение работы , например, запустив автоматизацию, чтобы удалиться из пула или иначе снизить уровень корректности. Запланированные события доступны для всех типов виртуальных машин Azure, включая PaaS и IaaS в Windows и Linux.

Примечание.

Хотя оповещения о работоспособности ресурсов и запланированные события являются полезными средствами, наиболее важным вызовом действий является настройка оповещений о работоспособности служб. Это важно, чтобы убедиться, что вы понимаете, что происходит с вашими ресурсами, что мы делаем об этом, и когда это снижается.

Действие 4. Повышение безопасности инвестиций для защиты среды

Обеспечьте защиту данных, приложений и других ресурсов в Azure, просматривая и реализуя рекомендации по обеспечению операционной безопасности. Эти рекомендации являются производными от коллективных знаний и опыта тех, кто работает с текущими возможностями и функциями платформы Azure. Статья регулярно обновляется, чтобы отразить эволюционирование мнений и технологий.

В качестве отправной точки рассмотрим следующие основные рекомендации по реализации:

  • Требовать двухфакторную проверку подлинности для всех пользователей. В их число входят администраторы и сотрудники в организации, которые могут значительно пострадать в случае взлома их учетных записей (например, финансовые директоры). Применение многофакторной проверки подлинности для устранения проблем с этим воздействием.

  • Настройте и включите политики риска в клиенте, чтобы вы были оповещены , если "кто-либо" находится в вашей среде. Это создаст оповещение о рискованных событиях, таких как использование анонимного IP-адреса, нетипичное путешествие, незнакомые свойства входа и приведет к дальнейшим действиям по исправлению, таким как многофакторная проверка подлинности, сброс паролей и т. д. обеспечение безопасности клиентов.

  • Управляйте перемещением подписок из каталогов и в каталоги в качестве упреждающей меры, чтобы быть подготовленными и осведомленными для всех пользователей в вашей среде. Это гарантирует, что ваша организация имеет полную видимость используемых подписок и предотвращает перемещение подписок, которые могут перейти в неизвестный каталог.

  • Смена учетных данных для всех глобальных администраторов и администраторов подписок на регулярной основе для защиты от потенциальных нарушений безопасности, скомпрометированных учетных записей или несанкционированного использования привилегированных разрешений. Регулярное смена учетных данных добавляет дополнительный уровень безопасности в среду и помогает поддерживать целостность и конфиденциальность данных и ресурсов.

  • Проверка и регулярное обновление всех пользователей электронной почты и номеров телефонов глобального администратора в клиенте

Действие 5. Повышение устойчивости ключевых рабочих нагрузок Azure, чтобы избежать или свести к минимуму влияние.

Чтобы обеспечить надежность ваших рабочих нагрузок, важно оценить их с помощью принципов microsoft Azure Well-Architected Framework (WAF) через обзор Microsoft Azure Well-Architected Review. WAF также предоставляет рекомендации по тестированию устойчивости, включая внедрение методологии проектирования хаоса.

Приложения должны пройти тестирование, чтобы обеспечить доступность и устойчивость. Доступность относится к длительности работы приложения без значительного простоя, а устойчивость измеряет, как быстро приложение может восстановиться после сбоев.

Чтобы дополнить работу с WAF, рассмотрите возможность реализации следующих основных рекомендаций и использования предоставленных средств, которые помогут вам проверка и создать устойчивость в приложениях:

  • Используйте интегрированную книгу надежности в портал Azure в колонке Помощника по Azure для оценки надежности приложений, определения потенциальных рисков и планирования и реализации улучшений.

  • Повышение непрерывности бизнес-процессов и аварийного восстановления (BCDR) путем развертывания рабочих нагрузок и ресурсов в нескольких регионах. Полный список пар регионов Azure см. в списке оптимальных вариантов развертывания между регионами.

  • Максимальное обеспечение доступности в пределах региона путем распределения развертываний рабочей нагрузки и ресурсов в Зоны доступности.

  • Рекомендуется использовать изолированные размеры виртуальных машин в Azure для критически важных для бизнеса рабочих нагрузок, требующих высокого уровня изоляции. Эти размеры гарантируют, что виртуальная машина выделена определенному типу оборудования и работает независимо. Дополнительные сведения см. здесь: изоляция виртуальных машин в Azure — Azure Виртуальные машины | Microsoft Learn.

  • Рекомендуется использовать конфигурации обслуживания, чтобы лучше контролировать обновления виртуальных машин Azure и управлять ими. Эта функция позволяет планировать обновления и управлять ими, обеспечивая минимальное нарушение конфиденциальных рабочих нагрузок, которые не могут допускать простоя во время обслуживания.

  • Повышение избыточности путем реализации избыточности между регионами или внутри региона. Дополнительные сведения см. в примере веб-приложения с высоким уровнем доступности, избыточного между зонами.

  • Повышение устойчивости приложений с помощью Azure Chaos Studio. С помощью этого средства вы можете намеренно вводить контролируемые ошибки в приложениях Azure, позволяя оценить их устойчивость и наблюдать за тем, как они реагируют на различные нарушения, такие как задержка сети, сбои хранилища, истечение срока действия секретов и сбоев центра обработки данных.

  • Используйте книгу "Выход на пенсию службы", доступную в портал Azure в колонке Помощника по Azure. Это интегрированное средство помогает оставаться в курсе любых выходов служб, которые могут повлиять на критически важные рабочие нагрузки, что позволяет эффективно планировать и выполнять необходимые миграции.

Примечание.

Клиенты, имеющие соглашение Premier/Единая поддержка, могут использовать команду "Успех клиентов" для стратегизации и реализации оценки хорошо спроектированной платформы (WAF).

1.

Какое средство позволяет взаимодействовать с событиями службы и управлять действиями для обеспечения непрерывности бизнес-процессов затронутых приложений?

2.

True или False. Вы можете настроить оповещения для получения уведомлений, когда инцидент Azure (инцидент службы и безопасности) влияет на вас по электронной почте, SMS-сообщению, веб-перехватчику и т. д.

3.

Какой важный шаг, который необходимо предпринять, чтобы облегчить озабоченность по поводу риска компрометации учетной записи?

4.

Где можно найти рекомендации по тестированию устойчивости?