Знакомство с отказоустойчивостью Microsoft 365

Завершено

Устойчивость — это еще один ключевой принцип проектирования архитектуры и служб Microsoft 365. Корпорация Майкрософт разрабатывает и создает облачные службы с целью повышения надежности и минимизации негативного влияния на клиентов при сбоях и проблемах с обычной работой. Вместо того чтобы полагаться на традиционные стратегии устойчивости, включающие сложную физическую инфраструктуру, корпорация Майкрософт встраивает избыточность непосредственно в веб-службы. Мы объединяем избыточную инфраструктуру с интеллектуальным программным обеспечением для повышения устойчивости данных, предотвращения простоев и обеспечения значения 99,9 % для нашего соглашения об уровне обслуживания.

Устойчивость службы

Стратегия устойчивости Microsoft 365 в качестве приоритета определяет устойчивость программного обеспечения. Это означает, что мы нацелены на внедрение устойчивости в дизайн наших служб, чтобы обеспечить защиту от простоев служб независимо от сбоев в базовом оборудовании. Устойчивость позволяет нашим службам автоматически восстанавливаться после различных типов ошибок и сбоев, не влияя на доступность служб.

Службы Microsoft 365 реализуют ряд принципов устойчивости, в том числе:

  • "Активный-активный" дизайн службы. По возможности мы гарантируем, что наши службы разработаны и развернуты с использованием режима устойчивости "активный-активный". Это означает, что в случае сбоя критического компонента службы доступен идентичный компонент для его замены без потери доступности.
  • Изоляция сбоя. Изоляция сбоя повышает устойчивость службы, предотвращая распространение сбоя в одном компоненте на другие компоненты. Microsoft 365 непрерывно работает над уменьшением размера зон сбоев в наших службах, чтобы предотвратить распространение и влияние сбоев на другие системные компоненты. Например, группы доступности баз данных Exchange Online ограничивают влияние сбоев в службе определенными группами доступности.
  • Мониторинг и самовосстановление. Microsoft 365 используют различные автоматизированные механизмы, которые непрерывно отслеживают работоспособность наших служб и направляют трафик в оптимальные кластеры служб. Многие из наших служб включают механизмы самовосстановления при обнаружении проблемы. Например, Exchange Online автоматически восстанавливает базы данных почтовых ящиков, если обнаруживает сбой диска, который влияет на группу доступности.

Устойчивость данных

Устойчивость данных дополняет устойчивость службы путем защиты целостности и доступности данных в службах Microsoft 365. Устойчивость данных Microsoft 365 сосредоточена на обеспечении того, чтобы критически важные данные клиента остаются доступными и неизменными при непредвиденных сбоях. Для этого службы Microsoft 365 реализуют следующие принципы устойчивости данных.

  • Важность данных. Наши службы предназначены для защиты критически важных данных клиентов. Для этого мы классифицируем данные, обрабатываемые нашими системами, как критические или некритические. Некритические данные, например, было ли прочитано сообщение, могут быть удалены в редких сценариях сбоев. Критически важные данные, например данные клиента, защищены от потери во время сценариев сбоев.
  • Избыточность данных. Наши службы используют избыточность локального хранилища и геоизбыточность для репликации копий данных клиента в разные зоны сбоя. Если данные повреждены или потеряны в одной зоне сбоя, доступ к ним можно получить в другой зоне сбоя без потери доступности.
  • Детальный мониторинг и автоматическое восстановление. Наши системы отслеживают целостность данных клиентов и автоматически восстанавливают поврежденные данные. Например, Exchange Online отслеживает повреждения данных на нескольких уровнях и автоматически восстанавливает базы данных или почтовые ящики с повреждениями.
  • Защита от случайной потери. Большинство потерь данных происходят в результате действий клиента. Microsoft 365 предоставляет клиентам средства для восстановления случайно удаленных или измененных данных в Exchange Online и SharePoint Online.

Устойчивость сети

Корпорация Майкрософт владеет и управляет одной из самых больших в мире магистральных сетей, соединяющей сотни центров обработки данных в 54 глобальных регионах. Наша сеть поддерживается сотнями тысяч километров частного оптоволокна для обеспечения практически идеальной доступности, высокой пропускной способности и гибкости сети по всему миру.

Наша сеть центров обработки данных Майкрософт разработана с учетом близости к нашим клиентам и использует сотни граничных узлов для обеспечения доступности служб. Архитектура сети включает прямые подключения и множество сетевых путей. Наши службы используют эту избыточность для автоматического направления трафика в обход сбоев для повышения качества обслуживания. Кроме того, наша сеть предоставляет нам прямой контроль над емкостью сети, и мы используем программно-определяемую сеть для упреждающего управления сетевым трафиком в масштабе с целью повышения производительности и устойчивости.

Общие обязанности и зависимости

В облачных средах устойчивость — это общая ответственность между поставщиком облачных служб и клиентом. Хотя в Microsoft 365 основное внимание уделяется устойчивости служб и сети, клиенты должны знать о своих обязанностях и зависимостях для обеспечения доступности служб.

Обязанности клиентов в отношении устойчивости зависят от конкретного продукта Microsoft 365 и конкретной конфигурации клиента, но часто включают:

  • Наличие лицензий для подписок Microsoft 365.
  • Обеспечение надлежащего сетевого подключения с устройств конечных пользователей.
  • Обучение пользователей основам политик хранения и восстановления, а также использованию функций хранения.
  • Инициирование восстановления данных во время периодов хранения для соответствующих служб.
  • Управление и обслуживание любых локальных каталогов.
  • Просмотр и устранение ошибок Azure AD Sync.
  • Разработка и принятие политик на случай непредвиденных обстоятельств (например, настройка учетных записей доступа администратора для экстренных ситуаций).
  • Управление и обеспечение подключения и функциональности клиентских HSM

Подробнее