Поделиться через


Надежность в Microsoft Fabric

В этой статье описывается поддержка надежности в Microsoft Fabric, а также как региональная устойчивость с зонами доступности, так и восстановлением между регионами и непрерывностью бизнес-процессов. Более подробный обзор надежности в Azure см. в статье "Надежность Azure".

Поддержка зоны доступности

Зоны доступности — это физически отдельные группы центров обработки данных в регионе Azure. При сбое одной зоны службы могут переключаться на другую из оставшихся зон.

Fabric использует зоны доступности Azure для защиты элементов Fabric и Power BI от сбоев центра обработки данных. Ресурсы среды автоматически распределяются между несколькими зонами, не требуя конфигурации от пользователя.

  • Инженерия данных поддерживает зоны доступности, если используется OneLake. Если вы используете другие источники данных, такие как ADLS Gen2, то необходимо убедиться, что зонально-избыточное хранилище (ZRS) включено.

Опыт снижения активности в зоне

Во время сбоя на уровне зоны не требуется никаких действий клиента. Возможности сетевой структуры восстанавливаются и перебалансируются автоматически, чтобы использовать здоровую зону. В некоторых случаях операции может потребоваться перезапустить. Например, выполнение заданий Spark может завершиться ошибкой, если главный узел находится в зоне сбоя. В таком случае задания должны быть повторно отправлены. Запрос конечной точки хранилища данных и аналитики SQL может завершиться ошибкой, если внешний узел находится в неработоспособной зоне. В таком случае запрос должен быть безопасно перезапущен.

Important

Хотя корпорация Майкрософт стремится обеспечить единую и согласованную поддержку зон доступности, в некоторых случаях сбоя зоны доступности мощности Fabric, расположенные в регионах Azure с более высокими колебаниями спроса клиентов, могут испытывать более высокую, чем обычно, задержку.

Аварийное восстановление между регионами и непрерывность бизнес-процессов

Аварийное восстановление (DR) относится к процедурам, которые организации используют для восстановления после событий значительного воздействия, таких как стихийные бедствия или ошибочные развертывания, которые приводят к простою и потере данных. Независимо от причины, лучшее средство для аварийного восстановления является хорошо определенным и проверенным планом аварийного восстановления и проектом приложения, который активно поддерживает аварийное восстановление. Прежде чем приступить к созданию плана аварийного восстановления, ознакомьтесь с рекомендациями по разработке стратегии аварийного восстановления.

Для восстановления после сбоя компания Microsoft использует модель общей ответственности. В этой модели корпорация Майкрософт гарантирует, что доступны базовые инфраструктуры и службы платформы. Однако многие службы Azure не делают автоматической репликации данных и не обеспечивают возврат из вышедшего из строя региона для перекрестной репликации в другой доступный регион. Для этих служб вы отвечаете за настройку плана аварийного восстановления, подходящего для вашей рабочей нагрузки. Большинство служб, работающих на платформе Azure как услуга (PaaS), предоставляют функции и рекомендации для поддержки аварийного восстановления. Вы можете использовать специализированные функции для поддержки быстрого восстановления и разработки плана аварийного восстановления.

В этом разделе описывается план аварийного восстановления для Fabric, предназначенный для обеспечения безопасности и доступности данных в организации при возникновении незапланированной региональной катастрофы. План охватывает следующие разделы:

  • Репликация между регионами: Структура предлагает репликацию между регионами для данных, хранящихся в OneLake. Вы можете отказаться от этой функции в зависимости от ваших требований.

  • Доступ к данным после аварии: в региональном сценарии аварии Fabric гарантирует доступ к данным с определенными ограничениями. Хотя создание или изменение элементов ограничено после переключения на резервный ресурс, основное внимание уделяется обеспечению доступности и сохранности существующих данных.

  • Руководство по восстановлению: Fabric предлагает вам набор инструкций, которые помогут пройти процесс восстановления. Структурированное руководство упрощает переход к обычным операциям.

Power BI, которая теперь входит в состав Fabric, имеет надежную систему аварийного восстановления и предлагает следующие функции:

  • BCDR как по умолчанию: Power BI автоматически включает возможности аварийного восстановления в своем предложении по умолчанию. Вам не нужно включать или активировать эту функцию отдельно.

  • Репликация между регионами. Power BI использует геоизбыточное репликацию хранилища Azure и геоизбыточноерепликацию SQL Azure , чтобы гарантировать наличие экземпляров резервного копирования в других регионах и их можно использовать. Это означает, что данные дублируются в разных регионах, повышая доступность и уменьшая риски, связанные с региональными сбоями.

  • Продолжающиеся службы и доступ после аварии: даже во время разрушительных событий элементы Power BI остаются доступными в режиме только для чтения. Элементы включают семантические модели, отчеты и панели мониторинга, гарантируя, что предприятия могут продолжать свои процессы анализа и принятия решений без значительных помех.

Дополнительные сведения см. в разделе "Высокая доступность, отработка отказа и аварийное восстановление в Power BI"

Important

Для клиентов, пострадавших от аварии и у которых домашние регионы не имеют парного региона Azure, поддерживающего Fabric, возможность использования емкостей Fabric может быть скомпрометирована, даже если данные в этих емкостях реплицируются. Это ограничение связано с инфраструктурой домашнего региона, важной для работы мощностей. Чтобы просмотреть список регионов, поддерживающих Fabric, перейдите в раздел "Доступность региона Fabric".

Функциональность региона и мощности дома

Для эффективного планирования аварийного восстановления важно понимать связь между вашим домашним регионом и местами размещения возможностей. Понимание домашних регионов и локаций емкости помогает стратегически выбирать регионы емкости, а также вырабатывать соответствующие процессы репликации и восстановления.

Домашний регион для клиента и хранилища данных вашей организации устанавливается на адрес выставления счетов первого пользователя, который регистрируется. Дополнительные сведения о настройке арендатора (tenant) см. в разделе "Планирование реализации Power BI: настройка арендатора". При создании новых емкостей хранилище данных по умолчанию присваивается домашнему региону. Если вы хотите изменить регион хранения данных в другой регион, вам потребуется включить функцию Multi-Geo( Fabric Premium).

Important

Выбор другого региона для вместимости не приводит к полной миграции ваших данных в этот регион. Некоторые элементы данных по-прежнему хранятся в домашнем регионе. Сведения о том, какие данные остаются в домашнем регионе и какие данные хранятся в регионе с поддержкой нескольких регионов, см. в разделе "Настройка поддержки нескольких регионов" для Fabric Premium.

В случае домашнего региона, который не имеет парного региона, возможности в любом регионе с поддержкой нескольких регионов могут столкнуться с операционными трудностями в случае катастрофы в домашнем регионе, так как основные функции службы зависят от домашнего региона.

Если выбрать регион с поддержкой нескольких регионов в ЕС, вы гарантируете, что данные хранятся в пределах границы данных ЕС.

Для получения информации о том, как определить свой домашний регион, см. Найти домашний регион Fabric.

Настройка емкости аварийного восстановления

Fabric предоставляет переключатель аварийного восстановления на странице параметров емкости. Она доступна, когда региональные пары Azure соответствуют присутствию службы Fabric. Ниже приведены характеристики этого переключателя:

  • Доступ к роли: только пользователи с ролью администратора емкости или выше могут использовать этот параметр.

  • Степень детализации. Степень детализации коммутатора — это уровень емкости. Он доступен как для емкостей Premium, так и Fabric.

  • Область данных: переключатель аварийного восстановления специально обращается к данным OneLake, включая данные Lakehouse и Warehouse. Параметр не влияет на данные, хранящиеся за пределами OneLake.

  • Непрерывность BCDR для Power BI. Хотя восстановление после сбоев для данных OneLake можно включать и отключать, BCDR для Power BI всегда поддерживается, независимо от того, включен или отключен переключатель.

  • Частота. После изменения параметра емкости аварийного восстановления необходимо ждать 30 дней, прежде чем снова изменить его. Период ожидания устанавливается для поддержания стабильности и предотвращения постоянного переключения.

Снимок экрана настройки арендатора восстановления после катастрофы.

Note

После включения параметра настройки емкости для аварийного восстановления или создания новых рабочих пространств в емкости репликация данных может занять некоторое время. Вы можете убедиться, что репликация началась, проверив, выставляется ли хранилище для определенной рабочей области как хранилище OneLake BCDR в приложении метрик емкости Microsoft Fabric.

Репликация данных

Если включить параметр емкости аварийного восстановления, репликация между регионами включена как возможность аварийного восстановления для данных OneLake. Платформа Fabric синхронизируется с регионами Azure для создания пар геоизбыточности. Однако в некоторых регионах нет партнёрского региона Azure, или у партнёрского региона отсутствует поддержка Fabric. Для этих регионов репликация данных недоступна. Дополнительные сведения см. в разделах «Регионы с зонами доступности и без пары регионов» и «Доступность региона Fabric».

Note

Хотя Fabric предлагает решение для репликации данных в OneLake для поддержки аварийного восстановления, существуют заметные ограничения. Например, данные баз данных и наборов запросов KQL хранятся внешне в OneLake, что означает, что требуется отдельный подход к аварийному восстановлению. Дополнительные сведения о подходе к аварийному восстановлению для каждого элемента Fabric см. в оставшейся части этого документа.

Billing

Функция аварийного восстановления в Fabric обеспечивает георепликацию данных для повышения безопасности и надежности. Эта функция потребляет больше ресурсов хранения и транзакций, которые начисляются как ресурсы хранения BCDR и операции BCDR соответственно. Этими затратами можно отслеживать и управлять в приложении метрик емкости Microsoft Fabric, где они отображаются как отдельные элементы строки.

Исчерпывающие сведения обо всех связанных затратах на восстановление после аварийных ситуаций, которые помогут вам спланировать и составить бюджет соответствующим образом, см. в разделе OneLake: потребление ресурсов вычислений и хранилища.

Настройка аварийного восстановления

Хотя Fabric предоставляет функции аварийного восстановления для поддержки устойчивости данных, необходимо выполнить определенные действия вручную, чтобы восстановить службу во время сбоев. В этом разделе описаны действия, которые необходимо предпринять для подготовки к потенциальным нарушениям.

Этап 1. Подготовка

  • Активируйте параметры емкости аварийного восстановления: регулярно просматривайте и устанавливайте параметры емкости аварийного восстановления, чтобы убедиться, что они соответствуют вашим потребностям в защите и производительности.

  • Создание резервных копий данных. Скопируйте критически важные данные, хранящиеся вне OneLake, в другой регион таким образом, чтобы выровнять план аварийного восстановления.

Этап 2: Переключение на резерв в случае аварии

Когда крупная катастрофа делает основной регион неподлежащим восстановлению, Microsoft Fabric инициирует региональное переключение. Портал Fabric недоступен до завершения переключения на резервный сервер, и уведомление будет размещено на странице поддержки Microsoft Fabric.

Время завершения отработки отказа может отличаться, хотя обычно оно занимает менее одного часа. После завершения переключения в случае сбоя вы можете ожидать следующее:

  • Портал Fabric: вы можете получить доступ к порталу и операции чтения, например просматривать существующие рабочие области, потоки задач в рабочих областях и элементы, продолжать работать. Все операции записи, такие как создание или изменение рабочей области, приостановлены.

  • Power BI. Вы можете выполнять операции чтения, такие как отображение панелей мониторинга и отчетов. Обновления, операции публикации отчетов, изменения панели мониторинга и отчета, а также другие операции, требующие изменений в метаданных, не поддерживаются.

  • Lakehouse или Warehouse: вы не можете открыть эти элементы, но к файлам можно получить доступ через API-интерфейсы Или инструменты OneLake.

  • Определение задания Spark: нельзя открывать определения заданий Spark, но к файлам кода можно обращаться через API-интерфейсы Или средства OneLake. Все метаданные или конфигурации будут сохранены после переключения на резервный сервер.

  • Записная книжка: вы не можете открывать записные книжки, а содержимое кода не будет сохранено после аварии.

  • Модель машинного обучения или эксперимент. Нельзя открывать модели машинного обучения или эксперименты. Содержимое кода и метаданные, такие как метрики выполнения и конфигурации, не будут сохранены после аварии.

  • Поток данных 2-го поколения или конвейера или события: вы не можете открыть эти элементы, но для защиты данных можно использовать поддерживаемые назначения аварийного восстановления (озера или хранилища).

  • База данных или набор запросов KQL: после отработки отказа вы не сможете получить доступ к базам данных KQL и наборам запросов. Для защиты данных в базах данных и наборах запросов KQL требуются дополнительные действия.

В случае аварии портал Fabric и Power BI находятся в режиме только для чтения, а другие элементы Fabric недоступны, вы можете получить доступ к их данным, хранящимся в OneLake, с помощью API или сторонних средств. Портал и Power BI сохраняют возможность выполнять операции чтения и записи данных. Эта возможность гарантирует, что критически важные данные остаются доступными и изменяемыми и устраняют потенциальные нарушения бизнес-операций.

Данные OneLake по-прежнему доступны через несколько каналов:

  • API OneLake ADLS 2-го поколения: см . статью "Подключение к Microsoft OneLake"

  • Примеры инструментов, которые могут подключаться к данным OneLake:

  • В случае аварии каталог OneLake находится в режиме только для чтения:

    • Перейдите на вкладку "Обзор", чтобы просмотреть все элементы и рабочие области, включая их метаданные и связанные сведения.

    • Вкладка "Управление": Вы можете получить доступ к вкладке "Управление" для просмотра аналитики, рекомендуемых действий и инструментов управления на основе последнего успешного обновления модели перед переключением на резервный узел.

Этап 3. План восстановления

Хотя Структура гарантирует, что данные остаются доступными после аварии, вы также можете действовать для полного восстановления служб в состоянии до инцидента. В этом разделе представлено пошаговое руководство по работе с процессом восстановления.

Действия по восстановлению

  1. Создайте новую емкость Fabric в любом регионе после аварии. Учитывая высокий спрос во время таких событий, рекомендуется выбрать регион за пределами основного географического региона, чтобы повысить вероятность доступности службы вычислений. Сведения о создании емкости см. в статье "Приобретение подписки Microsoft Fabric".

  2. Создайте рабочие области в недавно созданной емкости. При необходимости используйте те же имена, что и в старых рабочих областях.

  3. Создайте элементы с теми же именами, что и те, которые требуется восстановить. Этот шаг важен, если вы используете пользовательский скрипт для восстановления лейкхаусов и складов.

  4. Восстановите предметы. Для восстановления каждого элемента следуйте соответствующему разделу в руководстве по аварийному восстановлению для конкретного опыта.

Дальнейшие шаги