Надежность в Azure HDInsight в Служба Azure Kubernetes
Примечание.
Мы отставим Azure HDInsight в AKS 31 января 2025 г. До 31 января 2025 г. необходимо перенести рабочие нагрузки в Microsoft Fabric или эквивалентный продукт Azure, чтобы избежать резкого прекращения рабочих нагрузок. Оставшиеся кластеры в подписке будут остановлены и удалены из узла.
До даты выхода на пенсию будет доступна только базовая поддержка.
Внимание
Эта функция в настоящее время доступна для предварительного ознакомления. Дополнительные условия использования для предварительных версий Microsoft Azure включают более юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в статье Azure HDInsight в предварительной версии AKS. Для вопросов или предложений функций отправьте запрос на AskHDInsight с подробными сведениями и следуйте за нами для получения дополнительных обновлений в сообществе Azure HDInsight.
В этой статье описывается поддержка надежности в Azure HDInsight в Служба Azure Kubernetes (AKS), а также аварийное восстановление и непрерывность бизнес-процессов.
Поддержка зоны доступности
Зоны доступности Azure — это по крайней мере три физически отдельные группы центров обработки данных в каждом регионе Azure. Центры обработки данных в каждой зоне оснащены независимой питанием, охлаждения и сетевой инфраструктурой. В случае сбоя локальной зоны зоны зоны создаются таким образом, чтобы при возникновении влияния одной зоны, региональных служб, емкости и высокой доступности поддерживались остальными двумя зонами.
Сбои могут варьироваться от сбоев программного обеспечения и оборудования до таких событий, как землетрясения, наводнения и пожары. Устойчивость к сбоям достигается с избыточностью и логической изоляцией служб Azure. Дополнительные сведения о зонах доступности в Azure см. в разделе "Регионы и зоны доступности".
Службы с поддержкой зон доступности Azure предназначены для обеспечения правильного уровня надежности и гибкости. Их можно настроить двумя способами. Они могут быть избыточными по зонам с автоматической репликацией между зонами или зональными экземплярами, закрепленными в определенной зоне. Эти подходы также можно объединить. Дополнительные сведения об зональной архитектуре, избыточной между зонами, см . в рекомендациях по использованию зональных зон и регионов.
Azure HDInsight в AKS поддерживает зону доступности, используя возможность Служба Azure Kubernetes создавать пулы избыточных между зонами узлов. Вы можете выбрать зоны доступности для развертывания пула кластера и кластера во время их создания. После создания пула кластера или кластера невозможно изменить зоны доступности.
Необходимые компоненты
Зоны доступности поддерживаются только для версии >пула кластера =
1.2
и версии >кластера =1.2.1
.Azure HDInsight в AKS имеет только один номер SKU по умолчанию и поддерживает AZ до тех пор, пока регион Azure поддерживает AZ.
Следующие регионы не поддерживают AZ:
Северная и Южная Америка Европа Ближний Восток Африка Азиатско-Тихоокеанский регион западная часть США Северная Германия Некоторые номера SKU виртуальных машин могут не поддерживать все зоны доступности в регионе. Если выбрать эти номера SKU, HDInsight в пулах кластеров AKS или кластерах не поддерживает соответствующие зоны доступности.
Улучшения обслуживания
В кластерах AKS нет дополнительных соглашений об уровне обслуживания для Azure HDInsight с включенными зонами доступности.
Создание ресурса с включенной зоной доступности
Пулы кластеров можно выбрать одну или несколько зон доступности во время создания пула кластеров после выбора региона.
Кластеры можно выбрать одну или несколько зон доступности во время создания кластера.
Отказоустойчивость
Чтобы подготовиться к сбою зоны доступности, рекомендуется переоформить емкость службы, чтобы убедиться, что кластер может терпеть потерю емкости из одной зоны доступности вниз и продолжать работать без снижения производительности во время сбоев на уровне зоны. Например, если включить 3 зоны доступности, кластер должен терпеть 1/3 из узлов вниз (округление до ближайшего целого числа).
Взаимодействие с зонами вниз
Azure HDInsight в службе AKS является избыточным по зонам. Во время сбоя на уровне зоны клиент должен ожидать снижения производительности из-за снижения емкости. Клиенты по-прежнему могут создавать новые пулы кластеров и кластеры в зонах доступности, которые не влияют. Существующие кластеры могут функционировать с меньшей емкостью. Рекомендации по отдельным открытый код рабочим нагрузкам и рекомендациям приведены в документации.
Аварийное восстановление и непрерывность бизнес-процессов
Аварийное восстановление (АВАРИЙНОе восстановление) заключается в восстановлении из событий высокой нагрузки, таких как стихийные бедствия или неудачные развертывания, которые приводят к простою и потере данных. Независимо от причины, лучшее средство для аварийного восстановления является хорошо определенным и проверенным планом аварийного восстановления и проектом приложения, который активно поддерживает аварийное восстановление. Прежде чем начать думать о создании плана аварийного восстановления, ознакомьтесь с рекомендациями по разработке стратегии аварийного восстановления.
Когда дело доходит до аварийного восстановления, корпорация Майкрософт использует модель общей ответственности. В модели общей ответственности корпорация Майкрософт гарантирует, что доступны базовые службы инфраструктуры и платформы. В то же время многие службы Azure не автоматически реплицируют данные или не реплицируются из неудающегося региона для перекрестной репликации в другой включенный регион. Для этих служб вы несете ответственность за настройку плана аварийного восстановления, который работает для рабочей нагрузки. Большинство служб, работающих на платформе Azure как услуга (PaaS), предоставляют функции и рекомендации для поддержки аварийного восстановления, и вы можете использовать специальные функции службы для поддержки быстрого восстановления для разработки плана аварийного восстановления .
Azure HDInsight в службе уровня управления AKS и базах данных развертываются в разных регионах Azure. Среди этих регионов azure HDInsight в экземплярах AKS и экземплярах базы данных изолированы. Когда происходит сбой на уровне региона, один регион не работает. Все ресурсы в этом регионе, включая RP (поставщик ресурсов) Azure HDInsight на плоскости управления AKS, базу данных Azure HDInsight в плоскости управления AKS и все кластеры клиентов в этом регионе. В этом случае мы можем ждать только завершения регионального сбоя. Когда зональный сбой полностью восстановлен, Azure HDInsight в службе AKS возвращается, а все кластеры клиентов возвращаются в нормальное состояние. Возможно, вы можете столкнуться с некоторыми проблемами из-за несоответствия данных после сбоя и может потребоваться ручное исправление на основе рабочих нагрузок приложения.
Аварийное восстановление в нескольких регионах
Azure HDInsight в AKS в настоящее время не поддерживает отработку отказа между регионами. Улучшение непрерывности бизнес-процессов за счет межрегионального аварийного восстановления с высокой доступностью требует более сложных архитектурных решений и более высоких затрат. Клиенты могут разработать собственное решение для резервного копирования ключевых данных и состояния задания в разных регионах.
Обнаружение сбоев, уведомление и управление
Используйте средства мониторинга Azure в HDInsight в AKS для обнаружения ненормального поведения в кластере и задания соответствующих уведомлений оповещений. Вы можете включить Log Analytics различными способами и использовать управляемую службу Prometheus с панелями мониторинга Azure Grafana для мониторинга. Дополнительные сведения см. в статье об интеграции Azure Monitor.
Подпишитесь на оповещения о работоспособности Azure, чтобы получать уведомления о проблемах служб, плановом обслуживании, рекомендациях по работоспособности и безопасности для подписки, службы или региона. Уведомления о работоспособности, которые включают причину проблемы и ожидаемое время разрешения, помогут вам лучше выполнять отработку отказа и восстановление после сбоя. Дополнительные сведения см. в документации по управлению работоспособностью службы и работоспособностью служб Azure.
Аварийное восстановление в одном регионе
В настоящее время Azure HDInsight в AKS имеет только одно стандартное предложение службы и кластеры создаются в одном регионе. Клиенты отвечают за параметры восстановления diaster на основе требований приложения.
Устойчивость емкости и упреждающего аварийного восстановления
Azure HDInsight в AKS и ее клиентах работают в рамках модели общей ответственности, что означает, что клиент должен решать требования к аварийному восстановлению для службы, которую они развертывают и контролируют. Чтобы обеспечить упреждающее восстановление, клиенты всегда должны предопределить вторичные файлы, так как во время влияния на тех, кто не был предварительно расположен.
В отличие от HDInsight, Виртуальные машины, используемые в HDInsight в кластерах AKS, требуют той же квоты, что и виртуальные машины Azure. Дополнительные сведения см. в разделе "Планирование емкости".
Связанный контент
Дополнительные сведения по темам, обсуждавшимся в этой статье, см. в следующих разделах: