Поделиться через


Надежность в Azure HDInsight в Служба Azure Kubernetes

Примечание.

Мы отставим Azure HDInsight в AKS 31 января 2025 г. До 31 января 2025 г. необходимо перенести рабочие нагрузки в Microsoft Fabric или эквивалентный продукт Azure, чтобы избежать резкого прекращения рабочих нагрузок. Оставшиеся кластеры в подписке будут остановлены и удалены из узла.

До даты выхода на пенсию будет доступна только базовая поддержка.

Внимание

Эта функция в настоящее время доступна для предварительного ознакомления. Дополнительные условия использования для предварительных версий Microsoft Azure включают более юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в статье Azure HDInsight в предварительной версии AKS. Для вопросов или предложений функций отправьте запрос на AskHDInsight с подробными сведениями и следуйте за нами для получения дополнительных обновлений в сообществе Azure HDInsight.

В этой статье описывается поддержка надежности в Azure HDInsight на Служба Azure Kubernetes (AKS) и рассматриваются как конкретные рекомендации по надежности, так и аварийное восстановление и непрерывность бизнес-процессов. Более подробный обзор принципов надежности в Azure см. в статье "Надежность Azure".

Рекомендации по надежности

В этом разделе содержатся рекомендации по обеспечению устойчивости и доступности. Каждая рекомендация входит в одну из двух категорий:

  • Элементы работоспособности охватывают такие области, как элементы конфигурации и правильная функция основных компонентов, составляющих рабочую нагрузку Azure, такие как параметры конфигурации ресурсов Azure, зависимости от других служб и т. д.

  • Элементы риска охватывают такие области, как требования к доступности и восстановлению, тестирование, мониторинг, развертывание и другие элементы, которые, если остались неразрешенными, повышают вероятность проблем в среде.

Матрица приоритетов рекомендаций по надежности

Каждая рекомендация помечается в соответствии со следующей матрицей приоритетов:

Изображения Приоритет Описание
Высокая Необходимо немедленное исправление.
Средняя Исправление в течение 3–6 месяцев.
Низкая Необходимо проверить.

Сводка рекомендаций по надежности

Категория Приоритет Рекомендация
Availability Рекомендации по размеру виртуальных машин по умолчанию и минимальному размеру виртуальных машин
Автоматическое масштабирование HDInsight в кластерах AKS
Наблюдение Практическое руководство по интеграции с Log Analytics
Мониторинг с использованием Azure Managed Prometheus и Grafana
Безопасность Использование группы безопасности сети для ограничения трафика в HDInsight в AKS

Поддержка зоны доступности

Зоны доступности Azure — это по крайней мере три физически отдельные группы центров обработки данных в каждом регионе Azure. Центры обработки данных в каждой зоне оснащены независимой питанием, охлаждения и сетевой инфраструктурой. В случае сбоя локальной зоны зоны зоны создаются таким образом, чтобы при возникновении влияния одной зоны, региональных служб, емкости и высокой доступности поддерживались остальными двумя зонами.

Сбои могут варьироваться от сбоев программного обеспечения и оборудования до таких событий, как землетрясения, наводнения и пожары. Устойчивость к сбоям достигается с избыточностью и логической изоляцией служб Azure. Дополнительные сведения о зонах доступности в Azure см. в разделе "Регионы и зоны доступности".

Службы с поддержкой зон доступности Azure предназначены для обеспечения правильного уровня надежности и гибкости. Их можно настроить двумя способами. Они могут быть избыточными по зонам с автоматической репликацией между зонами или зональными экземплярами, закрепленными в определенной зоне. Эти подходы также можно объединить. Дополнительные сведения об зональной архитектуре, избыточной между зонами, см . в рекомендациях по использованию зональных зон и регионов.

Azure HDInsight в AKS поддерживает зону доступности, используя возможность Служба Azure Kubernetes создавать пулы избыточных между зонами узлов. Вы можете выбрать зоны доступности для развертывания пула кластера и кластера во время их создания. После создания пула кластера или кластера невозможно изменить зоны доступности.

Необходимые компоненты

  • Зоны доступности поддерживаются только для версии >пула кластера = 1.2 и версии >кластера = 1.2.1.

  • Azure HDInsight в AKS имеет только один номер SKU по умолчанию и поддерживает AZ до тех пор, пока регион Azure поддерживает AZ.

    Следующие регионы не поддерживают AZ:

    Северная и Южная Америка Европа Ближний Восток Африка Азиатско-Тихоокеанский регион
    западная часть США Северная Германия
  • Некоторые номера SKU виртуальных машин могут не поддерживать все зоны доступности в регионе. Если выбрать эти номера SKU, HDInsight в пулах кластеров AKS или кластерах не поддерживает соответствующие зоны доступности.

Улучшения обслуживания

В кластерах AKS нет дополнительных соглашений об уровне обслуживания для Azure HDInsight с включенными зонами доступности.

Создание ресурса с включенной зоной доступности

  • Пулы кластеров можно выбрать одну или несколько зон доступности во время создания пула кластеров после выбора региона.

  • Кластеры можно выбрать одну или несколько зон доступности во время создания кластера.

Отказоустойчивость

Чтобы подготовиться к сбою зоны доступности, рекомендуется переоформить емкость службы, чтобы убедиться, что кластер может терпеть потерю емкости из одной зоны доступности вниз и продолжать работать без снижения производительности во время сбоев на уровне зоны. Например, если включить 3 зоны доступности, кластер должен терпеть 1/3 из узлов вниз (округление до ближайшего целого числа).

Взаимодействие с зонами вниз

Azure HDInsight в службе AKS является избыточным по зонам. Во время сбоя на уровне зоны клиент должен ожидать снижения производительности из-за снижения емкости. Клиенты по-прежнему могут создавать новые пулы кластеров и кластеры в зонах доступности, которые не влияют. Существующие кластеры могут функционировать с меньшей емкостью. Рекомендации по отдельным открытый код рабочим нагрузкам и рекомендациям приведены в документации.

Аварийное восстановление и непрерывность бизнес-процессов

Аварийное восстановление (АВАРИЙНОе восстановление) заключается в восстановлении из событий высокой нагрузки, таких как стихийные бедствия или неудачные развертывания, которые приводят к простою и потере данных. Независимо от причины, лучшее средство для аварийного восстановления является хорошо определенным и проверенным планом аварийного восстановления и проектом приложения, который активно поддерживает аварийное восстановление. Прежде чем начать думать о создании плана аварийного восстановления, ознакомьтесь с рекомендациями по разработке стратегии аварийного восстановления.

Когда дело доходит до аварийного восстановления, корпорация Майкрософт использует модель общей ответственности. В модели общей ответственности корпорация Майкрософт гарантирует, что доступны базовые службы инфраструктуры и платформы. В то же время многие службы Azure не автоматически реплицируют данные или не реплицируются из неудающегося региона для перекрестной репликации в другой включенный регион. Для этих служб вы несете ответственность за настройку плана аварийного восстановления, который работает для рабочей нагрузки. Большинство служб, работающих на платформе Azure как услуга (PaaS), предоставляют функции и рекомендации для поддержки аварийного восстановления, и вы можете использовать специальные функции службы для поддержки быстрого восстановления для разработки плана аварийного восстановления .

Azure HDInsight в службе уровня управления AKS и базах данных развертываются в разных регионах Azure. Среди этих регионов azure HDInsight в экземплярах AKS и экземплярах базы данных изолированы. Когда происходит сбой на уровне региона, один регион не работает. Все ресурсы в этом регионе, включая RP (поставщик ресурсов) Azure HDInsight на плоскости управления AKS, базу данных Azure HDInsight в плоскости управления AKS и все кластеры клиентов в этом регионе. В этом случае мы можем ждать только завершения регионального сбоя. Когда зональный сбой полностью восстановлен, Azure HDInsight в службе AKS возвращается, а все кластеры клиентов возвращаются в нормальное состояние. Возможно, вы можете столкнуться с некоторыми проблемами из-за несоответствия данных после сбоя и может потребоваться ручное исправление на основе рабочих нагрузок приложения.

Аварийное восстановление в нескольких регионах

Azure HDInsight в AKS в настоящее время не поддерживает отработку отказа между регионами. Улучшение непрерывности бизнес-процессов за счет межрегионального аварийного восстановления с высокой доступностью требует более сложных архитектурных решений и более высоких затрат. Клиенты могут разработать собственное решение для резервного копирования ключевых данных и состояния задания в разных регионах.

Обнаружение сбоев, уведомление и управление

  • Используйте средства мониторинга Azure в HDInsight в AKS для обнаружения ненормального поведения в кластере и задания соответствующих уведомлений оповещений. Вы можете включить Log Analytics различными способами и использовать управляемую службу Prometheus с панелями мониторинга Azure Grafana для мониторинга. Дополнительные сведения см. в статье об интеграции Azure Monitor.

  • Подпишитесь на оповещения о работоспособности Azure, чтобы получать уведомления о проблемах служб, плановом обслуживании, рекомендациях по работоспособности и безопасности для подписки, службы или региона. Уведомления о работоспособности, которые включают причину проблемы и ожидаемое время разрешения, помогут вам лучше выполнять отработку отказа и восстановление после сбоя. Дополнительные сведения см. в документации по управлению работоспособностью службы и работоспособностью служб Azure.

Аварийное восстановление в одном регионе

В настоящее время Azure HDInsight в AKS имеет только одно стандартное предложение службы и кластеры создаются в одном регионе. Клиенты отвечают за параметры восстановления diaster на основе требований приложения.

Устойчивость емкости и упреждающего аварийного восстановления

Azure HDInsight в AKS и ее клиентах работают в рамках модели общей ответственности, что означает, что клиент должен решать требования к аварийному восстановлению для службы, которую они развертывают и контролируют. Чтобы обеспечить упреждающее восстановление, клиенты всегда должны предопределить вторичные файлы, так как во время влияния на тех, кто не был предварительно расположен.

В отличие от HDInsight, Виртуальные машины, используемые в HDInsight в кластерах AKS, требуют той же квоты, что и виртуальные машины Azure. Дополнительные сведения см. в разделе "Планирование емкости".

Дополнительные сведения по темам, обсуждавшимся в этой статье, см. в следующих разделах: